python实现检测代理ip是否可以翻墙

那堵墙着实可恨!身处it这个圈子,经常需要用gg查资料(你也可以用来访问1024,^_^…)。当然,你也可以用百度。其实也不是我不爱用百度,是有缘由的,且听我细细道来。有一次闲得蛋疼,想看看会不会有人抄袭我的博客(尽管博客学得不咋地),于是百度了一下,结果是惊人的。我发现我自己写的博客,即使是拿整个标题去搜索,往往搜不到,搜到的是一堆爬虫爬去的结果。具体是哪些,这里就不说了,各自可以拿自己的博客试一下。以前总是手工收集几个ip用一段时间,失效了以后再重新收集几个,如此反复,烦!于是,想着写个爬虫抓取代理ip,然后每次直接数据库里面找几个出来用就行了。然而,爬虫爬过来的ip有很多已经失效了。这时又沦落为手工测试,这不是为自己增添更多的烦恼吗?于是写个检测代理ip是否可用的程序,让程序帮我检测好了。这样每次我就可以拿到可用的代理ip了。由于爬虫是用scrapy写的,为了方便维护,ip检测就作为scrapy爬虫里面的一部分好了。于是有了下面这段检测的程序:

1、创建文件:checkproxy.py

#coding=utf-8
import urllib2
import urllib
import time
import socket
ip_check_url = ‘http://www.google.com.hk/’
user_agent = ‘mozilla/5.0 (windows nt 6.1; wow64; rv:12.0) gecko/20100101 firefox/12.0’
socket_timeout = 30
# check proxy
def check_proxy(protocol, pip):
try:
proxy_handler = urllib2.proxyhandler({protocol:pip})
opener = urllib2.build_opener(proxy_handler)
# opener.addheaders = [(‘user-agent’, user_agent)] #这句加上以后无法正常检测,不知道是什么原因。
urllib2.install_opener(opener)
req = urllib2.request(ip_check_url)
time_start = time.time()
conn = urllib2.urlopen(req)
# conn = urllib2.urlopen(ip_check_url)
time_end = time.time()
detected_pip = conn.read()
proxy_detected = true
except urllib2.httperror, e:
print “error: code “, e.code
return false
except exception, detail:
print “error: “, detail
return false
return proxy_detected
def main():
socket.setdefaulttimeout(socket_timeout)
print
protocol = “http”
current_proxy = “212.82.126.32:80″
proxy_detected = check_proxy(protocol, current_proxy)
if proxy_detected:
print (” working: ” + current_proxy)
else:
print ” failed: %s ” % ( current_proxy, )
if __name__ == ‘__main__’:
main()

2、测试:

[root@bogon proxyipspider]# python checkproxy.py
working: 212.82.126.32:80

  当然,这只是程序的一个原型,真正检测的程序还需要结合数据库或文件操作来完成。代理ip检测出来了,那么剩下的就是设置了。设置好以后,尽情地gg吧。1024你想看多久就看多久,不过还是不要看多为好,你懂的。如果你想上脸谱、油土鳖和推特,这些就靠你自己了,这里只是gg而已。

  程序猿嘛,总是想通过自己的双手来解决点问题。那颗change the world的心没有变,就像博客园的口号那样“代码改变世界”。看到哪个东西不爽,自己造一个吧。it界这样的例子太多了,天天用的vi、github等等。好了,就到这,1024去,走起。。。

  那道墙着实可恨!

Posted in 未分类

发表评论