一、打开一个网页获取所有的内容
from urllib import urlopendoc = urlopen(“http://www.baidu.com”).read()print doc
二、获取http头
from urllib import urlopendoc = urlopen(“http://www.baidu.com”)print doc.info()print doc.info().getheader(‘content-type’)
三、使用代理
1. 查看环境变量
print “”n”.join([“%s=%s” % (k, v) for k, v in os.environ.items()])print os.getenv(“http_proxy”)
2. 设置环境变量
import os os.putenv(“http_proxy”, “http://proxyaddr:”)
3. 使用代理
# use http://www.someproxy.com:3128 for http proxyingproxies = {‘http’: ‘http://www.someproxy.com:3128’}filehandle = urllib.urlopen(some_url, proxies=proxies)# don’t use any proxiesfilehandle = urllib.urlopen(some_url, proxies={})# use proxies from environment – both versions are equivalentfilehandle = urllib.urlopen(some_url, proxies=none)filehandle = urllib.urlopen(some_url)