python3使用urllib模块制作网络爬虫

urllib

urllib模块是python3的url处理包

其中:

1、urllib.request主要是打开和阅读urls

个人平时主要用的1:

打开对应的url:urllib.request.open(url)

用urllib.request.build_opener([handler, …]),来伪装成对应的浏览器

import urllib
#要伪装成的浏览器(我这个是用的chrome)
headers = (‘user-agent’,’mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/46.0.2490.86 safari/537.36′)
url=’http://hotels.ctrip.com/’
opener = urllib.request.build_opener()
#将要伪装成的浏览器添加到对应的http头部
opener.addheaders=[headers]
#读取相应的url
data = opener.open(url).read()
#将获得的html解码为utf-8
data=data.decode(‘utf-8’)
print(data)

2、urllib.parse主要是用来解析url

主要方法:

urllib.parse.urlparse(urlstring)

功能:将对应的url解析成六部分,并以元组的数据格式返回来。(在功能上和urlsplit()几乎一模一样)

import urllib
o = urllib.parse.urlparse(‘http://www.cwi.nl:80/%7eguido/python.html’)
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())

对应的结果:

parseresult(scheme=’http’, netloc=’www.cwi.nl:80′, path=’/%7eguido/python.html’, params=”, query=”, fragment=”)
/%7eguido/python.html
http
80
http://www.cwi.nl:80/%7eguido/python.html

2、构建一个新的url——urllib.parse.urljoin(base, url)

参数:base:基本的url链接

url:另一个url

from urllib.parse import urljoin
a=urljoin(‘http://www.cwi.nl/%7eguido/python.html’, ‘faq.html’)
print(a)

结果:http://www.cwi.nl/%7eguido/faq.html

这个函数在爬虫的时候应该方便多了,我之前用的是比较笨的方法直接字符串拼接

3、异常处理 urllib.error

用 try-except来捕捉异常

主要的错误方式就两种 urlerror和httperror

因为httperror是urlerror的子类,所以urlerror应该写在httperror后面,说白了就是找到儿子一定知道父亲,找到父亲,不一定知道儿子。

try:
data=urllib.request.urlopen(url)
print(data.read().decode(‘utf-8’))
except urllib.error.httperror as e:
print(e.code)
except urllib.error.urlerror as e:
print(e.reason)

结果:[winerror 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。

如果捕获到了httperror,则输出code,不会再处理urlerror异常。如果发生的不是httperror,则会去捕获urlerror异常,输出错误原因

Posted in 未分类

发表评论