一. 前言
在前面的几篇文章中我介绍了如何通过python分析源代码来爬取博客、维基百科infobox和图片,其文章链接如下:
[python学习] 简单爬取维基百科程序语言消息盒 [python学习] 简单网络爬虫抓取博客文章及思想介绍
[python学习] 简单爬取图片网站图库中图片 其中核心代码如下:
# coding=utf-8
import urllib
import re
#下载静态html网页
url=’http://www.csdn.net/’
content = urllib.urlopen(url).read()
open(‘csdn.html’,’w+’).write(content)
#获取标题
title_pat=r'(?