编写python脚本抓取网络小说来制作自己的阅读器

你是否苦恼于网上无法下载的“小说在线阅读”内容？或是某些文章的内容让你很有收藏的冲动，却找不到一个下载的链接？是不是有种自己写个程序把全部搞定的冲动？是不是学了 python，想要找点东西大展拳脚，告诉别人“哥可是很牛逼的！”？那就让我们开始吧！哈哈~
好吧，我就是最近写 yii 写多了，想找点东西调剂一下…. = =

本项目以研究为目的，所有版权问题我们都是站在作者的一边，以看盗版小说为目的的读者们请自行面壁！
说了这么多，我们要做的就是把小说正文的内容从网页上爬下来，我们的研究对象是全本小说网….再次声明，不对任何版权负责….
一开始先做最基础的内容，就是把某一章的内容抓取下来。

环境：ubuntu, python 2.7

基础知识
这个程序涉及到的知识点有几个，在这里列出来，不详细讲，有疑问的直接百度会有一堆的。
1.urllib2 模块的 request 对像来设置 http 请求，包括抓取的 url，和伪装浏览器的代理。然后就是 urlopen 和 read 方法，都很好理解。
2.chardet 模块，用于检测网页的编码。在网页上抓取数据很容易遇到乱码的问题，为了判断网页是 gtk 编码还是 utf-8 ，所以用 chardet 的 detect 函数进行检测。在用 windows 的同学可以在这里 http://download.csdn.net/detail/jcjc918/8231371 下载，解压到 python 的 lib 目录下就好。
3. decode 函数将字符串从某种编码转为 unicode 字符，而 encode 把 unicode 字符转为指定编码格式的字符串。
4. re 模块正则表达式的应用。search 函数可以找到和正则表达式对应匹配的一项，而 replace 则是把匹配到的字符串替换。

思路分析：
我们选取的 url 是 http://www.quanben.com/xiaoshuo/0/910/59302.html，斗罗大陆的第一章。你可以查看网页的源代码，会发现只有一个 content 标签包含了所有章节的内容，所以可以用正则把 content 的标签匹配到，抓取下来。试着把这一部分内容打印出来，会发现很多和 &nbsp，要替换成换行符， &nbsp 是网页中的占位符，即空格，替换成空格就好。这样一章的内容就很美观的出来了。完整起见，同样用正则把标题爬下来。

程序

# -*- coding: utf-8 -*-
import urllib2
import re
import chardet
class book_spider:
def __init__(self):
self.pages = []
# 抓取一个章节
def getpage(self):
myurl = “http://www.quanben.com/xiaoshuo/0/910/59302.html”;
user_agent = ‘mozilla/4.0 (compatible; msie 5.5; windows nt)’
headers = { ‘user-agent’ : user_agent }
request = urllib2.request(myurl, headers = headers)
myresponse = urllib2.urlopen(request)
mypage = myresponse.read()
#先检测网页的字符编码,最后统一转为 utf-8
charset = chardet.detect(mypage)
charset = charset[‘encoding’]
if charset == ‘utf-8’ or charset == ‘utf-8’:
mypage = mypage
else:
mypage = mypage.decode(‘gb2312′,’ignore’).encode(‘utf-8’)
unicodepage = mypage.decode(“utf-8”)
try:
#抓取标题
my_title = re.search(‘(.*?)’,unicodepage,re.s)
my_title = my_title.group(1)
except:
print ‘标题 html 变化，请重新分析！’
return false
try:
#抓取章节内容
my_content = re.search(‘(.*?)

发表评论 取消回复

发表评论取消回复