实践python的爬虫框架scrapy来抓取豆瓣电影top250

安装部署scrapy

在安装scrapy前首先需要确定的是已经安装好了python（目前scrapy支持python2.5，python2.6和python2.7）。官方文档中介绍了三种方法进行安装，我采用的是使用 easy_install 进行安装，首先是下载windows版本的setuptools（下载地址：http://pypi.python.org/pypi/setuptools），下载完后一路next就可以了。
安装完setuptool以后。执行cmd，然后运行一下命令：

easy_install -u scrapy

同样的你可以选择使用pip安装，pip的地址：http://pypi.python.org/pypi/pip
使用pip安装scrapy的命令为

pip install scrapy

如果你的电脑先前装过visual studio 2008 或 visual studio 2010那么一起顺利，scrapy已经安装完成。如果出现下列报错：unable to find vcvarsall.bat 那么你需要折腾下。你可以安装visual studio 后进行安装或采用下面的方式进行解决：
首先安装mingw（mingw下载地址：http://sourceforge.net/projects/mingw/files/），在mingw的安装目录下找到bin的文件夹，找到mingw32-make.exe，复制一份更名为make.exe；
把mingw的路径添加到环境变量path中，比如我把mingw安装到d:\mingw\中，就把d:\mingw\bin添加到path中；
打开命令行窗口，在命令行窗口中进入到要安装代码的目录下；
输入如下命令 setup.py install build –compiler=mingw32 就可以安装了。

如果出现“xslt-config’ 不是内部或外部命令，也不是可运行的程序或批处理文件。”错误，原因主要是lxml安装不成功，只要上http://pypi.python.org/simple/lxml/下载个exe文件进行安装就可以了。
下面就可以进入正题了。

新建工程
让我们来用爬虫获取豆瓣电影top 250的电影信息吧。开始之前，我们新建一个scrapy工程。因为我用的win7，所以在cmd中进入一个我希望保存代码的目录，然后执行：

d:\web\python>scrapy startproject doubanmoive

这个命令会在当前目录下创建一个新的目录doubanmoive，目录结构如下：

d:\web\python\doubanmoive>tree /f
folder path listing for volume data
volume serial number is 00000200 34ec:9cb9
d:.
│ scrapy.cfg
│
└─doubanmoive
│ items.py
│ pipelines.py
│ settings.py
│ __init__.py
│
└─spiders
__init__.py

这些文件主要为：

doubanmoive/items.py: 定义需要获取的内容字段，类似于实体类。
doubanmoive/pipelines.py: 项目管道文件，用来处理spider抓取的数据。
doubanmoive/settings.py: 项目配置文件
doubanmoive/spiders: 放置spider的目录

定义项目(item)

item是用来装载抓取数据的容器，和java里的实体类（entity）比较像，打开doubanmoive/items.py可以看到默认创建了以下代码。

from scrapy.item import item, field
class doubanmoiveitem(item):
pass

我们只需要在 doubanmoive 类中增加需要抓取的字段即可，如 name=field() ，最后根据我们的需求完成代码如下。

from scrapy.item import item, field
class doubanmoiveitem(item):
name=field()#电影名
year=field()#上映年份
score=field()#豆瓣分数
director=field()#导演
classification=field()#分类
actor=field()#演员

编写爬虫(spider)

spider是整个项目中最核心的类，在这个类里我们会定义抓取对象（域名、url)以及抓取规则。scrapy官方文档中的教程是基于 basespider 的，但 basespider 只能爬取给定的url列表，无法根据一个初始的url向外拓展。不过除了 basespider ，还有很多可以直接继承 spider 的类，比如 scrapy.contrib.spiders.crawlspider 。

在 doubanmoive/spiders 目录下新建moive_spider.py文件，并填写代码。

# -*- coding: utf-8 -*-
from scrapy.selector import selector
from scrapy.contrib.spiders import crawlspider,rule
from scrapy.contrib.linkextractors.sgml import sgmllinkextractor
from doubanmoive.items import doubanmoiveitem
class moivespider(crawlspider):
name=”doubanmoive”
allowed_domains=[“movie.douban.com”]
start_urls=[“http://movie.douban.com/top250″]
rules=[
rule(sgmllinkextractor(allow=(r’http://movie.douban.com/top250\?start=\d+.*’))),
rule(sgmllinkextractor(allow=(r’http://movie.douban.com/subject/\d+’)),callback=”parse_item”),
]
def parse_item(self,response):
sel=selector(response)
item=doubanmoiveitem()
item[‘name’]=sel.xpath(‘//*[@]/h1/span[1]/text()’).extract()
item[‘year’]=sel.xpath(‘//*[@]/h1/span[2]/text()’).re(r’\((\d+)\)’)
item[‘score’]=sel.xpath(‘//*[@]/p/p[1]/strong/text()’).extract()
item[‘director’]=sel.xpath(‘//*[@]/span[1]/a/text()’).extract()
item[‘classification’]= sel.xpath(‘//span[@property=”v:genre”]/text()’).extract()
item[‘actor’]= sel.xpath(‘//*[@]/span[3]/a[1]/text()’).extract()
return item

代码说明： moivespider 继承scrapy中的 crawlspider ， name , allow_domains , start_url 看名字就知道什么含义，其中rules稍微复杂一些，定义了url的抓取规则，符合 allow 正则表达式的链接都会加入到scheduler（调度程序）。通过分析豆瓣电影top250的分页url http://movie.douban.com/top250?start=25&filter=&type= 可以得到以下规则

rule(sgmllinkextractor(allow=(r’http://movie.douban.com/top250\?start=\d+.*’))),
而我们真正要抓取的页面是每一个电影的详细介绍，如肖申克的救赎的链接为 http://movie.douban.com/subject/1292052/ ，那只有 subject 后面的数字是变化的，根据正则表达式得到如下代码。我们需要抓取这种类型链接中的内容，于是加入callback属性，将response交给parse_item函数来处理。

rule(sgmllinkextractor(allow=(r’http://movie.douban.com/subject/\d+’)),callback=”parse_item”),
在 parse_item 函数中的处理逻辑非常简单，获取符合条件链接的代码，然后根据一定的规则抓取内容赋给item并返回 item pipeline 。获取大部分标签的内容不需要编写复杂的正则表达式，我们可以使用 xpath 。 xpath 是一门在 xml 文档中查找信息的语言，但它也可以用在html中。下表列出了常用表达式。

表达式
描述

nodename
选取此节点的所有子节点。

/
从根节点选取。

//
从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。

.
选取当前节点。

..
选取当前节点的父节点。

@
选取属性。

如 //*[@]/h1/span[1]/text() 获取的结果是在id为content的任意元素下h1元素下的span列表中第一个元素的文本内容。我们可以通过chrome开发者工具(f12)来获取某内容的xpath表达式，具体操作为在需要抓取的内容上点击审查元素，下方就会出现开发者工具，并定位到该元素，在内容上点击右键，选择复制xpath。

2016120115233281.jpg (550×307)

存储数据

爬虫获取到数据以后我们需要将其存储到数据库中，之前我们提到该操作需要靠项目管道（pipeline）来处理，其通常执行的操作为：

清洗html数据
验证解析到的数据（检查项目是否包含必要的字段）
检查是否是重复数据（如果重复就删除）
将解析到的数据存储到数据库中

由于我们获取的数据格式多种多样，有一些存储在关系型数据库中并不方便，所以我在写完mysql版本的pipeline之后又写了一个mongodb的。

mysql版本：

# -*- coding: utf-8 -*-
from scrapy import log
from twisted.enterprise import adbapi
from scrapy.http import request
import mysqldb
import mysqldb.cursors
class doubanmoivepipeline(object):
def __init__(self):
self.dbpool = adbapi.connectionpool(‘mysqldb’,
db = ‘python’,
user = ‘root’,
passwd = ‘root’,
cursorclass = mysqldb.cursors.dictcursor,
charset = ‘utf8’,
use_unicode = false
)
def process_item(self, item, spider):
query = self.dbpool.runinteraction(self._conditional_insert, item)
query.adderrback(self.handle_error)
return item
def _conditional_insert(self,tx,item):
tx.execute(“select * from doubanmoive where m_name= %s”,(item[‘name’][0],))
result=tx.fetchone()
log.msg(result,level=log.debug)
print result
if result:
log.msg(“item already stored in db:%s” % item,level=log.debug)
else:
classification=actor=”
lenclassification=len(item[‘classification’])
lenactor=len(item[‘actor’])
for n in xrange(lenclassification):
classification+=item[‘classification’][n]
if n

发表评论 取消回复

发表评论取消回复