用python写爬虫,用什么方式、框架比较好?

以前只写过很简单的python爬虫,直接用内置库实现,有没有谁用python爬过规模较大的数据,用的是什么方法? 还有,采用现有的python爬虫框架,相比与直接使用内置库,优势在哪?因为python本身写爬虫已经很简单了。回复内容:
可以看看 scrapy ( http://scrapy.org/ ),基于这个框架来写自己的爬虫
由于项目需求收集并使用过一些爬虫相关库,做过一些对比分析。以下是我接触过的一些库:beautiful soup。名气大,整合了一些常用爬虫需求。缺点:不能加载js。scrapy。看起来很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。mechanize。优点:可以加载js。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。selenium。这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。cola。一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高,不过值得借鉴。

以下是我的一些实践经验:

对于简单的需求,比如有固定pattern的信息,怎么搞都是可以的。对于较为复杂的需求,比如爬取动态页面、涉及状态转换、涉及反爬虫机制、涉及高并发,这种情况下是很难找到一个契合需求的库的,很多东西只能自己写。

至于题主提到的:

还有,采用现有的python爬虫框架,相比与直接使用内置库,优势在哪?因为python本身写爬虫已经很简单了。

third party library可以做到built-in library做不到或者做起来很困难的事情,仅此而已。还有就是,爬虫简不简单,完全取决于需求,跟python是没什么关系的。
要处理 js 运行后的结果,可以使用 html5lib。但我觉得最好的是用 beautifulsoup4 的接口,让它内部用 html5lib。
自己写爬虫的话,用一些异步事件驱动库,如gevent,比单纯多线程要好很多。
大二的时候写了一个网络爬虫 爬取 http://amazon.com的某类商品的bestseller top100 的所有评论。也不用什么框架,在linux下用的叫做 beautifulsoup的库帮助解析html,正则表达式也可以啦 不过好麻烦。爬虫好慢啦,有个小技巧是走代理,因为是外国网站嘛,非常慢,而且可以防止同一个ip访问次数太多。大概有几万个网页吧,然后用beautifsoup解析,挑一些自己感兴趣的数据,比如打分、评论、商家、分类什么的。然后用一些科学库做一些简单的统计和报表,比如 numpy、scipy、matplotlib等。网上也有好多数据生成报表的 js 库,很酷炫,也很不错的 :)恩,就是这样。
我也来回答一下吧.如果楼主想爬去更大规模的东西,可以有两种方案,一种自己写一个爬虫框架,另一总通过爬虫框架.1,自己动手写一个爬虫框架,我没写过没法说2,通过线程的爬虫框框架.用的比较多的是scrapy,首先scrapy异步,然后scrapy可以写成分布式爬虫.这样面对大数据再也不用爬一辈子啦.另外还有pyspider,sola等.更多的爬虫我也在收集中,不过如果你要着手开始用框架的话,大概只能找到这两个,究其原因,还是因为很多框架是是英语写的吧,大部分不愿意爬英语的坑.还有有人提到cola,这个是国人写的,作者这样说过靠,以前只是听过scrapy,从来没去看过,刚看了一下,发现除了分布式的部分,竟然真挺像的。从scrapy倒是有启发可以保存json文件的形式,减少对数据库的依赖。想了一下,分布式还是我的初衷,真没想到其他部分这么相近。其实用那个框架到不是一件值得纠结的事,因为几乎没得选.第二个问题.python自己的类库和框架有什么区别?你问这样的问题,是因为,你现在爬的需求还很简单!!仅仅是爬静态页的话,而且爬不了多少个,真心建议你喜欢什么就用什么好了,或者直接就用类库吧,推荐requests,几行代码就搞定了但是,生活中不光有静态页这种东西啊,还有ajax,还有js,还有各种各样莫名其妙的细节.而细节是相当可怕的存在,比如,数据的提取,用正则还是xpath,为什么不是所有的页面都有下一页,一晚上爬了5000条数据,我一共有20万条怎么办,爬虫又被封了,我靠.有时候想想自己真够坚定不移的.也真是烦这个时候,你就会知道框架的好处了,框架最大的作用,在于用最简单的方法帮助你实现需求,也就是说,如果你现在可以很好的满足工作的需要,那就不要看框架,如果工作有些吃力,那就去看看吧,说不定别人已经造好了轮子,等着你推车呢!老汉!cola的链接给你吧 cola:一个分布式爬虫框架scrapy百度就是pyspider还没用
这个要看个人了,开始可以先看scrapy方面的内容,然后结合redis,实现分布式,具体实现可以参考github上的代码,如chineking/cola · github。存储的话,需要mongodb,要深入的话,这方面的内容还是挺多,而且mongodb可以实现集群式存储,完全可以满足楼主的要求。框架有很多,比如爬虫框架 | 为自己写代码,楼主可以尝试下。爬取大规模的数据其实可以通过分布式来实现。
我的博客里有很详细的叙述和源码,python3.4实现。欢迎交流 网络资源搜索爬虫(python 3.4.1实现)
写了一个小爬虫爬学校学生的照片成绩,爬了三四天。好几次都是卡死
我开发了一个云端爬虫开发框架:神箭手,可以让开发者在云上使用javascript编写和运行爬虫,欢迎大家来使用拍砖~

Posted in 未分类

发表评论