python利用phantomjs抓取渲染js后的网页

最近需要爬取某网站，无奈页面都是js渲染后生成的，普通的爬虫框架搞不定，于是想到用phantomjs搭一个代理。python调用phantomjs貌似没有现成的第三方库（如果有，请告知小2），漫步了一圈，发现只有pyspider提供了现成的方案。简单试用了一下，感觉pyspider更像一个为新手打造的爬虫工具，好比一个老妈子，有时无微不至，有时喋喋不休。轻巧的小工具应该更受人喜爱，我也怀着一点私心，可以带着我最爱的beautifulsoup一块儿用，而不用再学pyquery（pyspider用来解析html），更不用忍受浏览器写python的糟糕体验（偷笑）。所以花了一个下午的时间，把pyspider当中实现phantomjs代理的部分拆了出来，独立成一个小的爬虫模块，希望大家会喜欢（感谢binux！）。

准备工作

你当然要有phantomjs，废话！（linux下最好用supervisord守护，必须保持抓取的时候phantomjs一直处于开启状态）

用项目路径下的phantomjs_fetcher.js启动：phantomjs phantomjs_fetcher.js [port]

安装tornado依赖（使用了tornado的httpclient模块）

调用是超级简单的

from tornado_fetcher import fetcher
# 创建一个爬虫
>>> fetcher=fetcher(
user_agent=’phantomjs’, # 模拟浏览器的user-agent
phantomjs_proxy=’http://localhost:12306′, # phantomjs的地址
poolsize=10, # 最大的httpclient数量
async=false # 同步还是异步
)
# 开始连接phantomjs的代理，可以渲染js！
>>> fetcher.phantomjs_fetch(url)
# 渲染成功后执行额外的js脚本（注意用function包起来！）
>>> fetcher.phantomjs_fetch(url, js_script=’function(){settimeout(“window.scrollto(0,100000)}”, 1000)’)

发表评论 取消回复

发表评论取消回复