python抓取discuz!用户名脚本代码

最近学习python,于是就用python写了一个抓取discuz!用户名的脚本,代码很少但是很搓。思路很简单,就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(一共有40多万用户),挂在vps上就没管了,虽然用了延时但是后来发现一共只抓取了50000多个用户名就被封了。。。代码如下:

代码如下:

# -*- coding: utf-8 -*-# author: 天一# blog: http://www.90blog.org# version: 1.0# 功能: python抓取百度站长平台用户名脚本import urllibimport urllib2 import reimport timedef biduspider(): pattern = re.compile(r'(.*)的个人资料 百度站长社区 ‘) uhttp://bbs.zhanzhang.baidu.com/home.php?mod=space&uutf-8’).encode(‘gbk’) #写入txt文本文档 f = open(‘theuid.txt’,’a’) f.writelines(thedatas+’\n’) f.close()if __name__ == ‘__main__’: biduspider()

最终成果如下:

发表评论