一、项目需求
前言:bbs上每个id对应一个用户,他们注册时候会填写性别(男、女、保密三选一)。
经过检查,bbs注册用户的id对应1-300000,大概是30万的用户
笔者想用python统计bbs上有多少注册用户,以及这些用户的性别分布
顺带可以统计最近活动用户是多少,其中男、女、保密各占多少
活动用户的限定为“上次活动时间”为 2015年
二、最终结果
性别信息保存在文本里,一行表示一个用户的信息,各列分别表示
【行数,id(涂掉了),性别,最后活跃时间】
三、实现思路
用户性别信息在哪个页面?
得到下面个人主页
把后面的uid=256730数字改成其他数字,就可以得到其他人的主页。
另外,如果上面的链接无法得到性别,可以再通过这个链接,也是修改uid可以访问其他人主页。
http://rs.xidian.edu.cn/home.php?mod=space&uid=256730&do=profile
四、数据如何存储?
用数据库还是其他方案?
为了阅读方便,我们考虑用文本文件存储。
30万的用户存储在一个文本里会导致文本过大。如果程序被意外终止,30 万的用户数据需要重新爬取。
我们我们考虑一个文本里存放1000条记录,理论上可以用30个文本来存放30万条数据。
文本名称为correct1-1001.txt correct47001-48001.txt,注意:1-1001是[1,1001),包含1,不包含1001
1、使用正则匹配找出性别
查看网页源代码
性别女
还可以找到活动时间–>
上次发表时间2015-11-4 20:04
抱歉,您指定的用户空间不存在
我们可以利用re模块来进行正则匹配
sexre = re.compile(u’em>\u6027\u522b(.*?)\u4e0a\u6b21\u6d3b\u52a8\u65f6\u95f4(.*?))\u62b1\u6b49\uff0c\u60a8\u6307\u5b9a\u7684\u7528\u6237\u7a7a\u95f4\u4e0d\u5b58\u5728性别(.*?)\u6027\u522b(.*?)