PHP爬虫:百万级别知乎用户数据爬取与分析
发布时间:2016-10-01 09:40:15 所属栏目:PHP教程 来源:站长网
导读:副标题#e# 这次抓取了110万的用户数据,数据分析结果如下: 498)this.width=498;' onmousewheel = 'javascript:return big(this)' width="503" height="233" alt="" src="http://www.aspzz.cn/uploads/allimg/160130/1G554Hc_0.jpg" /> 开发前的准备 安装Li
抓取用户的过程中,发现有些用户是已经访问过的,而且他的关注者和关注了的用户都已经获取过了,虽然在数据库的层面做了重复数据的处理,但是程序还 是会使用curl发请求,这样重复的发送请求就有很多重复的网络开销。还有一个就是待抓取的用户需要暂时保存在一个地方以便下一次执行,刚开始是放到数组 里面,后来发现要在程序里添加多进程,在多进程编程里,子进程会共享程序代码、函数库,但是进程使用的变量与其他进程所使用的截然不同。不同进程之间的变 量是分离的,不能被其他进程读取,所以是不能使用数组的。因此就想到了使用Redis缓存来保存已经处理好的用户以及待抓取的用户。这样每次执行完的时候 都把用户push到一个already_request_queue队列中,把待抓取的用户(即每个用户的关注者和关注了的用户列表)push到 request_queue里面,然后每次执行前都从request_queue里pop一个用户,然后判断是否在 already_request_queue里面,如果在,则进行下一个,否则就继续执行。 (编辑:武汉站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |