title: 百度关键词收录爬取
date: 2019-12-03 20:35:03
tags:
- 爬虫
categories: - 爬虫
根据百度搜索,输入关键字,获取相应关键子的收录数。
需求
- 根据百度搜索,输入关键词,获得相应关键词的收录数。
- 收集完数据后,根据指定的阈值进行数据分类(如大于收录数大于1000的保存在一个csv文件,其他保存在另一个csv文件中。)。
- 爬虫效率(目前测试实现18w/1h),带宽影响很大。
- 打包成exe,可执行文件。
实现
传参:data = {‘wd’: 关键词}
由于百度这个接口没有反爬设置,所有正确访问即可,通过Xpath+re获得想要的数据。
具体爬取内容如图所示:
使用说明
- 先将需要爬取的txt文件复制到“彩票关键词”目录,保证目录中只存在需要爬取的文件。
- 再打开数据采集器,设置线程数,以及阈值。线程数建议20,根据带宽决定;阈值将数据进行划分出大于该值以及小于该值的两个文件。
- 最后从结果文件夹中提取出爬取结果。
项目地址
https://github.com/DropsDevopsOrg/ECommerceCrawlers/tree/master/OthertCrawler/0x10baidu
TODO
- 学习TK。
- 异步
- 优化保存。