百度关键词收录爬取 | Joynice

百度关键词收录爬取

发表于 2019-12-04 | 更新于: 2020-07-21

字数统计: 334 | 阅读时长 ≈ 1

title: 百度关键词收录爬取
date: 2019-12-03 20:35:03
tags:

爬虫
categories:
爬虫

根据百度搜索，输入关键字，获取相应关键子的收录数。

需求

根据百度搜索，输入关键词，获得相应关键词的收录数。
收集完数据后，根据指定的阈值进行数据分类（如大于收录数大于1000的保存在一个csv文件，其他保存在另一个csv文件中。）。
爬虫效率（目前测试实现18w/1h），带宽影响很大。
打包成exe，可执行文件。

实现

接口：http://www.baidu.com/s

传参：data = {‘wd’: 关键词}

由于百度这个接口没有反爬设置，所有正确访问即可，通过Xpath+re获得想要的数据。

具体爬取内容如图所示：

爬取内容

使用说明

先将需要爬取的txt文件复制到“彩票关键词”目录，保证目录中只存在需要爬取的文件。
再打开数据采集器，设置线程数，以及阈值。线程数建议20，根据带宽决定；阈值将数据进行划分出大于该值以及小于该值的两个文件。
最后从结果文件夹中提取出爬取结果。

项目地址

https://github.com/DropsDevopsOrg/ECommerceCrawlers/tree/master/OthertCrawler/0x10baidu

TODO

学习TK。
异步
优化保存。