新闻平台聚合之腾讯新闻爬虫发布

原创

月小水长 2021-07-22 16:58:13 ©著作权

文章标签 学习 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者月小水长的原创作品，请联系作者获取转载授权，否则将追究法律责任

这是月小水长的第 64 篇原创干货

idea of startproject

对于 web 开发者而言，目前各大新闻门户网站，新浪新闻，百度新闻，腾讯新闻，澎湃新闻，头条新闻并没有提供稳定可用的 feed api。
对于 nlper，缺乏足够的新闻语料数据集来供训练。
对于新闻传播/社会学/心理学等从业者，缺乏获取新闻数据的简单易用途径来供分析。
如果上面三点是某见识所限，其实并不存在的话，第 4 点，则是某的私心，某以为互联网的记忆太短了，热搜一浪盖过一浪，所以试图定格互联网新闻的某些瞬间，最后会以网站的形式发布出来。

project 的 github 地址

https:///Python3Spiders/AllNewsSpider

本篇是新闻系列的第二篇，以腾讯新闻为目标网站

新闻平台聚合之腾讯新闻爬虫发布_学习

该爬虫实现的主要功能罗列如下：

再说说如何使用（默认读者均有 python3.6+ 环境）

将仓库 tencent文件夹下的 tencent_news_spider.pyd 文件下载到本地，新建项目，把 pyd 文件放进去
项目根目录下新建 runner.py，写入以下代码即可运行并抓取
```
import tencent_news_spider
tencent_news_spider.main()
```

开始运行时会提示输入爬取到哪一页，默认是 20 页，爬取过程中是下面这样的。

新闻平台聚合之腾讯新闻爬虫发布_学习_02