python 新闻爬虫 100个 python爬虫爬取新闻关键词

转载

mob64ca140530fb 2023-11-05 14:38:56

文章标签 python 新闻爬虫 100个如何用我python抓取关键字新闻 Google Python 函数调用 文章分类 Python 后端开发

在本文中，我们将讨论如何使用Python抓取新闻报道。这可以使用方便的报纸包装来完成。

Python newspaper 包简介

可以使用pip安装newspaper 包：pip install newspaper

安装完成后，即可开始。 newspaper可以通过从给定的URL上抓取一篇文章，或者通过找到网页上其他新闻的链接来工作。让我们从处理一篇文章开始。首先，我们需要导入Article类。接下来，我们使用此类将内容从URL下载到我们的新闻文章。然后，我们使用parse方法解析HTML。最后，我们可以使用.text打印文章的文本。

爬一篇文章from newspaper import Article

url = "https:///news/articles/2020-08-01/apple-buys-startup-to-turn-iphones-into-payment-terminals?srnd=premium"
# download and parse article
article = Article(url)
article.download()
article.parse()
# print article text
print(article.text)

还可以获取有关文章的其他信息，例如指向帖子中嵌入的图像或视频的链接。# get list of image links

article.images
# get list of videos - empty in this case
article.movies

下载网页上链接的所有文章

现在，让我们看看如何将所有新闻文章链接到网页上。我们将使用如下的news.build方法来实现。然后，我们可以使用article_urls方法提取文章URL 。import newspaper

site = newspaper.build("https:///")
# get list of article URLs
site.article_urls()

使用上面的对象，我们还可以获得每个文章的内容。这里，所有article对象都存储在list.site.articles中。例如，让我们获取第一篇文章的内容。site_article = site.articles[0]

site_article.download()
site_article.parse()
print(site_article.text)

现在，让我们修改代码以获得前十名文章：top_articles = []

for index in range(10):
article = site.articles[index]
article.download()
article.parse()
top_articles.append(article)

警告！

使用时，一个重要的说明newspaper的是，如果你运行newspaper.build用相同的URL多次，

包将缓存，然后删除已经刮了文章。例如，在下面的代码中，我们连续两次运行Newspaper.build并获得不同的结果。第二次运行它时，代码仅返回新添加的链接。

site = newspaper.build("https:///")
print(len(site.articles))
site = newspaper.build("https:///")
print(len(site.articles))

可以通过在函数调用中添加一个额外的参数来进行调整，如下所示：

site = newspaper.build("https:///", memoize_articles=False)

如何获得文章摘要

该newspaper包也支持一些NLP功能。您可以通过调用nlp方法进行检查。

article = top_articles[3]
article.nlp()

现在，让我们使用summary方法。这将尝试返回文章摘要。article.summary()

您还可以从文章中获取关键字列表。article.keywords

如何获得最热门的Google关键字

报纸还有其他一些很酷的功能。例如，我们可以使用hot方法轻松使用它在Google上吸引最热门的搜索。newspaper.hot()

该软件包还可以返回受欢迎的URL列表，如下所示。newspaper.popular_urls()

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：ios计步器代码计步器下载苹果手机版

下一篇：mysql varchar 不指定长度 mysql varchar10

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python 新闻爬虫 100个 python爬虫爬取新闻关键词

python 新闻爬虫 100个 python爬虫爬取新闻关键词

51CTO博客