通过Python爬取《纽约时报》的特定文章

原创

灯泡将军 2024-08-30 21:57:27 ©著作权

文章标签 API 数据 Python 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者灯泡将军的原创作品，请联系作者获取转载授权，否则将追究法律责任

可以使用《纽约时报》的API，或者通过Web Scraping技术来获取文章内容。以下是使用《纽约时报》API的步骤：

1. 注册并获取API密钥

首先，需要注册《纽约时报》的开发者账户，并获取API密钥。可以访问《纽约时报》API开发者平台来注册并获取API密钥。

2. 安装所需的Python库

你需要安装以下Python库：

requests: 用于发送HTTP请求
json: 用于处理JSON数据
pandas: 用于处理和分析数据

pip install requests pandas

3. 编写爬取代码

下面是一个简单的Python代码示例，使用《纽约时报》的Article Search API来获取特定文章的信息：

import requests
import pandas as pd

# 设置API密钥和基本URL
API_KEY = 'your-nytimes-api-key'
BASE_URL = 'https://api.nytimes.com/svc/search/v2/articlesearch.json'

def get_articles(query, begin_date, end_date):
    # 设置请求参数
    params = {
        'q': query,
        'begin_date': begin_date,
        'end_date': end_date,
        'api-key': API_KEY
    }
    
    # 发送请求
    response = requests.get(BASE_URL, params=params)
    
    # 检查请求状态
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error: {response.status_code}")
        return None

def parse_articles(data):
    articles = data['response']['docs']
    article_list = []
    
    for article in articles:
        article_info = {
            'headline': article['headline']['main'],
            'pub_date': article['pub_date'],
            'web_url': article['web_url'],
            'snippet': article['snippet'],
            'lead_paragraph': article['lead_paragraph'],
            'source': article['source']
        }
        article_list.append(article_info)
    
    return pd.DataFrame(article_list)

# 设定查询参数
query = "climate change"
begin_date = "20230801"
end_date = "20230831"

# 获取文章数据
data = get_articles(query, begin_date, end_date)

# 解析并保存数据
if data:
    articles_df = parse_articles(data)
    articles_df.to_csv('nyt_articles.csv', index=False)
    print("Articles saved to nyt_articles.csv")
else:
    print("Failed to retrieve articles.")