在 Scrapy 中,你可以使用自定义列设置将数据保存为 CSV 文件。以下是一个基本的指南:
- 定义你的数据项(Item):在你的 Scrapy 项目中,创建一个类来定义你要提取的数据项。每个数据项对应于 CSV 文件中的一列。
- 处理数据:在你的爬虫(Spider)中,提取数据并将其存储在定义的数据项中。
- 设置 CSV 输出:在你的 Scrapy 项目的设置文件(settings.py)中,设置
FEED_FORMAT
为csv
,并指定FEED_URI
为保存 CSV 文件的路径。 - 运行爬虫:运行你的爬虫,它将提取数据并将其保存为 CSV 文件。
以下是一个简单的示例,展示了如何使用自定义列设置保存为 CSV:
- 定义数据项:
class YourItem(scrapy.Item):
column1 = scrapy.Field()
column2 = scrapy.Field()
# 添加其他列...
- 处理数据:
def parse(self, response):
item = YourItem()
item['column1'] = response.xpath('//xpath/to/column1').get()
item['column2'] = response.xpath('//xpath/to/column2').get()
# 添加其他列的值...
yield item
- 设置 CSV 输出:
在 settings.py 文件中:
FEED_FORMAT = 'csv'
FEED_URI = 'your_file.csv' # 指定保存 CSV 文件的路径
- 运行爬虫:
运行你的爬虫,它将提取数据并将其保存为 CSV 文件。
请注意,这只是一个基本的指南,你可能需要根据你的具体需求进行进一步的定制和调整。例如,你可以设置 CSV 文件的标题、分隔符等。此外,还可以使用 Scrapy 的管道(Pipeline)来进一步处理和转换数据。
希望这个指南对你有帮助!如果你有任何其他问题,请随时提问。