Scrapy创建第一个爬虫案例

原创

wx62be9d88ce294 2024-03-21 22:34:29 ©著作权

文章标签 scrapy 爬虫数据库 ide 配置信息 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者wx62be9d88ce294的原创作品，请联系作者获取转载授权，否则将追究法律责任

Scrapy_创建第一个爬虫

Scrapy创建第一个爬虫案例_配置信息

1 创建第一个项目

scrapy startproject myfrist(project_name)

Scrapy创建第一个爬虫案例_数据库_02

2 文件说明

名称	作用
scrapy.cfg	项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中）
items.py	设置数据存储模板，用于结构化数据，如：Django的Model
pipelines	数据处理行为，如：一般结构化的数据持久化
settings.py	配置文件，如：递归的层数、并发数，延迟下载等
spiders	爬虫目录，如：创建文件，编写爬虫规则

3 创建第一个爬虫

scrapy genspider 爬虫名 爬虫的地址

注意
一般创建爬虫文件时，以网站域名命名

4 爬虫包含的内容

name: 它定义了蜘蛛的唯一名称
allowed_domains: 它包含了蜘蛛抓取的基本URL；
start-urls: 蜘蛛开始爬行的URL列表；
parse(): 这是提取并解析刮下数据的方法；

5 代码

import scrapy


class DoubanSpider(scrapy.Spider):
  name = 'douban'
  allowed_domains = 'douban.com'
  start_urls = [
    'https://movie.douban.com/top250/'
   ]


  def parse(self, response):
    movie_name = response.xpath("//div[@class='item']//a/span[1]/text()").extract()
    movie_core = response.xpath("//div[@class='star']/span[2]/text()").extract()
    yield {
      'movie_name':movie_name,
      'movie_core':movie_core
     }