python 爬虫下载文件 python爬虫工具下载

转载

数码精灵abc 2024-02-28 16:22:10

文章标签 python 爬虫下载文件 pythonscrapy爬虫 ide 命令行 Python 文章分类 Python 后端开发

python爬虫框架Scrapy下载(网页数据抓取工具)是一套基于基于Twisted的异步处理框架。纯python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。

使用方法

0.准备工作

需要准备的东西： Python、scrapy、一个IDE或者随便什么文本编辑工具。

1.技术部已经研究决定了，你来写爬虫。

随便建一个工作目录，然后用命令行建立一个工程，工程名为miao，可以替换为你喜欢的名字。

scrapy startproject miao

随后你会得到如下的一个由scrapy创建的目录结构

在spiders文件夹中创建一个python文件，比如miao.py，来作为爬虫的脚本。

内容如下：

import scrapy
class NgaSpider(scrapy.Spider):
name = "NgaSpider"
host = "http://bbs.ngacn.cc/"
# start_urls是我们准备爬的初始页
start_urls = [
]

# 这个是解析函数，如果不特别指明的话，scrapy抓回来的页面会由这个函数进行解析。

# 对页面的处理和分析工作都在此进行，这个示例里我们只是简单地把页面内容打印出来。

def parse(self, response):
print response.body
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import scrapy
class NgaSpider(scrapy.Spider):
name = "NgaSpider"
host = "http://bbs.ngacn.cc/"
# start_urls是我们准备爬的初始页
start_urls = [
"http://bbs.ngacn.cc/thread.php?fid=406",
]

# 这个是解析函数，如果不特别指明的话，scrapy抓回来的页面会由这个函数进行解析。

# 对页面的处理和分析工作都在此进行，这个示例里我们只是简单地把页面内容打印出来。

def parse(self, response):
print response.body

2.跑一个试试？

如果用命令行的话就这样：

cd miao
scrapy crawl NgaSpider
1
2
cd miao
scrapy crawl NgaSpider

你可以看到爬虫君已经把你坛星际区第一页打印出来了，当然由于没有任何处理，所以混杂着html标签和js脚本都一并打印出来了。

python 爬虫下载文件 python爬虫工具下载_Python

更新内容

Scrapy 1.4 没有带来许多令人惊叹的新功能，但进行了相当多的方便的改进。

Scrapy 现在通过新的 :setting:`FTP_USER` 和 :setting:`FTP_PASSWORD` 设置，支持使用可自定义的用户和密码进行匿名 FTP 会话。

如果使用 Twisted 17.1.0 或更高版本，FTP 现在可以与 Python 3 一起使用。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python机械学生该不该学机械和python结合

下一篇：pg 查看索引字段类型查看索引的语法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python 爬虫 下载文件 python爬虫工具下载

python 爬虫 下载文件 python爬虫工具下载

51CTO博客

python 爬虫下载文件 python爬虫工具下载

python 爬虫下载文件 python爬虫工具下载