scrapy爬取链家网到redis并数据可视化分析毕业设计 scrapy 链家

关注 mob64ca14196783

文章目录

项目git地址
项目代码结构
如何使用
如何选择目标城市进行爬取
如何启动爬虫项目
查看数据
项目git地址

scrapy爬取链家网到redis并数据可视化分析毕业设计 scrapy 链家

转载

mob64ca14196783 2024-01-05 16:34:18

文章标签 爬虫网络爬虫 git 数据 github 文章分类 Redis 数据库

北漂的我，前两天准备换个房住，房源信息平台太多，看的人都懵逼了，不知道到底那一片的房子是比较合适的（主要是便宜，又没有太多坑，没办法谁让我穷），于是在git上找了个爬虫项目，爬取一下北京各个片区的房源信息，做个汇总分析。
git上的项目都有点久远，大概是一两年前的写出来的代码，经过使用发现代码中的爬取规则早已不适用于现在网的HTML结构。经过一段时间的调试改造后可以适用于现在的网页。

最新维护时间 2022.4月

感兴趣的可以下载下来试一试。

项目git地址

GitHub - Boris-2021/lianjia_scrapy: 链家爬虫程序，基于scrapy爬虫框架https://github.com/Boris-2021/lianjia_scrapy

项目代码结构

scrapy爬取链家网到redis并数据可视化分析毕业设计 scrapy 链家_git

scrapy爬取链家网到redis并数据可视化分析毕业设计 scrapy 链家_github_02

如何使用

如何选择目标城市进行爬取

以爬取链家北京地区网站上的信息为例

scrapy爬取链家网到redis并数据可视化分析毕业设计 scrapy 链家_爬虫_03

你只需要在spyder.py文件中更改必要的网站链接！！

<https://bj.lianjia.com/zufang> 这个网页是北京地区的链接

scrapy爬取链家网到redis并数据可视化分析毕业设计 scrapy 链家_数据_04

scrapy爬取链家网到redis并数据可视化分析毕业设计 scrapy 链家_github_05

注意：链接前边这两个字母表示城市首字母的缩写！！！

北京是这样<https://bj.lianjia.com/zufang>

杭州则是这样<https://hz.lianjia.com/zufang>

所以你想要爬取某个城市的数据的话，你只需要更改spyder.py文件中所有链家URL中，代表地区的这两个子母。

scrapy爬取链家网到redis并数据可视化分析毕业设计 scrapy 链家_网络爬虫_06

如何启动爬虫项目

相信你在前边已经改好了你想要爬取城市的URL。对于本项目，运行爬虫你只需要在下边的terminal中敲入如下命令：

scrapy crawl lianjia

scrapy爬取链家网到redis并数据可视化分析毕业设计 scrapy 链家_网络爬虫_07

查看数据

启动之后，经过一段时间的爬取后，

爬取的过程的logj记录在.log文件中，可供查爬取的情况。

爬取的数据结果记录在生成的.json文件中。

scrapy爬取链家网到redis并数据可视化分析毕业设计 scrapy 链家_git_08

scrapy爬取链家网到redis并数据可视化分析毕业设计 scrapy 链家_github_09

< 解析json2csv.py>脚本帮助你将最终爬取的json格式数据转换为表格形式csv。

<数据处理.py>脚本可以帮助你将csv文件中重复的样本去掉。

项目git地址

GitHub - Boris-2021/lianjia_scrapy: 链家爬虫程序，基于scrapy爬虫框架

https://github.com/Boris-2021/lianjia_scrapy

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：android studio制作一个简单的视频播放器 android studio开发视频播放器

下一篇：skywalking配置mysql jar包 skywalking jvm

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册