前言:本文主要内容是介绍如何用最简单的办法去采集新浪的数据,主要是采集指定用户发布的以及收到的回复等内容,可以通过配置项来调整爬取的用户列表以及其他属性。既然说是最简单的办法,那么我们就得先分析爬虫可能选择的几个目标网址,首先肯定是最常见的web网站了还有就是m站,也就是移动端网页以及一个无法旧版本的访问入口了,首先可以排除web站了,这个是最麻烦的,它的请求是被js加密过
转载 3月前
386阅读
新浪爬取前言  现在这个数据时代,要做点数据研究,少不了爬虫。毕竟自己没有可以研究的数据呀。本篇文章已爬取新浪为实例驱动,讲解爬虫。主要有文章爬取,评论爬取,用户信息爬取(用户名称,所在地,以及性别)。这个项目其实主要是用户爬取文本做情感分析的,为此付出了不少时间,来研究和优化这个项目。三者的爬取是三个独立的模块。数据存储采用Mysql数据库,orm框架使用sqlarlchemy框架。
课上老师留了作业做这个花了一小会时间做了一下,分享下过程。一.首先我们选择移动端去爬取即这个网址移动版 二.登陆后获取到我们的cookie和user-agent,存下来一会会用。 三.分析评论url,我们可以发现往下翻评论时每次可获得一个url,一个url中包含几十条评论,找到规律如下: 第一个为:https://m.weibo.cn/comments/hotflow?id=4629867
转载 2023-09-25 22:56:34
219阅读
应该看得懂吧,把cookie换成自己的就好了。 !/usr/bin/env python coding=utf8 """ Simulate a user login to Sina Weibo with cookie. You can use this method to visit any pag
原创 2021-07-15 17:08:38
508阅读
写在前面时光飞逝,距离爬虫这个项目及系列文章 超级爬虫 第一次发布已经过去将近两年了,最开始,我也没想到,会维护这个项目如此之久。项目更新过很多次,从代码到文章,熬过夜,也废过食,还好一直有读者反馈,也有不少点赞支持的粉丝,这些大概都是维护这个项目的动力来源。这一年,完成了从一名学生到大厂工程师的转变,自由支配的时间少了许多;有感于大家的热情咨询,这一两周抽空,完成了 2021 年最新版
第一次写博客,mark一下。以前没写过技术分享博客也是因为没什么好分享的,现在觉得有些经验和思考过程还是值得记录下来的;一则便于以后查阅,二则如果能给别人带来些许帮助,则无比幸甚。这次是因为工作需要做一些市场声量的分析,需要爬取一些论坛内容,内容做数据分析,懒得找其他盈利性的网站购买,就自己研究了一下Python 爬虫,写出来一个小小的爬虫爬虫主要分两大部分:1,下载网页功能(就是把网页内容以
转载 2023-08-20 21:40:25
0阅读
本篇文章主要针对Python爬虫爬取内容(也可类似实现图片)。通过给定初始爬取起点用户id,获取用户关注其他用户,不断爬取,直到达到要求。一、项目结构:1. main.py中对应程序过程逻辑2. url_manager.py对应管理URL3. html_parser.py 将网页下载器、网页解析器、文保存封装在了一起。(理论上应该分开,但是我这里图方便就合在一起了)二、程序介绍:1. 主函数
转载 2023-09-18 20:50:42
504阅读
背景:实验室大数据分析需要得到社交网站的数据,首选当然是新浪。数据包括指定关键词、话题、位置的的内容。字段包括:图片、时间、用户、位置信息。思路分析:要爬新浪的数据主要有2种方法:    1.开发者平台提供的API,资源包括内容、评论、用户、关系、话题等信息。同时,你也可以申请高级接口、商业接口获得更多权限,你要去注册申请成为开发者获得OAuth2授权以及这个使
必知首先我们需要切记的是我们需要爬取的地址为:https://m.weibo.cn。不是https://weibo.com/。因为前者的数据时通过AJAX加载的,有利于我们的抓取,后者难度大,本人找了半天也找不到接口。 本次我们爬取演员张一山的。操作打开开发者工具,刷新爬取页面,由于数据是通过AJAX请求获取的,所以选择XHR 只查看AJAX请求。 依次点击AJAX请求查找获取数据的接
功能爬取新浪信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该原始图片和视频(可选)。本程序需要设置用户cookie,以获取访问权限,后面会讲解如何获取cookie。如需免cookie版,大家可以访问https://github.com/dataabc/weibo-crawler,二者功能类似,免cookie版因为不需要cooki
scrapy爬虫实战经验分享这两天想要爬一些微的数据,在github上找到了开源代码,但是在实际使用过程中遇到了很多困难,在此做一下记录。安装MongoDB首先安装MongoDB,Windows系统教程可以参考。获取小号因为需要爬的数据量较大,笔者采用了senior版本,通过构建小号账号池来提高爬虫效率,因此购买了一些微小号。目前网页版已经全部需要验证码登录了,但是有一些小号可
今天小编就来教教你们,利用神箭手云爬虫对新浪信息进行完美的采集,包括文本内容、转发数、评论数、点赞数、热门等详细信息,只有你想不到,没有采不到的!第一步:进入神箭手官网(http://www.shenjianshou.cn)进行注册或登录。第二步:进入爬虫市场,搜索“”,再点击免费获取。第三步:在爬虫设置里进行功能设置和自定义设置。功能设置里面设置文件云托管,进行图片托管,这样确保图片不
python爬虫爬取评论python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取练手。python爬虫根据存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经熟练掌握的程序员,可以拿来练手。本文介绍python爬取评论的代码实例。一、爬虫与QQ空间爬虫类似,可以爬取新浪用户的个人信息信息、粉丝、关注和评论等。爬
早上刷空间发现最近好多人过生日诶~仔细想想,好像4月份的时候也是特别多人过生日【比如我那么每个人生日的月份有什么分布规律呢。。。突然想写个小程序统计一下 最简单易得的生日数据库大概就是新浪了: 但是电脑版的新浪显然是动态网页。。。如果想爬这个应该要解析JS脚本【就像上次爬网易云音乐。。然而并不会解其实有更高效的方法:爬移动版移动版因为手机浏览器的限制大多都做了简化,更有
早上刷空间发现最近好多人过生日诶~仔细想想,好像4月份的时候也是特别多人过生日【比如我那么每个人生日的月份有什么分布规律呢。。。突然想写个小程序统计一下 最简单易得的生日数据库大概就是新浪了: 但是电脑版的新浪显然是动态网页。。。如果想爬这个应该要解析JS脚本【就像上次爬网易云音乐。。然而并不会解其实有更高效的方法:爬移动版移动版因为手机浏览器的限制大多都做了简化,更有
文章目录好久没更新了,今天来更新一波。一、网页分析二、接口分析url分析返回数据分析三、编写代码获取数据保存数据完整代码 好久没更新了,今天来更新一波。今天继续使用新版一、网页分析依旧是女神迪丽热巴? 找到热巴的主页,依旧先打开开发者模式,然后刷新网页。 在这个请求中你可以得到:昵称、关注数、粉丝数、文数、个人简介、性别、是否通过认证、认证信息、地区、等级、会员等级等等。 另外一个
转载 2023-09-12 16:48:00
425阅读
这里的爬虫,我主要实现的是输入你关心的某个大V的名称,以及某条的相关内容片段,即可自动爬取相关该大V一段时间内发布的信息和对应的评论信息。Cookie获取与上面的Boss直聘网站类似,爬取也需要获取响应的cookie。用浏览器打开页面,拷贝出对应的Cookie,保存到本地。搜索既然是某位大V,这里就肯定涉及到了搜索的事情,我们可以先来尝试下自带的搜索,地址如下:
转载 2019-10-09 15:27:30
1945阅读
超级实用,开放源码~
原创 2022-03-11 09:42:47
1095阅读
利用新浪API实现数据的抓取(2018.4.16 更新)<font color=#FF0000 size=4 face="黑体">2018.4.16 说明注意:今天有人言语恶劣地评论我的博客是垃圾,说我的代码有问题,这篇博客历史久远,是我初玩爬虫写的博客。我非常感谢能对我的代码提出意见的人,但是出言不逊,态度恶劣的人我是忍受不了的,有话好好说,是一个现代社会高学历高知识分子的最低觉悟。
转载 2023-12-12 15:49:40
109阅读
一、新浪全栈爬虫先不扯皮,直接上获取数据效果图爬虫策略:递归获取每个用户的粉丝用户id,想要获取多少用户id,则可以获取多少;利用获取的用户id再获取每个用户的所有数据  例如爬黑猫警长GIAO的一条所有评论爬虫策略:进入手机端找到对应的id,进行爬虫,利用如下方式组合成url,进行爬虫url组合方式:'https://m.weibo.cn/comments/h
  • 1
  • 2
  • 3
  • 4
  • 5