背景:实验室大数据分析需要得到社交网站的数据,首选当然是新浪。数据包括指定关键词、话题、位置的微博的内容。字段包括:图片、时间、用户、位置信息。思路分析:要爬新浪的数据主要有2种方法: 1.微博开发者平台提供的微博API,资源包括微博内容、评论、用户、关系、话题等信息。同时,你也可以申请高级接口、商业接口获得更多权限,你要去注册申请成为开发者获得OAuth2授权以及这个使
转载
2023-07-06 11:26:20
160阅读
必知首先我们需要切记的是我们需要爬取的微博地址为:https://m.weibo.cn。不是https://weibo.com/。因为前者的数据时通过AJAX加载的,有利于我们的抓取,后者难度大,本人找了半天也找不到接口。 本次我们爬取演员张一山的微博。操作打开开发者工具,刷新爬取页面,由于微博数据是通过AJAX请求获取的,所以选择XHR 只查看AJAX请求。 依次点击AJAX请求查找获取数据的接
转载
2024-01-08 16:39:23
505阅读
利用新浪API实现数据的抓取(2018.4.16 更新)<font color=#FF0000 size=4 face="黑体">2018.4.16 说明注意:今天有人言语恶劣地评论我的博客是垃圾,说我的代码有问题,这篇博客历史久远,是我初玩爬虫写的博客。我非常感谢能对我的代码提出意见的人,但是出言不逊,态度恶劣的人我是忍受不了的,有话好好说,是一个现代社会高学历高知识分子的最低觉悟。
转载
2023-12-12 15:49:40
109阅读
新浪微博爬取前言 现在这个数据时代,要做点数据研究,少不了爬虫。毕竟自己没有可以研究的数据呀。本篇文章已爬取新浪微博为实例驱动,讲解爬虫。主要有微博文章爬取,评论爬取,用户信息爬取(用户名称,所在地,以及性别)。这个项目其实主要是用户爬取文本做情感分析的,为此付出了不少时间,来研究和优化这个项目。三者的爬取是三个独立的模块。数据存储采用Mysql数据库,orm框架使用sqlarlchemy框架。
转载
2023-10-12 09:43:32
159阅读
前言:本文主要内容是介绍如何用最简单的办法去采集新浪微博的数据,主要是采集指定微博用户发布的微博以及微博收到的回复等内容,可以通过配置项来调整爬取的微博用户列表以及其他属性。既然说是最简单的办法,那么我们就得先分析微博爬虫可能选择的几个目标网址,首先肯定是最常见的web网站了还有就是m站,也就是移动端网页以及一个无法旧版本的访问入口了,首先可以排除web站了,这个是最麻烦的,它的请求是被js加密过
1 import requests
2 from urllib.parse import urlencode
3 from pyquery import PyQuery as pq
4 from pymongo import MongoClient
5
6 base_url = 'https://m.weibo.cn/api/container/getIndex?'
7 header
转载
2023-05-23 21:51:52
208阅读
课上老师留了作业做这个花了一小会时间做了一下,分享下过程。一.首先我们选择微博移动端去爬取即这个网址微博移动版 二.登陆后获取到我们的cookie和user-agent,存下来一会会用。 三.分析评论url,我们可以发现往下翻评论时每次可获得一个url,一个url中包含几十条评论,找到规律如下: 第一个为:https://m.weibo.cn/comments/hotflow?id=4629867
转载
2023-09-25 22:56:34
219阅读
第一次写博客,mark一下。以前没写过技术分享博客也是因为没什么好分享的,现在觉得有些经验和思考过程还是值得记录下来的;一则便于以后查阅,二则如果能给别人带来些许帮助,则无比幸甚。这次是因为工作需要做一些市场声量的分析,需要爬取一些论坛内容,微博内容做数据分析,懒得找其他盈利性的网站购买,就自己研究了一下Python 爬虫,写出来一个小小的爬虫爬虫主要分两大部分:1,下载网页功能(就是把网页内容以
转载
2023-08-20 21:40:25
0阅读
写在前面时光飞逝,距离微博爬虫这个项目及系列文章 微博超级爬虫 第一次发布已经过去将近两年了,最开始,我也没想到,会维护这个项目如此之久。项目更新过很多次,从代码到文章,熬过夜,也废过食,还好一直有读者反馈,也有不少点赞支持的粉丝,这些大概都是维护这个项目的动力来源。这一年,完成了从一名学生到大厂工程师的转变,自由支配的时间少了许多;有感于大家的热情咨询,这一两周抽空,完成了 2021 年最新版微
转载
2023-09-25 22:56:16
110阅读
应该看得懂吧,把cookie换成自己的就好了。 !/usr/bin/env python coding=utf8 """ Simulate a user login to Sina Weibo with cookie. You can use this method to visit any pag
原创
2021-07-15 17:08:38
508阅读
功能爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选)。本程序需要设置用户cookie,以获取微博访问权限,后面会讲解如何获取cookie。如需免cookie版,大家可以访问https://github.com/dataabc/weibo-crawler,二者功能类似,免cookie版因为不需要cooki
转载
2024-03-13 15:17:59
69阅读
本篇文章主要针对Python爬虫爬取微博内容(也可类似实现图片)。通过给定初始爬取起点用户id,获取用户关注其他用户,不断爬取,直到达到要求。一、项目结构:1. main.py中对应程序过程逻辑2. url_manager.py对应管理URL3. html_parser.py 将网页下载器、网页解析器、博文保存封装在了一起。(理论上应该分开,但是我这里图方便就合在一起了)二、程序介绍:1. 主函数
转载
2023-09-18 20:50:42
504阅读
环境: ubuntu 18.10 python 3.6 pip install sinaweibopy3说下:m.weibo.cnweibo.cnweibo.com我们只使用第一个,用来获取代码中需要的idopen.weibo.com自己完成认证以后, 打开自己新建的应用找到下面两个东西: App Key:502108417 App Secret:794019e15ae228d4295f2509b
转载
2023-06-12 14:43:09
171阅读
微博scrapy爬虫实战经验分享这两天想要爬一些微博的数据,在github上找到了开源代码,但是在实际使用过程中遇到了很多困难,在此做一下记录。安装MongoDB首先安装MongoDB,Windows系统教程可以参考。获取微博小号因为需要爬的数据量较大,笔者采用了senior版本,通过构建微博小号账号池来提高爬虫效率,因此购买了一些微博小号。目前网页版微博已经全部需要验证码登录了,但是有一些小号可
转载
2024-05-24 09:13:45
40阅读
python爬虫爬取微博评论python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手。python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经熟练掌握的程序员,可以拿来练手。本文介绍python爬取微博评论的代码实例。一、爬虫微博与QQ空间爬虫类似,可以爬取新浪微博用户的个人信息、微博信息、粉丝、关注和评论等。爬
转载
2023-06-21 13:24:05
255阅读
文章目录好久没更新了,今天来更新一波。一、网页分析二、接口分析url分析返回数据分析三、编写代码获取数据保存数据完整代码 好久没更新了,今天来更新一波。今天继续使用新版微博一、网页分析依旧是女神迪丽热巴? 找到热巴的主页,依旧先打开开发者模式,然后刷新网页。 在这个请求中你可以得到:昵称、关注数、粉丝数、博文数、个人简介、性别、是否通过微博认证、认证信息、地区、微博等级、会员等级等等。 另外一个
转载
2023-09-12 16:48:00
425阅读
早上刷空间发现最近好多人过生日诶~仔细想想,好像4月份的时候也是特别多人过生日【比如我那么每个人生日的月份有什么分布规律呢。。。突然想写个小程序统计一下 最简单易得的生日数据库大概就是新浪微博了: 但是电脑版的新浪微博显然是动态网页。。。如果想爬这个应该要解析JS脚本【就像上次爬网易云音乐。。然而并不会解其实有更高效的方法:爬移动版移动版因为手机浏览器的限制大多都做了简化,更有
转载
2023-05-31 10:16:02
299阅读
早上刷空间发现最近好多人过生日诶~仔细想想,好像4月份的时候也是特别多人过生日【比如我那么每个人生日的月份有什么分布规律呢。。。突然想写个小程序统计一下 最简单易得的生日数据库大概就是新浪微博了: 但是电脑版的新浪微博显然是动态网页。。。如果想爬这个应该要解析JS脚本【就像上次爬网易云音乐。。然而并不会解其实有更高效的方法:爬移动版移动版因为手机浏览器的限制大多都做了简化,更有
转载
2024-02-20 17:18:58
108阅读
前言:微博开放平台提供了微博数据的api接口,不仅可以直接通过api调用微博服务发布微博查询微博,更重要的是,可以在自己的网站上获得新浪微博api的授权,调用微博的某些内容,就好像我们再网站中看到好文章要分享到微博或者其他社交网站中一样,非常方便。下面就来探秘一番。1.注册开发者并获取app key 和 app secret 百度很容易找到微博开放平台的入口,登录自己的微博账号,点击账
转载
2023-07-20 20:38:01
744阅读
1评论
不知在那个群里面看到的消息:请问如何抓取近几个月来大蒜的价格? Oh!My!God!卖大蒜的农夫现在都需要用到数据抓取、数据分析来制定销售策略销售计划等等,IT行业的程序员们以及我们这种类似IT行业的GISer们对数据的需求自然不用说,同时,找工作、找学校、找房东,都可以用到数据抓取,数据抓取是一个很有意思的事情。 一直以来都希望学一学数据抓取,但一个重度拖延症患者的拖延水平简直是要上天了…2