上次写了一个爬世纪佳缘的爬虫之后,今天再接再厉又写了一个新浪博客的爬虫。写完之后,我想了一会儿,要不要在博客园里面写个帖子记录一下,因为我觉得这份代码的含金量确实太低,有点炒冷饭的嫌疑,就是把上次的代码精简了一下,用在另外一个网站而已,而且爬别人的博客总有一种做贼心虚的感觉,怕被各位园友认为是偷窥狂魔。但是这份代码总归是我花了精力去写的,我也不想就此让它深藏在硬盘之中(电脑实在太老了,可能过两年硬
# 新浪爬虫 Java - 科普文章 ## 前言 在互联网时代,信息获取变得越来越方便。然而,有些信息并不是随处可见的,比如一些网站的数据。这时,我们可以使用网络爬虫来获取这些数据。本文将介绍如何使用 Java 编写一个简单的新浪爬虫,以获取新浪网站上的数据。 ## 什么是爬虫爬虫(Spider)是一种自动化程序,用于从互联网上抓取数据。爬虫通过访问网页,并分析网页的结构和内容,从中提
原创 2023-08-08 22:48:11
11阅读
Java网络爬虫这是本文目录 这里写目录标题Java网络爬虫1. HttpClient1.1 Get请求1.2 POST请求1.3 连接池1.4 参数设置2. Jsoup 本文将循序渐进介绍3大爬虫必备技术 HttpClietn(负责请求页面并获得页面)Jsout(负责解析页面,提取元素)WebMagic(Java的一个爬虫框架,利用WebMagic可以整合1、2中的繁琐操作) WebMagic
转载 2023-07-04 18:47:55
56阅读
身为一个有觉悟的渣渣,永远不会停止爬虫的瞎写(内卷)之路,很久没有coding了,so就有了下面这篇分享,一个博客爬虫,图片爬虫,我们都非常熟悉的新浪博客的图片爬虫,为了体现本渣渣的渣渣(弱智)水平,带来了一个异步版本,供大家参考学习,如果异步玩的6,请带带本渣渣! 异步代码是本渣渣抄袭的,不懂不要问本渣渣,因为本渣渣也不会。。。 目标网址:  http://blog.sina.com.cn/s/
原创 2021-07-27 16:51:58
575阅读
课上老师留了作业做这个花了一小会时间做了一下,分享下过程。一.首先我们选择微博移动端去爬取即这个网址微博移动版 二.登陆后获取到我们的cookie和user-agent,存下来一会会用。 三.分析评论url,我们可以发现往下翻评论时每次可获得一个url,一个url中包含几十条评论,找到规律如下: 第一个为:https://m.weibo.cn/comments/hotflow?id=4629867
转载 2023-09-25 22:56:34
184阅读
# 使用 Python 爬虫获取新浪微博评论 随着社交媒体的迅猛发展,微博作为中国最大的社交平台之一,吸引了无数用户的参与。在这里,各种观点和评论汇聚成海洋。如果你想研究微博上某个特定主题的评论,Python 爬虫是一个非常有效的工具。本文将介绍如何使用 Python 爬虫爬取新浪微博中的评论,并提供相应的代码示例。 ## 环境准备 在开始之前,你需要安装一些必要的库,比如 `request
原创 1月前
92阅读
写在前面时光飞逝,距离微博爬虫这个项目及系列文章 微博超级爬虫 第一次发布已经过去将近两年了,最开始,我也没想到,会维护这个项目如此之久。项目更新过很多次,从代码到文章,熬过夜,也废过食,还好一直有读者反馈,也有不少点赞支持的粉丝,这些大概都是维护这个项目的动力来源。这一年,完成了从一名学生到大厂工程师的转变,自由支配的时间少了许多;有感于大家的热情咨询,这一两周抽空,完成了 2021 年最新版微
一直琢磨着写个爬虫玩,上学期都没实行,于是花了大概一天写了这个东西       其实半天就把程序调试好了,可是在往mysql
转载 2023-06-09 09:29:19
108阅读
必知首先我们需要切记的是我们需要爬取的微博地址为:https://m.weibo.cn。不是https://weibo.com/。因为前者的数据时通过AJAX加载的,有利于我们的抓取,后者难度大,本人找了半天也找不到接口。 本次我们爬取演员张一山的微博。操作打开开发者工具,刷新爬取页面,由于微博数据是通过AJAX请求获取的,所以选择XHR 只查看AJAX请求。 依次点击AJAX请求查找获取数据的接
背景:实验室大数据分析需要得到社交网站的数据,首选当然是新浪。数据包括指定关键词、话题、位置的微博的内容。字段包括:图片、时间、用户、位置信息。思路分析:要爬新浪的数据主要有2种方法:    1.微博开发者平台提供的微博API,资源包括微博内容、评论、用户、关系、话题等信息。同时,你也可以申请高级接口、商业接口获得更多权限,你要去注册申请成为开发者获得OAuth2授权以及这个使
爬取新浪网导航页所有下所有大类、小类、小类里的子链接,以及子链接页面的新闻内容。效果演示图:items.pyimport scrapyimport sysreload(sys)sys.setdefaultencoding("utf-8")class SinaItem(scrapy.Item):
原创 2021-07-08 10:30:13
226阅读
爬取新浪网导航页所有下所有大类、小类、小类里的子链接,以及子链接页面的新闻内容。
原创 2022-03-23 15:59:34
692阅读
早上刷空间发现最近好多人过生日诶~仔细想想,好像4月份的时候也是特别多人过生日【比如我那么每个人生日的月份有什么分布规律呢。。。突然想写个小程序统计一下 最简单易得的生日数据库大概就是新浪微博了: 但是电脑版的新浪微博显然是动态网页。。。如果想爬这个应该要解析JS脚本【就像上次爬网易云音乐。。然而并不会解其实有更高效的方法:爬移动版移动版因为手机浏览器的限制大多都做了简化,更有
1 import requests 2 from urllib.parse import urlencode 3 from pyquery import PyQuery as pq 4 from pymongo import MongoClient 5 6 base_url = 'https://m.weibo.cn/api/container/getIndex?' 7 header
转载 2023-05-23 21:51:52
184阅读
最近手头上有一个项目,是关于新浪微博的,其中有一环要做新浪微博的爬虫。虽然之前把《Python学习手册》和《Python核心编程》都囫囵吞栆地通读完了,不过真正到做项目的时候还是什么都不会。于是在网上找了大量的资料。关于获取新浪微博的内容,大致有两种方法,一种是用纯爬虫,还有一种是用新浪提供的API。使用API的话,需要先申请一个新浪的开发帐号,这个过程有一点复杂,最终目的是获得新浪的app_ke
原创 2014-09-06 22:51:43
10000+阅读
8点赞
15评论
最近实验室安排了个任务,写一个新浪微博的爬虫,抓取大家的微博内容进行分析。话说都快毕业了,最近还在一家通信设备商实习(工资好少啊),无奈只能抽出晚上的时间来写这个程序。本来想用开源的爬虫的,于是尝试了nutch和heritrix。nutch性能太不稳定了,老是出问题。heritrix功能多,复杂,跑起来也慢。当看到这两篇博客后(http://kcclub.kings
原创 2021-07-29 10:05:23
366阅读
爬取新浪网导航页所有下所有大类、小类、小类里的子链接,以及子链接页面的新闻内容。效果演示图:items.pyimport scrapyimport sysreload(sys)sys.setdefaultencoding("utf-8")class SinaItem(scrapy.Item): # 大类的标题 和 url parentTitl...
原创 2022-05-09 14:17:04
81阅读
新浪新闻爬虫python注释挺详细了,直接上全部代码,欢迎各位大佬批评指正。from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.common.by import Byfrom time import sleepfrom...
原创 2021-11-17 10:03:50
587阅读
对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。 对于 nlper,缺乏足够的新闻语料数据集来供训练。 对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。
原创 2021-07-13 16:30:44
229阅读
1.首先在浏览器中进入WAP版微博的网址,因为手机版微博的内容较为简洁,方便后续使用正则表达式或者beautifulSoup等工具对所需要内容进行过滤 2.人工输入账号、密码、验证字符,最后最重要的是勾选(记住登录状态) 3.使用Wireshark工具或者火狐的HttpFox插件对GET请求进行分析
转载 2017-01-13 14:38:00
349阅读
2评论
  • 1
  • 2
  • 3
  • 4
  • 5