上次写了一个爬世纪佳缘的爬虫之后,今天再接再厉又写了一个新浪博客的爬虫。写完之后,我想了一会儿,要不要在博客园里面写个帖子记录一下,因为我觉得这份代码的含金量确实太低,有点炒冷饭的嫌疑,就是把上次的代码精简了一下,用在另外一个网站而已,而且爬别人的博客总有一种做贼心虚的感觉,怕被各位园友认为是偷窥狂魔。但是这份代码总归是我花了精力去写的,我也不想就此让它深藏在硬盘之中(电脑实在太老了,可能过两年硬
身为一个有觉悟的渣渣,永远不会停止爬虫的瞎写(内卷)之路,很久没有coding了,so就有了下面这篇分享,一个博客爬虫,图片爬虫,我们都非常熟悉的新浪博客的图片爬虫,为了体现本渣渣的渣渣(弱智)水平,带来了一个异步版本,供大家参考学习,如果异步玩的6,请带带本渣渣! 异步代码是本渣渣抄袭的,不懂不要问本渣渣,因为本渣渣也不会。。。 目标网址:  http://blog.sina.com.cn/s/
原创 2021-07-27 16:51:58
597阅读
# 新浪爬虫 Java - 科普文章 ## 前言 在互联网时代,信息获取变得越来越方便。然而,有些信息并不是随处可见的,比如一些网站的数据。这时,我们可以使用网络爬虫来获取这些数据。本文将介绍如何使用 Java 编写一个简单的新浪爬虫,以获取新浪网站上的数据。 ## 什么是爬虫爬虫(Spider)是一种自动化程序,用于从互联网上抓取数据。爬虫通过访问网页,并分析网页的结构和内容,从中提
原创 2023-08-08 22:48:11
23阅读
# 如何实现Python爬取新浪新闻评论的爬虫 在现代网络应用中,数据爬取是一项重要的技能。通过爬取网页数据,我们能够获取大量的信息,尤其在信息获取需求较大的领域,如数据分析和机器学习。今天,我们将专注于创建一个简单的爬虫来获取新浪新闻的评论。以下是整个流程以及详细步骤的介绍。 ## 爬虫实现流程 以下是我们要实现“评论爬虫 Python 新浪新闻评论”的具体步骤: | 步骤
原创 9月前
199阅读
# 使用 Python 爬虫获取新浪微博评论 随着社交媒体的迅猛发展,微博作为中国最大的社交平台之一,吸引了无数用户的参与。在这里,各种观点和评论汇聚成海洋。如果你想研究微博上某个特定主题的评论,Python 爬虫是一个非常有效的工具。本文将介绍如何使用 Python 爬虫爬取新浪微博中的评论,并提供相应的代码示例。 ## 环境准备 在开始之前,你需要安装一些必要的库,比如 `request
原创 2024-08-26 07:15:43
284阅读
写在前面时光飞逝,距离微博爬虫这个项目及系列文章 微博超级爬虫 第一次发布已经过去将近两年了,最开始,我也没想到,会维护这个项目如此之久。项目更新过很多次,从代码到文章,熬过夜,也废过食,还好一直有读者反馈,也有不少点赞支持的粉丝,这些大概都是维护这个项目的动力来源。这一年,完成了从一名学生到大厂工程师的转变,自由支配的时间少了许多;有感于大家的热情咨询,这一两周抽空,完成了 2021 年最新版微
早上刷空间发现最近好多人过生日诶~仔细想想,好像4月份的时候也是特别多人过生日【比如我那么每个人生日的月份有什么分布规律呢。。。突然想写个小程序统计一下 最简单易得的生日数据库大概就是新浪微博了: 但是电脑版的新浪微博显然是动态网页。。。如果想爬这个应该要解析JS脚本【就像上次爬网易云音乐。。然而并不会解其实有更高效的方法:爬移动版移动版因为手机浏览器的限制大多都做了简化,更有
Java网络爬虫这是本文目录 这里写目录标题Java网络爬虫1. HttpClient1.1 Get请求1.2 POST请求1.3 连接池1.4 参数设置2. Jsoup 本文将循序渐进介绍3大爬虫必备技术 HttpClietn(负责请求页面并获得页面)Jsout(负责解析页面,提取元素)WebMagic(Java的一个爬虫框架,利用WebMagic可以整合1、2中的繁琐操作) WebMagic
转载 2023-07-04 18:47:55
64阅读
课上老师留了作业做这个花了一小会时间做了一下,分享下过程。一.首先我们选择微博移动端去爬取即这个网址微博移动版 二.登陆后获取到我们的cookie和user-agent,存下来一会会用。 三.分析评论url,我们可以发现往下翻评论时每次可获得一个url,一个url中包含几十条评论,找到规律如下: 第一个为:https://m.weibo.cn/comments/hotflow?id=4629867
转载 2023-09-25 22:56:34
219阅读
必知首先我们需要切记的是我们需要爬取的微博地址为:https://m.weibo.cn。不是https://weibo.com/。因为前者的数据时通过AJAX加载的,有利于我们的抓取,后者难度大,本人找了半天也找不到接口。 本次我们爬取演员张一山的微博。操作打开开发者工具,刷新爬取页面,由于微博数据是通过AJAX请求获取的,所以选择XHR 只查看AJAX请求。 依次点击AJAX请求查找获取数据的接
爬取前的准备:BeautifulSoup的导入:pip install BeautifulSoup4requests的导入:pip install requests下载jupyter notebook:pip install jupyter notebook下载python,配置环境(可使用anocanda,里面提供了很多python模块) json定义 :是一种格式,用于数据交换。Ja
# 使用Python爬取新浪财经网的步骤指南 作为一名刚入行的小白,爬取新浪财经网的数据是一个很好的练习项目。本文将详细说明整个爬虫的实现流程,并提供必要的代码示例。通过这一步步的指导,你很快就可以实现你的第一个爬虫。 ## 整体流程 在开始之前,我们先看一下整个项目的步骤概况: | 步骤编号 | 步骤名称 | 描述
原创 9月前
730阅读
最近手头上有一个项目,是关于新浪微博的,其中有一环要做新浪微博的爬虫。虽然之前把《Python学习手册》和《Python核心编程》都囫囵吞栆地通读完了,不过真正到做项目的时候还是什么都不会。于是在网上找了大量的资料。关于获取新浪微博的内容,大致有两种方法,一种是用纯爬虫,还有一种是用新浪提供的API。使用API的话,需要先申请一个新浪的开发帐号,这个过程有一点复杂,最终目的是获得新浪的app_ke
原创 2014-09-06 22:51:43
10000+阅读
8点赞
15评论
爬取新浪网导航页所有下所有大类、小类、小类里的子链接,以及子链接页面的新闻内容。效果演示图:items.pyimport scrapyimport sysreload(sys)sys.setdefaultencoding("utf-8")class SinaItem(scrapy.Item): # 大类的标题 和 url parentTitl...
原创 2022-05-09 14:17:04
98阅读
最近实验室安排了个任务,写一个新浪微博的爬虫,抓取大家的微博内容进行分析。话说都快毕业了,最近还在一家通信设备商实习(工资好少啊),无奈只能抽出晚上的时间来写这个程序。本来想用开源的爬虫的,于是尝试了nutch和heritrix。nutch性能太不稳定了,老是出问题。heritrix功能多,复杂,跑起来也慢。当看到这两篇博客后(http://kcclub.kings
原创 2021-07-29 10:05:23
410阅读
# 使用Java编写新浪财经期货数据爬虫 在当今的信息时代,数据是推动决策和洞察的重要资源。财经数据,特别是有关期货市场的信息,对于投资者来说尤为重要。本文将介绍如何使用Java编写一个简单的爬虫,从新浪财经网站获取期货数据。 ## 什么是爬虫? 网络爬虫是自动化程序,旨在访问互联网上的网页并提取信息。通过爬虫,我们可以快速收集大量有用的数据,比如股市行情、期货价格等。 ## 工具和库
原创 8月前
76阅读
这次的项目 和文件都放到了 github 上 https://github.com/poiu1235/weibo-catch:有兴趣的可以follow一下,或者点个赞咯我这里采用的深度挖掘的方式:没有设定爬取的边界(这个以后是要考虑的)大致的思路是,用自己的 账号登陆后,获取自己的微博列表和朋友列表。然后根据朋友列表然后在爬取对方的微博列表和朋友列表。这样不断的深度挖掘和遍历的过程过程中
转载 2023-09-14 09:46:21
105阅读
fiddler 之前了解了一些常见到的反爬措施,JS加密算是比较困难,而微博的登录中正是用JS加密来反爬,今天来了解一下。分析过程首先我们去抓包,从登录到微博首页加载出来的过程。我们重点关注一下登录操作,其次是首页的请求,登录一般是POST请求。我们搜索一下: 得知登录的url为https://login.sina.com.cn/sso/login.php?client=sso
转载 2023-12-28 23:39:42
174阅读
新浪新闻爬虫python注释挺详细了,直接上全部代码,欢迎各位大佬批评指正。from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.common.by import Byfrom time import sleepfrom...
原创 2021-11-17 10:03:50
629阅读
一直琢磨着写个爬虫玩,上学期都没实行,于是花了大概一天写了这个东西       其实半天就把程序调试好了,可是在往mysql
转载 2023-06-09 09:29:19
145阅读
  • 1
  • 2
  • 3
  • 4
  • 5