好久没写博文了,最近捣鼓了一下python,好像有点上瘾了,感觉python比js厉害好多,但是接触不久,只看了《[大家网]Python基础教程(第2版)[www.TopSage.com]》的前7章,好多东西还不会,能做的也比较少。我想做的是QQ空间,然后把空间里的留言,说说拷下来,已经成功做到了,只是,拷下来是word文档,看着没有在线看那么有感触,有
转载 2023-07-01 13:27:54
154阅读
前言虽然扒qq空间不是很地道,但咱还是干干吧……正好也是闲来无事,我这个应该不会被别人发现 tao)技术路线selenium + beautifulsoup + pyautogui + echarts selenium模拟浏览器 beautifulsoup解析文本 pyautogui 负责下拉 echarts 可视化图像需要注意的点QQ空间在加载的时候,是一部分一部分加载的。也就是说当下拉到最底的
本文目标  1.使用selenium实现账号密码登录qq空间  2.使用多线程qq好友的说说评论点赞情况保存至本地  3.使用echarts将数据可视化 这是帮我同学做的他的qq好友关系网效果图,觉得他的关系网络比较好看,有特点,所以就用他的了,连线代表两人之间有联系,线的粗细代表两人关系的好的程度,为了显示效果和隐私就把名字给去了 最开始是看到了这篇博
转载 2024-05-04 14:58:57
157阅读
环境:PyCharm+Chorme+MongoDB Window10爬虫取数据的过程,也类似于普通用户打开网页的过程。所以当我们想要打开浏览器去获取好友空间的时候必定会要求进行登录,接着再是查看说说。那么我们先把登录步骤给解决了。1.模拟登录QQ空间因为想更直观的看到整个登录过程所以就没有用selenium+phantomjs,而是结合Chorme使用。除了slenium和Chorme之外还需要
有一天我突然发现自己空间的说说竟然已经达到1833条,于是萌生了一下看看的想法(其实就是想学下python爬虫)。我找了一些博客,方法不少,但是有些并不适用。所以我把真正能用的方法记录下来,并且取了我自己的全部说说,亲测可用。下面我介绍下爬虫的写法。用到的库——selenium,requests,json,sqlite3,re,time,random其中,selenium是用于模拟QQ空间登录
# Python QQ 空间相册的科普介绍 随着互联网的发展,社交媒体上的照片、视频等资源越来越丰富。而在这些社交平台中,QQ空间虽然不如以前火热,但依旧有着不少珍贵的记忆。本文将为大家介绍如何使用 Python 爬虫技术来获取 QQ 空间的相册内容。 ## 爬虫基础知识 爬虫是自动访问互联网并从中获取数据的程序。在我们开始QQ 空间相册之前,需要了解以下几个基础知识: 1.
原创 2024-09-08 04:55:22
278阅读
作者 | 程序猿tx当年的我还是那么风华正茂、幽默风趣...言归正传,本次使用的是selenium模拟登录+BeautifulSoup4取数据+wordcloud生成词云图BeautifulSoup安装pip install beautifulsoup4下表列出了主要的解析器,以及它们的优缺点:selenium模拟登录使用selenium模拟登录QQ空间,安装pip install seleni
一.    功能需求分析:在很多时候我们需要做这样一个事情:我们想把我们QQ空间上的相册高清图像下载下来,怎么做?到网上找软件?答案是否定的,理由之一:网上很多软件不知有没有病毒,第二它有可能捆了很多不必要的软件,对我们不友好,而且有些需要费用,那该怎么办?难道就无计可施了吗?答案又是否定的,我们可以通过爬虫技术完成一个QQ或者微信相册空间下载器,根据功能需求不同我们
开发工具Python版本:3.6.4相关模块:requests模块;selenium模块;lxml模块;以及一些Python自带的模块。环境搭建安装Python并添加到环境变量,pip安装需要的相关模块,并前往:http://npm.taobao.org/mirrors/chromedriver/下载与自己使用的Chrome浏览器版本对应的驱动文件,下载完毕后将chromedriver.exe所在
20150903更新:本文仍存在部分相册不能下载的问题,本文代码不再维护不过由于QQ空间后台更新,本文根据QQ空间最新的JSONAPI做了改进 首先需要下载windows版本的curl,具体可以参考百度经验下载地址:http://curl.haxx.se/download/?C=M;O=D如果你是64位系统,建议下载curl-7.33.0-win64-nossl.zip然后解压到D盘根目录下,如图
转载 2023-12-05 20:10:10
56阅读
# 如何使用 Python QQ 空间图片 取网页信息是很多开发者需要掌握的一项基本技能。在这篇文章中,我们将学习如何使用 Python QQ 空间中的图片。虽然取网页的过程听起来很复杂,但我们可以将其分解为几个简单的步骤。 ## 整体流程 我们可以将整个爬虫过程分为以下几个步骤: | 步骤 | 描述 | |------|------
原创 9月前
121阅读
看了网上大神和相关书本的操作,自己实践并改变了一些。我把我的思路和细节写出来。写的不好多多指教。 我用了两种方法取数据重点内容,一个是直接取,另一个是利用Selenium模拟。 第一种:使用Google Chrome浏览器,打开网页版qq登录界面,在登录之前按F12输入账号密码登录后点击说说,在右侧Google Chrome开发者工具中选择Network,Filter右侧选择XHR,可以筛
转载 2024-07-16 13:14:49
0阅读
# PythonQQ空间的项目方案 ## 项目背景 QQ空间是腾讯提供的一种个人空间,用户可以在空间中分享生活点滴、照片和日志等。由于隐私和数据保护的原因,QQ空间的数据并不是公开的。因此,QQ空间的数据需要遵循相关规定和法律,并且主要用于学习和研究目的。 ## 项目目标 本项目旨在使用Python编写一个爬虫,能够取公共QQ空间中的信息,包括日志、相册和个人资料等信息。项目将使
原创 2024-08-09 10:37:55
597阅读
title: python + selenium +chromeqq空间好友说说并存入mongodb数据库准备阶段在正式开始在前需要先准备好做爬虫的工具,本例使用chrome无头浏览器进行取工作,也可使用其他浏览器,程序中的其他可替代工具在此之后不再一一赘述,有一些不明白的地方可以自行百度,有错误的地方欢迎大家指正,大家共同学习共同进步!!需要用到的库:pymongo selenium cs
怎么利用爬虫QQ空间中设置了权限的无法正常访问的内容?比如很多人的空间不允许别人访问,或者有些相册不允许别人访问回复内容:你把 『利用爬虫取』 这个定语去掉,能做到,再去考虑 『利用爬虫取』 这个问题。任何情况下,计算机程序都只可以做它的创造者会做的事情,只是大多数情况下比那个创造它的人做的更快、更不易出错。意味着,如果你可以在不知道加密相册的问题的答案的情况下进入相册(如果鹅厂存在BUG
前言昨天看见某人的空间有上传了XXXX个头像,然后我就想着下载回来【所以本质上这是一个头像下载程序】,但是一个个另存为太浪费时间了,上网搜索有没有现成的工具,居然要注册码,还卖45一套。你们的良心也太坏了!。而且居然!!!还有一个和我同名的下载器?这一点实在让我十分的嫉恨。于是我下决心搞清楚这个东西,然而大部分资料都是Python源码,并且很多都是过期的且无法使用的了[反正我是没找到一个能用]。好
跟着@逆水寒大佬学爬虫,Python动态QQ空间说说,把内容存入txt文档,然后将内容生成词云图。可以清晰看出朋友状况。1、取动态内容1、因为动态页面内容是动态加载的,我们需要不断下滑,加载页面。2、切换到当前内容的中,也可能不是,这里需要查看具体情况。3、获取页面数据,然后放在xpath中,然后读取。# 下拉滚动条,使浏览器加载出动态加载的内容,# 从1开始加载到6结束,分5次加载完每页数
QQ空间相册爬虫目标:不声不响的进入别人空间(直接进入内存消耗巨大,速度慢)获取可以获取的所有的照片获取.gif格式的照片(未实现)获取视频(未实现,但可获取视频封面照片)空间相册分析:  首先,不可操作的相册显然不在我们考虑的范围对于可操作的相册我将其分为两个部分,是因为我操作‘你有权限进入的相册’时,我遇到了一些难题,与此同时,我也意识到自己的薄弱之处(我极其讨厌模拟请求形式的爬虫技
取说说写入本地wen'da#coding:utf-8 import time from selenium import webdriver from lxml import etree #这里一定要设置编码格式,防止后面写入文件时报错 import sys reload(sys) sys.setdefaultencoding( "utf-8" ) friend = '******' #
转载 2024-01-10 14:29:46
176阅读
具体代码如下所示:#coding:utf-8 #!/usr/bin/python3 from selenium import webdriver import time import re import importlib2 import sys importlib2.reload(sys) def startSpider(): driver = webdriver.Chrome('/Users/
  • 1
  • 2
  • 3
  • 4
  • 5