##一.异步加载: 让静态部分先以同步的方式装载,然后动态的部分向服务端发送一个或多个异步请求,从服务端接收到数据后,再将数据显示在页面上。这种技术就是AJAX,英文全称是 Asynchronous JavaScript and XML,中文可以称为"异步JavaScript和XML"。 AJAX有 ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-09-06 20:22:00
                            
                                767阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页。这里以简书里的优选连载网页为例分享一下我的爬取过程。网址为:https://www.jianshu.com/mobile/books?category_id=284一、分析网页进入之后,鼠标下拉发现内容会不断更新,网址信息也没有发生变化,于是就可以判断这个网页使用了异步            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-24 19:56:33
                            
                                84阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            小伙伴们大家好~Excel和python作为当前两款比较火的数据分析处理工具,两者之间有很多共性也有很大的区别。今天一起来看下在抓取网页数据这块,两者有什么异同点。       上图中是中国证券监督管理委员会中沪市IPO公司的相关信息,我们需要提取其中的表格数据,分别利用Excel与python。ExcelExcel提供两种获取网页数据的方法,第一种是 数据—自网站功能,第二种是Power Que            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-09 20:47:27
                            
                                234阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            爬虫的工作分为四步: 1.获取数据。爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。 2.解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。 3.提取数据。爬虫程序再从中提取出我们需要的数据。 4.储存数据。爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。这一篇的内容就是:获取数据。首先,我们将会利用一个强大的库——requests来获取数据。在电脑上安装的方法            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-05-23 22:46:19
                            
                                0阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、进入此次爬取的页面点这里。2、按F12—> network3、ctrl+r 刷新 如图搜索一个电影名,找到数据位置,然后查看4、找到请求的url ‘?’后边的是参数,不要带上5、参数单独拿出来start:0 代表的是排行榜的第一部电影limit:20   代表的是一次返回20条数据(20部电影)start和limit都可以更改param={
    'type': '            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-03 05:41:13
                            
                                151阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            之前看了一段有关爬虫的网课深有启发,于是自己也尝试着如如何过去爬虫百科“python”词条等相关页面的整个过程记录下来,方便后期其他人一起来学习。抓取策略确定目标:重要的是先确定需要抓取的网站具体的那些部分,下面实例是咦抓取百科python词条页面以及python有关页面的简介和标题。分析目标:分析要抓取的url的格式,限定抓取范围。分析要抓取的数据的格式,本实例中就要分析标题和简介这两个数据所在            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-03 16:43:09
                            
                                148阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1:浏览器工作原理:我们输入要访问的网址(URL)-浏览器向服务器发出请求,服务器响应浏览器,把数据给浏览器,浏览器再解析数据,然后返回给我们,我们提取自己需要的数据,然后存储起来,这就是整个流程  2:爬虫的工作原理:爬虫向浏览器发起请求,浏览器返还数据给爬虫,爬虫解析数据,解析数据,提取数据,存储数据 第一步:获取数据:爬虫程序根据我们提供的网址,向服务器发起请求,然后返回数据 第二步:解析数            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-11 16:58:03
                            
                                98阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1. 手机APP数据----写在前面继续练习pyspider的使用,最近搜索了一些这个框架的一些使用技巧,发现文档竟然挺难理解的,不过使用起来暂时没有障碍,估摸着,要在写个5篇左右关于这个框架的教程。今天教程中增加了图片的处理,你可以重点学习一下。2. 手机APP数据----页面分析咱要爬取的网站是http://www.liqucn.com/rj/new/这个网站我看了一下,有大概20000页,每            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-29 18:09:34
                            
                                137阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言当前手机使用成为互联网主流,每天手机App产生大量数据,学习的人也不能只会网页数据,我们需要学习如何从手机 APP 中获取数据,本文就以豆果美食为例,讲诉手机App的流程环境准备python3fiddler一款支持桥接模式的安卓虚拟机(本文使用夜神)需要准备的知识有:requests的使用mongodb的使用fiddler抓包工具的基本操作线程池ThreadPoolExecu            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-06 06:45:59
                            
                                18阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在本文中,我们将介绍如何使用Python的Scrapy库进行网站数据抓取。Scrapy是一个功能强大的网络爬虫框架,允许开发者轻松地抓取和解析网站内容。一、安装Scrapy首先,您需要安装Scrapy。这可以通过以下命令完成:pip install scrapy二、创建一个Scrapy项目接下来,我们需要创建一个Scrapy项目。在命令行中运行以下命令:scrapy startproject my            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-30 19:51:24
                            
                                85阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             如果知识单一的需求,不考虑深度学习的话。大概两个小时左右,大概的流程是,下载安装python,15分钟左右找到爬虫的教程,15分钟pip库,然后就开始复制粘贴修改目标网址和数据存储路径。然后开始爬一直到结束。整个过程2小时。我觉得带着目的去学习,是最有效的学习方法。学习python爬虫的话必备知识点如下:最首先要学的是基本的python语法知识学习python爬虫经常用到的几个内之苦:            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-13 17:19:39
                            
                                141阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            在python中,正常的抓取数据直接使用urllib2 这个模块: 如果要走http代理的话,我们也可以使用urllib2,不需要引用别的模块: 如果要使用socks5代理, 我们需要别的模块 sockes, socket, 我们可以通过pip install socksipy , (我是windo            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-01-29 09:55:01
                            
                                701阅读
                            
                                                                             
                 
                
                             
         
            
            
            
                    Python有很多库可以实现抓包和分析包,典型就是pypcap用来抓包,dpkt用来分析,关于这两个库的安装,我有一些随笔,虽然这些对于一个Python老手而言似乎是信手拈来可以吹着口哨搞定的事,但是对于新手而言,似乎必然会遇到这样那样的问题,因此我先分享一些关于安装方面的事情。   &nbs            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-08 18:46:24
                            
                                61阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1. Python爬虫基础1.1 第一个爬虫程序通过搜索charset查看网页编码,常用编码有utf-8、jbkfrom urllib.request import urlopen
url = "http://www.baidu.com"
resp = urlopen(url)
# read获取的是字节码,然后解码
content = resp.read().decode('utf-8')
pr            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-05-31 15:53:07
                            
                                107阅读
                            
                                                                             
                 
                
                             
         
            
            
            
              这次的话题是数据抓取。终于到了核心部分的探讨,我的心情也是非常激动啊!如果大家baidu或者google(如果可以的话)数据抓取或者data crawling,将会找到数以千计的例子。但是大多数的代码非常的冗长,并且许多代码还是抓取静态数据之后,对动态JS写成的数据却毫无办法。或者,利用HTML解析网址后,再找到JS写的数据页面来寻找到所想要的数据。    但是!不知各位是否有发现过,如            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-16 12:43:05
                            
                                139阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            需求: 获取某网站近10万条数据记录的相关详细信息。分析:数据的基本信息存放于近1万个页面上,每个页面上10条记录。如果想获取特定数据记录的详细信息,需在基本信息页面上点击相应记录条目,跳转到详细信息页面。详细信息页面的地址可从基本信息页面里的href属性获取。方法:开始时使用beautiful soup进行爬网,因速度较慢,换用lxml,速度改善不明显。   beautiful sou            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-05-25 16:35:08
                            
                                87阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            理论梳理爬虫个人理解:用代码在网页上循着线索收集数据URL:(Uniform Resource Locator)指定信息位置的表示方法爬虫思路:根据URL去获取目标信息使用的功能包:requests流程图:举例从JD上获取某款口红的评论区内容,代码和注释如下:import requests     #引入功能包_第一行代码
a = requests.get('https://club.jd.com            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-10 19:21:04
                            
                                175阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            数据匹配首先先研究最关键的数据抓取。从形式各异的数据中将内容“扒”下来。当然得依赖我们的强力工具 正则表达式了(个人觉得基于DOM树分析很麻烦,很不灵活)分析了几个BOKECC页面后,总结如下:1. 各页面有一定差别,可能是基于不同版本。HTML写的很不正规,基于HTML标签来匹配肯定不合适。2. 页面带动态内容,需要分析,模拟AJAX去请求。在基于HTML源码的数据爬取中,如果单纯的想基于HTM            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-22 12:37:58
                            
                                7阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言Scrapy是一个非常好的抓取框架,它不仅提供了一些开箱可用的基础组建,还能够根据自己的需求,进行强大的自定义。本文主要给大家介绍了关于Python抓取框架Scrapy之页面提取的相关内容,分享出来供大家参考学习,下面随着小编来一起学习学习吧。下面创建一个爬虫项目,以图虫网为例抓取图片。一、内容分析打开 图虫网,顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-28 22:19:27
                            
                                93阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            任务:抓取某网站数据(物品,参数,图片) 近来对于 python 的学习热情比较高,感觉用起来比较方便,效率也好,就决定采用 python 来做上述任务, Mysql Mysqlmysql-5.1.35-win32.msi  管理工具: Navicat for MySQL 相关模块: Python 2.5 + MySQLdb ( MySQL-python-1.2.2.win32            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-23 16:05:12
                            
                                77阅读