大家好,我是Python进阶者。
一、前言
前几天在Python最强王者交流群【哎呦喂 是豆子~】问了一个Python网络爬虫数据处理的问题。问题如下:
大佬们 请问下这种链接怎么动态翻页?拿到完整的html?
打开链接默认是显示20行数据,要再往下查到数据,需要手动下滑才能获取,这种怎么完整的html? 直接对链接获取只有默认的前20行数据,想要完整的。
二、实现过程
这里【瑜亮老师】给了一个指导,如下所示:改from msgid=2247485282
这里就可以了。当然其实也可以用自动化库下滑网页至底然后获取源码,之后用lxml、bs之类的解析html获取所需的数据。
【哎呦喂 是豆子~】:瑜大佬 这是什么意思呀 不太懂 之前是使用selenium控制自动下滑 但是换到别人电脑上他的运行不了 查了半天不知道问题出哪里
【瑜亮老师】:运行不了是因为webdriver版本和浏览器版本不匹配。现在很少用selenium了。都是用playwright或者DrissionPage
【猫药师Kelly】:DrissionPage +1
【瑜亮老师】:selenium总是会因为webdriver版本和浏览器版本不匹配导致代码无法运行。后期维护成本很高
【哎呦喂 是豆子~】:确实 换个环境就用不了 对我们这些菜鸟不太友好 ,我去看看这个 学习学习 。
【瑜亮老师】:DrissionPage只需要3篇微文就能学会用法
【猫药师Kelly】:B站有详细教学了,上手很简单。
【瑜亮老师】:@哎呦喂 是豆子~ 你会用selenium,那么DrissionPage的用法和它差不多
【黑科技·鼓包】:看了下DrissionPage很方便啊
【哎呦喂 是豆子~】:还真是 刚看完几篇推文 感觉比selenium方便 虽然是还没上手 但是有一种看完有手就会的感觉 哈哈哈。
【瑜亮老师】:其实这个时候你才真正的体会到学习的快感。
顺利地解决了自己的问题。
如果你也有类似这种Python相关的小问题,欢迎随时来交流群学习交流哦,有问必答!