吴流的博客_python爬虫_51CTO博客

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

# python爬虫

通过WebElement接口获取值

通过WebElement接口获取值　　size　　获取元素的尺寸　　text　　获取元素的文本　　get_attribute(name)　　获取属性值　　location　　获取元素坐标,先找到要获取的元素,再调用该方法　　page_source　　返回页面源码　　driver.title　　返回页面标题　　current_url　　获取当前页面的URL　　is_displayde()　　判断该元

WebElement

转载 2019-01-25 16:11:51 1256 阅读

使用爬虫遇到的一些问题

本博客会记录博主在使用爬虫过程中遇到的问题，不断更新，希望以后再遇到这些问题的时候，可以快速解决。1、在爬取和讯博客的时候发现阅读数和评论数无法正常读取。通过抓包工具抓取到了阅读数和评论数的URL，但是复制到浏览器上打开发现一片空白。在抓包工具Raw里发现，有一项Refere，后面将此项加到headers信息里，数据可以正常显示出来了。代码如下：importurllib.requesturl='h

爬虫

urllib

原创 2018-09-05 16:29:40 786 阅读

使用scrapy框架爬取蜂鸟论坛的摄影图片并下载到本地

目标网站：http://bbs.fengniao.com/使用框架：scrapy因为有很多模块的方法都还不是很熟悉，所有本次爬虫有很多代码都用得比较笨，希望各位读者能给处意见首先创建好爬虫项目，并使用crawl模板创建爬虫文件通过观察论坛的规律得出，很多贴子的页数往往大于一页，那么要将贴子里各页的图片下载到同一文件夹内，并且不能重名，就是获取到当前的页码数，已页码数+自然数的方式命令文件。发现sc

scrapy

python

爬虫

原创 2018-08-31 11:37:20 1146 阅读

python简单爬虫笔记

python模拟游览器爬取相关页面importurllib.requesturl="http://blog.51cto.com/itstyle/2146899"#模拟浏览器headers=("User-Agent","Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)

python

简单

爬虫

笔记

原创 2018-07-18 22:15:44 727 阅读 1收藏