python 抓取网页标题 python爬取网页标题

转载

kekenai 2023-06-26 10:32:33

文章标签 python 抓取网页标题 python Android RxJava HTML 文章分类 Python 后端开发

爬虫过程中，一般会使用requests.get()方法获取一个网页上的HTML内容，然后通过lxml库中的etree.HTML来解析这个网页的结构，最后通过xpath获取自己所需的内容。
代码如下：

import requests
from lxml import etree
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138    Safari/537.36'}
response = requests.get('', headers=headers)  
etree_html = etree.HTML(response.text)
content = etree_html.xpath('//*[@id="articleMeList-blog"]/div[2]/div/h4/a/text()')  #XPath 使用路径表达式在 XML 文档中选取节点

for each in content:
    replace = each.replace('\n', '').replace(' ', '') 
    if replace == '\n' or replace== '':
        continue
    else:
        print(replace)

requests.get(url,params=params,headers=headers):构造一个向服务器请求资源的url对象,返回的是一个包含服务器资源的Response对象,包含从服务器返回的所有的相关资源。

User-Agent会告诉网站服务器，访问者是通过什么工具来请求的，如果是爬虫请求，一般会拒绝，如果是用户浏览器，就会应答。这时就需要将爬虫伪装成人类用户的浏览器, 这通常通过伪造请求头信息实现。
User-Agent通常格式：Mozilla/5.0 (平台) 引擎版本浏览器版本号
user-agent获取：
方法一：在chrome地址栏输入about:version，即可找到
方法二：chrome浏览器右上 —> 更多工具 —> 开发者工具（直接按F12也行） —> Network—>摁下ctrl+R—>在Name下随便点击一个请求—>右框中找到Request Headers下的User-Agent

xpath获取：

chrome浏览器右上 —> 更多工具 —> 开发者工具 —>Elements —>在网页代码中找到标题所在链接—>右键copy—>copy Xpath

python 抓取网页标题 python爬取网页标题_RxJava

最后得到该网页所有标题：

从invalidate分析view绘制流程
JVM内存区域
战略性了解WindowManager
AndroidStudio上的代码折叠
setContentView的时候，到底发生了什么
从源码角度深入探寻Scroller的奥秘
从小白角度探索Android事件分发机制
Android绘制波浪线进阶
Android之Shader完全理解指南
EasySQL轻松上手的数据库框架
Android数据库使用指南（下）
Android数据库使用指南（上）
Python爬取网页数据
如何撸一个ArrayList
Android相机屏幕适配
Tinker关于clean后准基包消失的解决方案
Tinker使用指南
git分支的使用
如何将Androidstudio中的项目导入到第三方的git托管库中
遍历矩阵
从矩阵中取出子矩阵
AndroidStudio配置OpenCV
一步一步了解handler机制
Android常用框架
Android绘制波浪线
RxJava系列教程之线程篇（五）
RxJava系列教程之过滤篇（四）
RxJava系列教程之变换篇（三）
RxJava系列教程之创建篇（二）
RxJava系列教程之介绍篇（一）
N个例子让你彻底理解java接口回调
SharedPreferences的用法及指南
异步加载网络图片带进度
VideoView加载闪黑屏
android视频播放vitamio的简单运用
仿网易新闻分类刷新
ListView加CheckBox简单实现批量删除
Android如何高效加载大图
Android聊天界面实现方式
抽屉侧滑菜单Drawerlayout-基本使用方法