python 读取 html python读取html页面提取数据

转载

勇往直前的巨人 2023-07-17 14:37:14

文章标签 Python读取html 百度 css python 文章分类 Python 后端开发

一篇基础文章，单纯的获取标签元素的值、操作网页。

用到了 selenium 包。这个包需要给浏览器安装驱动，不同的浏览器需要的驱动不同。环境搭建参考：

需要注意，windows版本的驱动文件.exe需要放在python.exe所在的目录下，环境变量才能生效（别问我为什么，我也不知道 (✪ω✪)）

python 读取 html python读取html页面提取数据_python

代码：

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from time import sleep

# 打开火狐浏览器
browser=webdriver.Firefox()

# 打开百度首页
browser.get("https://www.baidu.com/")

# 获取'新闻'超链接中的文字 3种方法
print(browser.find_element_by_name("tj_trnews").text)
print(browser.find_element_by_xpath("//*[@name='tj_trnews']").text)
print(browser.find_element_by_css_selector("div#u1 > a")[1].text)

# 在输入框输入'hello world'
browser.find_element_by_id("kw").send_keys("hello world")

# 点击'百度一下'按钮
browser.find_element_by_id("su").click()

# 清除搜索框内容
browser.find_element_by_id("kw").clear()

# 调用js代码
js="alert('hello world');"
browser.execute_script(js)

# 关闭浏览器
sleep(1)
browser.quit()

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。