自动点击浏览器网页的python程序浏览器脚本自动点击

转载

mob64ca13f937ae 2024-02-05 13:42:48

文章标签 自动点击浏览器网页的python程序 chrome Chrome 加载 文章分类 Python 后端开发

selenium操作各种浏览器

下载浏览器对应版本的chromedriver.exe放到 %systemroot%目录或其它可以被系统环境找到的目录下

#coding:utf-8
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
#配置360浏览器地址开始
__browser_url = r'D:\Program Files\360Chrome\Chrome\Application\360chrome.exe' #浏览器目录地址
chrome_driver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe" 
chrome_options = Options()
chrome_options.binary_location = __browser_url
#配置360浏览器地址结束
brower = webdriver.Chrome(chrome_driver,options=chrome_options)
#brower = webdriver.Firefox()
#brower = ()
brower.find_elements_by_......

浏览器启用方式

启动Chrome浏览器：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.lidihuo.com/')

启动Firefox浏览器：

from selenium import webdriver

browser = webdriver.Firefox()

browser.get('https://www.lidihuo.com/')

启动IE浏览器：

from selenium import webdriver

browser = ()

browser.get('https://www.lidihuo.com/')

添加浏览器参数add_argument

chrome_options.add_argument('--参数1 --参数2')

chrome_options.add_experimental_option('excludeSwitches', ['enable-logging']) #不输出console.log的日志内容到控制台

chrome_options.add_argument('--start-maximized') # 最大化运行（全屏窗口）,不设置，取元素会报错

chrome_options.add_experimental_option('excludeSwitches', ['enable-automation']) #规避部分网站对selenium的检测

browser = webdriver.Chrome(options=chrome_options) #加载参数

具体可参见 https://peter.sh/experiments/chromium-command-line-switches/ ，该网站罗列了所有的参数。

设置代理

chrome_options.add_argument('--proxy-server=http://{ip}:{port}')

Headless方式启动

Headless Chrome 是 Chrome 浏览器的无界面形态，可以在不打开浏览器的前提下，使用所有 Chrome 支持的特性运行你的程序。相比于现代浏览器，Headless Chrome 更加方便测试 web 应用，获得网站的截图，做爬虫抓取信息等。相比于较早的 PhantomJS，SlimerJS 等，Headless Chrome 则更加贴近浏览器环境。

Headless Chrome 对Chrome版本要求：

官方文档中介绍，mac和linux环境要求chrome版本是59+，而windows版本的chrome要求是60+，同时chromedriver要求2.30+版本。

from selenium import webdriver
chrome_options = webdriver.ChromeOptions()
# 使用headless无界面浏览器模式
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
# 启动浏览器，获取网页源代码
browser = webdriver.Chrome(options=chrome_options)

加载配置启动浏览器

Selenium操作浏览器是不加载任何配置的，下面是关于加载Chrome配置的方法：

用Chrome地址栏输入chrome://version/，查看自己的“个人资料路径”，然后在浏览器启动时，调用这个配置文件，代码如下：

# coding=utf-8

from selenium import webdriver

option = webdriver.ChromeOptions()

# 设置成用户自己的数据目录

option.add_argument('--user-data-dir=C:\Users\Administrator\AppData\Local\Google\Chrome\User Data')

driver=webdriver.Chrome(options=option)

单独配置浏览器selenium驱动位置

chrome_driver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"

driver = webdriver.Chrome(chrome_driver, chrome_options=chrome_options)

而加载Firefox配置的方法有些不同：

打开Firefox点右上角设置>？（帮助）>故障排除信息>显示文件夹，打开后把路径复制下来就可以了

# coding=utf-8
from selenium import webdriver
# 配置文件地址
profile_directory = r'C:\Users\xxx\AppData\Roaming\Mozilla\Firefox\Profiles\1x41j9of.default'
# 加载配置配置
profile = webdriver.FirefoxProfile(profile_directory)
# 启动浏览器配置
driver = webdriver.Firefox(profile)

使用selenium控制已打开的浏览器

这里给出Google Chrome浏览器的解决方案。

我们可以利用Chrome DevTools协议。它允许客户检查和调试Chrome浏览器。

打开cmd，在命令行中输入命令：

chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\selenum\AutomationProfile"

对于-remote-debugging-port值，可以指定任何打开的端口。
对于-user-data-dir标记，指定创建新Chrome配置文件的目录。它是为了确保在单独的配置文件中启动chrome，不会污染你的默认配置文件。

还有，不要忘了在环境变量中PATH里将chrome的路径添加进去。

此时会打开一个浏览器页面，我们输入百度网址，我们把它当成一个已存在的浏览器：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
 
chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
chrome_driver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"
driver = webdriver.Chrome(chrome_driver, chrome_options=chrome_options)
print(driver.title)

会发现打印出了 “百度一下，你就知道” 的网页标题。这样我们就实现了对一个已打开的浏览器的控制。

webdriver.chrome()

其它

execute_script('js代码')

需要先新建js代码,再执行

js='scrollTo(0,1000)' js滚动代码

switch_to_alert()
quit() 退出浏览器

元素定位
查找一个元素

find_element_by_id()
find_element_by_name()
find_element_by_link_text() 匹配全部文本
find_element_by_partial_link_text() 部分文本匹配
find_element_by_xpath()
find_element_by_class_name() 单类名用
find_element_by_tag_name()
find_element_by_css_selector() css通用

查找一组元素

find_elements_by_id()
find_elements_by_name()
find_elements_by_link_text()
find_elements_by_partial_link_text()
find_elements_by_xpath()
find_elements_by_class_name()
find_elements_by_tag_name()
find_elements_by_css_selector()

class含有空格时解决方法

直接包含空格的CSS属性定位大法

find_element_by_css_selector("[class='classname1 classname2']").send_keys("yoyo")

或者在每个class前面加上点

find_element_by_css_selector('.dtb-style-1.table-dragColumns').click()

元素操作方法
send_keys() 发送文本或按键

发送回车键

要想调用键盘按键操作需要引入 keys 包：
from selenium.webdriver.common.keys import Keys
通过 send_keys()调用按键：

send_keys(Keys.ENTER)

键盘组合键的用法：

# ctrl+a 全选输入框内容
send_keys(Keys.CONTROL,'a')

发送文本

send_keys("你好吗")

click() 单击
clear() 清除对象内容
submit() 提交
text() 获取元素文本信息
获取元素属性和文本
get_attribute()

innerHTML：会返回元素的内部 HTML，包含所有的HTML标签。
textContent：获取 HTML 文本，需要注意的是 textContent 是 W3C 兼容的文字内容属性，不支持 IE 浏览器。
innerText：获取 HTML 文本，与 textContent 不同的是 innerText 不是 W3C DOM 的指定内容，不支持 FireFox 浏览器。
value：获取带有 value 属性的值。