简介:在本指南中,我将探讨使用Puppeteer(一种为浏览器自动化设计的Node.js工具)在网页抓取和测试场景中自动解答reCAPTCHA。我的重点是`puppeteer-extra-plugin-stealth`插件的实际使用,来无缝流览并通过reCAPTCHA挑战。
了解Puppeter:Puppeter是用Node.js编写的浏览器自动化工具,提供在无标头模式下运行的独特功能,使其不易被检测到。这一功能对于网络抓取和自动测试至关重要,因为被识别为机器人程序可能会阻碍对网络资源的访问。
先决条件:首先,您需要一些组件:
- 验证码解答服务,如2captcha.com。
- Puppeteer,核心自动化工具。
- Puppeteer-extra,增强Puppeteer的包装器。
- puppeteer-extra-plugin-stealth,掩盖自动化痕迹的附加组件。
安装:首先使用npm安装Puppeteer和上面提到的软件包:
npm i puppeteer puppeteer-extra puppeteer-extra-plugin-stealth
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
这为我们的自动化设置设定了基础。
配置扩展:下载并将其解压缩到项目目录中来配置验证码解析扩展。关键设置包括自动解答特定验证码类型和代理支持,可以在/common/config.js
文件中调整。确保将recaptcha V2的autoSolveRecaptchaV2
设置为true。
API密钥注意事项:将您的API密钥包含在配置文件中的引号中避免脚本错误。
此外,为了简化过程,在安装后禁用打开扩展的设置页面。可以通过删除/manifest.json文件中的特定行来完成,否则设置页面将自动打开。
"options_ui": {
"page": "options/options.html",
"open_in_tab": true
},
浏览器自动化设置:将stealth插件合并到Puppeteer的初始化中以隐藏自动化。这对于绕过网站可能采用的检测机制至关重要。
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
const { executablePath } = require('puppeteer');
(async () => {
const pathToExtension = require('path').join(__dirname, '2captcha-solver');
puppeteer.use(StealthPlugin())
const browser = await puppeteer.launch({
headless: false,
args: [
`--disable-extensions-except=${pathToExtension}`,
`--load-extension=${pathToExtension}`,
],
executablePath: executablePath()
});
const [page] = await browser.pages()
})();
导航和解答验证码:使用Puppeteer的page.goto()
函数,导航至带有验证码的页面。手动或自动触发验证码解答过程。在此示例中,我们等待'.captcha-solver'(验证码求解器)按钮出现然后单击它来手动启动该过程。
监控解答方案:通过'.captcha-solver'按钮的数据状态属性监控验证码解答的状态。属性从'就绪'变为'正在解答',最后变为'已解答',表示验证码解答成功了。
// go to the specified address
await page.goto('https://2captcha.com/demo/recaptcha-v2')
// wait until the element with the CSS selector ".captcha-solver" appears
await page.waitForSelector('.captcha-solver')
// click on the element with the specified selector
await page.click('.captcha-solver')
最终步骤:解答验证码后,在页面上执行必要的操作。在此示例中,我们单击'检查'按钮以验证已解答的验证码的正确性。
// waitForSelector默认等待30秒,但这个时间通常不够,因此我们手动指定超时值作为第二个参数。超时值以“ms”为单位指定。
await page.waitForSelector(`.captcha-solver[data-state="solved"]`, {timeout: 180000})
现成文件下载:
为了方便起见,我提供了一个现成的文件,其中包括所有必要的配置。可以通过下方链接下载该文件。请记住,下载并解压此文件后,您需要将求解器文件夹(前面讨论过)添加到其中。此步骤确保所有组件都已就位,并且该设置已准备好可立即使用。
https://github.com/2captcha/2captcha-solver-in-puppeteer
总结:本指南演示了如何在Puppeteer中有效地自动化解答reCAPTCHA,从而为网页抓取和自动化测试场景中提供显著的优势。负责任且合乎道德地使用这些技术非常重要。