puppeteer 怎么不下载浏览器 puppeteer指定浏览器

转载

mob64ca1413c518 2024-03-26 09:41:35

文章标签 puppeteer 怎么不下载浏览器代理服务拦截器代理服务器 文章分类 运维

0 背景

Puppeteer是google推出的操作浏览器的框架。当我们通过框架操作浏览器去访问页面通常需要设置代理。本文简要总结设置代理的方式。

1 通过启动参数设置代理

我们通过puppeteer启动浏览器通常可以指定参数，通过--proxy-server参数[1]指定代理。http及https请求的将通过代理服务器访问。若每次需要更换代理就需要重新通过launch方法来启动浏览器。

const browser = await puppeteer.launch({
    args: [

    ],
    ignoreHTTPSErrors: true,
    headless: false,
    executablePath: "/chrome-mac/Chromium.app/Contents/MacOS/Chromium",
});

这种方式启动后，默认会有一个打开的page，因此不用再重新打开page对象。用默认的page进行后续访问即可。

const [page] = await browser.pages();

2 通过代理服务器控制代理逻辑

可以看到--proxy-server设置了代理后，如果ip是一个固定的目标代理地址，那么需要重新启动浏览器才能更换。如果我们自己开发了一个代理服务，与实际代理机器交互的逻辑都集中在这个服务上，那么实际代理机器的访问通过我们的代理服务控制，这样我们每次启动浏览器后就固定一个地址即可。

puppeteer 怎么不下载浏览器 puppeteer指定浏览器_拦截器

3 通过拦截器与第三方库实现设置代理功能

1中介绍的方式需要每次重新调用的launch方式启动浏览器更换IP。但我们知道现在很多http库都可以设置代理。例如在Java中可以通过okhttp,unirest等库来设置代理。同理nodejs中也有这样的库。我们不再通过--proxy-server指定地址，而是通过puppeteer的拦截器功能，将请求拦截，随后改写请求。再通过第三方的http库设置上代理信息。这样就可以达到不通过launch重启浏览器而是直接在一个page中设置代理的目的。每次有新请求来了也可以达到动态变化的目标。不过这样处理逻辑还是比较复杂，设计改写请求，响应结果缓存处理等问题。这篇讨论[2]中已经给出了处理方式，可以参考。