搜索引擎AP调研报告

原创

freeAngus 2024-07-15 16:28:38 ©著作权

©著作权归作者所有：来自51CTO博客作者freeAngus的原创作品，请联系作者获取转载授权，否则将追究法律责任

这篇文章分享给做AI搜索的朋友们。少走一些重复的路把。希望这些结果能够帮到大家。

这里再分享一些心得。其实我们也在想，为什么现在已经有的AI搜素，他们的联网查询为何这么快？为什么这么稳定？像国内AI搜索做的比较好的，kimi，秘塔，360ai搜索。其中秘塔是被猎豹控股的（猎豹本身就是做搜索引擎的），360浏览器本身也是做搜索引擎的。他们的联网搜索并不是走的爬取网页的方式。前段时间分析过kimi的联网查询，大概率是bing的接口。不过现在就不一定了。

搜索引擎的搜索通常只有快照信息。也就是不包括网页的完整的正文内容。大概爬取一次搜索引擎就需要1s（在过防爬的前提下），然后根据返回的原网页的链接，再获取网页的正文，至少需要5s，如果是动态加载的网页，安全认证的网页，所需的时间就更长了。平均一次获取网页的详情在10s左右。这和jina的 reader是一致的。

这篇文章给大家分享我了解到的搜索引擎的API供应商和获取详情页的供应商。

需求: 一个快速的（5s内获取正文并返回）、稳定的（能够跳过验证，跳过防爬，能够解析动态加载的网页）、支持高并发的、能够获取到内容详情页的联网查询接口。

快报：只有jina reader能够满足以上的需求（但是jina reader的解析能力不够，有些权限验证它无法通过）。

搜索引擎AP调研报告_API

参考文章：

2023年15个最佳搜索引擎结果页面 API | 代理 • Proxy

一、测试结论

1.1 搜索过程分两步

第一步根据query从搜索引擎上获取搜索快照，第二步根据返回的url获取网页的内容。

除了crawlbase 以外，其余的搜索引擎API返回的结果都只包含搜索快照。

crawlbase 获取页面详情页的接口，需要额外调用。价格为149美元每月，总计100W个请求。每秒可支持的获取详情页的并发为30，换算成Ai搜索为3个请求（每个请求，获取10个快照页）。可以解析需要动态加载的网页，耗时在 4s- 10s。

1.2 对比jina reader

jina reader 提供了联网查询并返回页面top5数据的接口。能够支持的访问速率，40/每分钟 （提供了升级的支持，需要提交公司信息，没有提到升级的价格），平均响应时间10s。收费标准：按照输出的token计算。10亿/ 20美元

搜索引擎AP调研报告_搜索引擎_02

Reader API

二、搜索引擎

用户获取搜索快照

2.1 brightdata

登录方式

github 或者 google 账号，需要邮箱验证

5美元试用

SERP API - SERP scraper API - Free Trial

试用体验地址

Bright Data - Web Data Platform

搜索引擎AP调研报告_搜索_03

问题点:

给的示例代码无法获取到数据。

在体验页面上获取的数据，只有快照，没有正文内容。

得到脚本和python代码，执行都报错，请求被终止。

urllib.error.URLError: <urlopen error [WinError 10054] 远程主机强迫关闭了一个现有的连接。

echo -e "\n\nThis is the VERBOSE version sample cURL code for SERP API.\nIn order to instantly use SERP API, you need to either install an SSL certificate\nor to ignore SSL errors in your code.\n\nThis cURL includes the '-k' option to ignore SSL errors.\n\nPress Enter to continue..." && read input && echo -e "\nThanks. I am going to run the following cURL command now:\n" && echo "curl --proxy brd.superproxy.io:22225 --proxy-user brd-customer-hl_8f2ca9c0-zone-serp_api1:tpyf2k4i5eyr -k \"https://www.google.com/search?q=pizza\"" && echo -e "\nCopy this cURL if you want to run it in non-verbose mode.\n\nHere's the result of the cURL:\n" && curl --proxy brd.superproxy.io:22225 --proxy-user brd-customer-hl_8f2ca9c0-zone-serp_api1:tpyf2k4i5eyr -k "https://www.google.com/search?q=pizza" && echo -e "\n\nFor additional information visit:\nhttps://docs.brightdata.com/general/account/ssl-certificate\n"

#!/usr/bin/env python
print('If you get error "ImportError: No module named \'six\'" install six:\n'+\
    '$ sudo pip install six');
print('To enable your free eval account and get CUSTOMER, YOURZONE and ' + \
    'YOURPASS, please contact sales@brightdata.com')
import sys
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
if sys.version_info[0]==2:
    import six
    from six.moves.urllib import request
    opener = request.build_opener(
        request.ProxyHandler(
            {'http': 'http://brd-customer-hl_8f2ca9c0-zone-serp_api1:tpyf2k4i5eyr@brd.superproxy.io:22225',
            'https': 'http://brd-customer-hl_8f2ca9c0-zone-serp_api1:tpyf2k4i5eyr@brd.superproxy.io:22225'}))
    print(opener.open('http://www.google.com/search?q=pizza').read())
if sys.version_info[0]==3:
    import urllib.request
    opener = urllib.request.build_opener(
        urllib.request.ProxyHandler(
            {'http': 'http://brd-customer-hl_8f2ca9c0-zone-serp_api1:tpyf2k4i5eyr@brd.superproxy.io:22225',
            'https': 'http://brd-customer-hl_8f2ca9c0-zone-serp_api1:tpyf2k4i5eyr@brd.superproxy.io:22225'}))
    print(opener.open('http://www.google.com/search?q=pizza').read())

2.2 serpApi

SerpApi: Google Search API

免注册，可以体验：SerpApi: Google Search API

没有全文，只有快照。

2.3 crawlbase

149美元/月 100W个请求

30并发

可以解析需要动态加载的网页(官方描述)

4s- 10s

Scraper API - 自动抓取和爬取 | 爬虫库

可以通过传入完整的url，获取到全文的内容。

2.4 scale SERP

Scale SERP - Free, Real-Time Google Search API

文档上看到有全文的json和html，但是该内容只是快照页的，不是详情页的内容。

搜索引擎AP调研报告_搜索_04

2.5 scraperapi

可以直接体验，免注册

https://zenserp.com/

只有快照如下：

搜索引擎AP调研报告_API_05

2.6 valueserp

在线体验地址

VALUE SERP - The World’s Best Value SERP API

只有快照

搜索引擎AP调研报告_API_06

2.7 serpsbot

https://serpsbot.com/

只有快照数据

2.8 scrapingbee

只有快照数据，文档中有提到full html，还未测试，应该是快照页的html

Google search API | ScrapingBee

2.9 google search api

只有快照

Google Search API for real-time SERP scraping

三、官方API

3.1 google 官方API

每天免费提供100次API调用，之后每1000次为5美元，最多可达每天1万次。这里也只是快照。

使用 Google Search API 优雅地搜索互联网

四、根据URL获取解析后的正文

4.1 穿云

穿云API：从任意URL提取高质量数据，无需繁琐开发 – 穿云API技术博客

搜索引擎AP调研报告_搜索引擎_07

4.2 crawlbase

同2.3

知乎的安全验证没有通过！

上一篇：RAG的上限在哪里？边界在哪里？

下一篇：搜索引擎算法工程师，在query理解方面，都有哪些方面的工作

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯