简单记录下,目前不少内部都会使用到langchain(毕竟提供了不少现在方便的工具包装) ,同时对于web 内容处理很多也会选择基于无头浏览器模式,对于html 内容为了方便llm 处理好多框架会优先转换为markdown 格式的,对于长内容同时也会进行chunk 拆分,规避大模型上下文限制问题

说明

目前对于web 内容检索处理上,选择基于现成的搜索api 的也比较多,此类支持搜索的api 服务相比传统搜索引擎强大不少,如果需要自己集成一些开源的searxng 是一个不错的选择,包含了rest api 可以方便使用

参考资料

https://github.com/unclecode/crawl4aihttps://github.com/ScrapeGraphAI/Scrapegraph-ai

https://github.com/mendableai/firecrawl

https://github.com/crewAIInc/crewAI

https://github.com/trancethehuman/entities-extraction-web-scraper

https://docs.searxng.org/dev/search_api.html

https://github.com/searxng/searxng