大家好,我是sender,一位正在探索并寻道ai领域的小白。

前言

曾几何时,传统的爬虫程序或是脚本开发就跟用泥做陶瓷一样,小小的泥巴也可以变成很有价值的艺术品。但是所制作的艺术品难度不一并且每个都需要自己定制,就会觉得很繁琐。(比喻得很好不要再比喻了,各位看官懂我意思就行了)。在追求更高效、更精准的道路上,我们必将会去寻找突破传统的解决方案,而目前在AI与自动化的结合下,出现了这么一款智能的信息挖掘武器,他就是Wiseflow。一款基于LLM的自动化爬虫工具,在省去传统爬虫繁琐步骤的前提下助你实现高效的、精准的数据挖掘。

话不多说,直捣黄龙!

官网介绍(Wiseflow官网gitee链接) :

首席情报官(Wiseflow)是一个敏捷的信息挖掘工具,可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息,自动做标签归类并上传数据库。

🌟 功能特色

🚀 原生 LLM 应用
我们精心选择了最适合的 7B~9B 开源模型,最大化降低使用成本,且利于数据敏感用户随时完全切换至本地部署。

🌱 轻量化设计
不用任何向量模型,系统开销很小,无需 GPU,适合任何硬件环境。

🗃️ 智能信息提取和分类
从各种信息源中自动提取信息,并根据用户关注点进行标签化和分类管理。
😄 WiseFlow尤其擅长从微信公众号文章中提取信息,为此我们配置了mp article专属解析器!

🌍 可以被整合至任意Agent项目
可以作为任意 Agent 项目的动态知识库,无需了解wiseflow的代码,只需要与数据库进行读取操作即可!

📦 流行的 Pocketbase 数据库
数据库和界面使用 PocketBase,除了 Web 界面外,目前已有 Go/Javascript/Python 等语言的SDK。

Go : https://pocketbase.io/docs/go-overview/

Javascript : https://pocketbase.io/docs/js-overview/

python : https://github.com/vaphes/pocketbase

实际使用效果

填入网站和输入相应参数,后台自动爬取,并且页面解析经过大模型分析,爬取的数据很精准(比如我想要爬取新闻,他自动的就爬到了标题title、文章链接url、新闻简述abstract、具体文本content等等,并作为集合保存)

前沿的信息挖掘工具——首席情报官Wiseflow项目经验分享_交流探讨

前沿的信息挖掘工具——首席情报官Wiseflow项目经验分享_数据库_02


具体部署方法

参考官方README.CN简介以及博客教程(python部署),将项目部署下来不难,滚轮子一步一步对着来就行。


主要说一下项目可能会遇到的一些困难和解决方法:

①初次学习开源项目,最初的部署环境管理不知道怎么安排?

很简单。用Anaconda,conda创建虚拟环境,然后在终端命令行下git clone项目(用国内gitee的链接下载快一点)

复制这份代码到终端命令行执行:git clone https://gitee.com/tulong_co/wiseflow.git

克隆完之后接着cd到开源项目的根目录下的core去

pip install -r requirements.txt

安装好依赖库之后你这个项目的本地python环境就可以说是部署好啦!(以下用python以及编译器Pycharm做示例)

②.env(环境变量文件)不知道怎么配置?LLM模型不想花钱?

最简单的办法就是听人劝吃饱饭,大模型现在可谓是在行业风口,许多企业和工作室争相涌入,自然不会缺少资金投入。所以想要白嫖可以多去找一些新兴的AI平台。我这里用的是官方推荐的siliconFlow(硅基流动,国内的在北京注册的、获得过许多知名机构投资的AGI普及平台)。注册赠送免费tokens以及兼容许多国内外大模型接口(OPENAI,通义千问,智谱等等),有免费的模型可以去一键接入,灰常滴方便啦~(实际运用且受惠了,然后现在还搞活动我也来蹭口福利,如果你看到这里觉得我写的还不错的话是否可以进入我的邀请链接)

env的apikey就可以靠白嫖解决,先在siliconFlow注册并在控制台上申请一个api_key,然后打开env_sample样例,除了LLM_api_key还有PB_auth的地方需要改动,其他保持不变,并且就可以完成env的配置了,改名成‘.env’(一定要改后缀,改不了后缀的在资源管理器的最上方点“查看——显示——文件拓展名”)复制到core文件里替换(最好备份一下原文件,养成好习惯)就可以啦!

前沿的信息挖掘工具——首席情报官Wiseflow项目经验分享_数据库_03

测试推理效果还行。


  • LLM_API_KEY # 大模型推理服务API KEY
  • LLM_API_BASE # 本项目依赖openai sdk,只要模型服务支持openai接口,就可以通过配置该项正常使用,如使用openai服务,删除这一项即可
  • WS_LOG="verbose" # 设定是否开始debug观察,如无需要,删除即可(我一般也会选择开启,方便根据日志修复错误)
  • GET_INFO_MODEL # 信息提炼与标签匹配任务模型,默认为 gpt-3.5-turbo
  • REWRITE_MODEL # 近似信息合并改写任务模型,默认为 gpt-3.5-turbo
  • HTML_PARSE_MODEL # 网页解析模型(GNE算法效果不佳时智能启用),默认为 gpt-3.5-turbo
  • PROJECT_DIR # 数据、缓存以及日志文件存储位置,相对于代码仓的相对路径,默认不填就在代码仓
  • PB_API_AUTH='email|password' # pb数据库admin的邮箱和密码(注意一定是邮箱,可以是虚构的邮箱)
  • PB_API_BASE # 正常使用无需这一项,只有当你不使用默认的pocketbase本地接口(8090)时才需要


结尾

虽然喜欢用ai也在探索ai,但我总觉得写帖子的时候还是要自己写,有自己的真情实感再加上工具的辅助才是最有用的。不过书到用时方恨少,写作水平有限,但我会有时间就去修改,也欢迎各位在评论区探讨发表见解,如果能帮到你一点我也会很开心的!

码字不易~喜欢的话留下你的点赞吧!