前沿的信息挖掘工具——首席情报官Wiseflow项目经验分享

原创

SenderAi 2024-08-28 11:04:20 ©著作权

文章标签 数据库信息爬取工具本地大模型交流探讨 文章分类 数据挖掘人工智能

©著作权归作者所有：来自51CTO博客作者SenderAi的原创作品，请联系作者获取转载授权，否则将追究法律责任

大家好，我是sender，一位正在探索并寻道ai领域的小白。

前言

曾几何时，传统的爬虫程序或是脚本开发就跟用泥做陶瓷一样，小小的泥巴也可以变成很有价值的艺术品。但是所制作的艺术品难度不一并且每个都需要自己定制，就会觉得很繁琐。（比喻得很好不要再比喻了，各位看官懂我意思就行了）。在追求更高效、更精准的道路上，我们必将会去寻找突破传统的解决方案，而目前在AI与自动化的结合下，出现了这么一款智能的信息挖掘武器，他就是Wiseflow。一款基于LLM的自动化爬虫工具，在省去传统爬虫繁琐步骤的前提下助你实现高效的、精准的数据挖掘。

话不多说，直捣黄龙！

官网介绍（Wiseflow官网gitee链接）：

首席情报官（Wiseflow）是一个敏捷的信息挖掘工具，可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息，自动做标签归类并上传数据库。

🌟 功能特色

🚀 原生 LLM 应用
我们精心选择了最适合的 7B~9B 开源模型，最大化降低使用成本，且利于数据敏感用户随时完全切换至本地部署。

🌱 轻量化设计
不用任何向量模型，系统开销很小，无需 GPU，适合任何硬件环境。

🗃️ 智能信息提取和分类
从各种信息源中自动提取信息，并根据用户关注点进行标签化和分类管理。
😄 WiseFlow尤其擅长从微信公众号文章中提取信息，为此我们配置了mp article专属解析器！

🌍 可以被整合至任意Agent项目
可以作为任意 Agent 项目的动态知识库，无需了解wiseflow的代码，只需要与数据库进行读取操作即可！

📦 流行的 Pocketbase 数据库
数据库和界面使用 PocketBase，除了 Web 界面外，目前已有 Go/Javascript/Python 等语言的SDK。

Go : https://pocketbase.io/docs/go-overview/

Javascript : https://pocketbase.io/docs/js-overview/

python : https://github.com/vaphes/pocketbase

实际使用效果

填入网站和输入相应参数，后台自动爬取，并且页面解析经过大模型分析，爬取的数据很精准（比如我想要爬取新闻，他自动的就爬到了标题title、文章链接url、新闻简述abstract、具体文本content等等，并作为集合保存）

前沿的信息挖掘工具——首席情报官Wiseflow项目经验分享_交流探讨

前沿的信息挖掘工具——首席情报官Wiseflow项目经验分享_数据库_02

具体部署方法

参考官方README.CN简介以及博客教程（python部署），将项目部署下来不难，滚轮子一步一步对着来就行。

主要说一下项目可能会遇到的一些困难和解决方法：

①初次学习开源项目，最初的部署环境管理不知道怎么安排？

很简单。用Anaconda，conda创建虚拟环境，然后在终端命令行下git clone项目（用国内gitee的链接下载快一点）

复制这份代码到终端命令行执行：git clone https://gitee.com/tulong_co/wiseflow.git

克隆完之后接着cd到开源项目的根目录下的core去

pip install -r requirements.txt

安装好依赖库之后你这个项目的本地python环境就可以说是部署好啦！（以下用python以及编译器Pycharm做示例）

②.env（环境变量文件）不知道怎么配置？LLM模型不想花钱？

最简单的办法就是听人劝吃饱饭，大模型现在可谓是在行业风口，许多企业和工作室争相涌入，自然不会缺少资金投入。所以想要白嫖可以多去找一些新兴的AI平台。我这里用的是官方推荐的siliconFlow（硅基流动，国内的在北京注册的、获得过许多知名机构投资的AGI普及平台）。注册赠送免费tokens以及兼容许多国内外大模型接口（OPENAI，通义千问，智谱等等），有免费的模型可以去一键接入，灰常滴方便啦~（实际运用且受惠了，然后现在还搞活动我也来蹭口福利，如果你看到这里觉得我写的还不错的话是否可以进入我的邀请链接）

env的apikey就可以靠白嫖解决，先在siliconFlow注册并在控制台上申请一个api_key，然后打开env_sample样例，除了LLM_api_key还有PB_auth的地方需要改动，其他保持不变，并且就可以完成env的配置了，改名成‘.env’（一定要改后缀，改不了后缀的在资源管理器的最上方点“查看——显示——文件拓展名”）复制到core文件里替换（最好备份一下原文件，养成好习惯）就可以啦！

前沿的信息挖掘工具——首席情报官Wiseflow项目经验分享_数据库_03

测试推理效果还行。

LLM_API_KEY # 大模型推理服务API KEY
LLM_API_BASE # 本项目依赖openai sdk，只要模型服务支持openai接口，就可以通过配置该项正常使用，如使用openai服务，删除这一项即可
WS_LOG="verbose" # 设定是否开始debug观察，如无需要，删除即可（我一般也会选择开启，方便根据日志修复错误）
GET_INFO_MODEL # 信息提炼与标签匹配任务模型，默认为 gpt-3.5-turbo
REWRITE_MODEL # 近似信息合并改写任务模型，默认为 gpt-3.5-turbo
HTML_PARSE_MODEL # 网页解析模型（GNE算法效果不佳时智能启用），默认为 gpt-3.5-turbo
PROJECT_DIR # 数据、缓存以及日志文件存储位置，相对于代码仓的相对路径，默认不填就在代码仓
PB_API_AUTH='email|password' # pb数据库admin的邮箱和密码（注意一定是邮箱，可以是虚构的邮箱）
PB_API_BASE # 正常使用无需这一项，只有当你不使用默认的pocketbase本地接口（8090）时才需要

结尾

虽然喜欢用ai也在探索ai，但我总觉得写帖子的时候还是要自己写，有自己的真情实感再加上工具的辅助才是最有用的。不过书到用时方恨少，写作水平有限，但我会有时间就去修改，也欢迎各位在评论区探讨发表见解，如果能帮到你一点我也会很开心的！

码字不易~喜欢的话留下你的点赞吧！

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯