尝试使用kimi解析体能表格

原创

mb7cd348aefc0e3 2024-04-29 11:38:25 ©著作权

文章标签 数据文档级别全文检索 文章分类 Html/CSS 前端开发

©著作权归作者所有：来自51CTO博客作者mb7cd348aefc0e3的原创作品，请联系作者获取转载授权，否则将追究法律责任

因为涉及到体能训练成绩，所以接触到了很多表格，触发了对表格数据的思考：

图表也是重要的数据来源，应该如何来进行处理？

图表的数据不仅关系它本身，而且也和表格形式相关，此外还和背景材料相关。

首先从一个比较干净的表格开始，它本身是可以编辑的pdf.

鉴于chatglm3不带pdf处理、llama3目前还没有看到环境，使用kimi来进行分析，问3个问题

这个是没有问题的。

把男、女也分开来了，应该说没有问题。

这个我一开始还看错了（因为这里的表格有理解困难），但是kimi实际上很好地理解了这里的问题。所以这次测试，可以打100分。

下面，就是真正的测试了。使用《国家学生体质健康标准》进行研究【首先，对比发现kimi对pdf的分析要比doc好】

下面画圈的都是错误的

特别是它对于多和少的理解是错误的：

初步小结：

1、对于单表格来说，现在的能力已经很强的；但是无法泛化至文档级别。

2、对于体能表格这个问题，可能也就是单个文档级别的规模，但是我们需要解决的是知识库规模的问题。

3、对于确定的表格数据，目前看合理的解决方法还是关系型数据库。

一个基本的结论，就是要把llm当作人一样来考虑。比如我们自己积累材料，肯定是按照自己的理解进行了分类、归纳，然后建立全文检索，方便查询；强一点的就是在哪里里面可以融汇贯通，找到不同类型、不同实践材料之间的前后关系。比如对于表格，我们一般处理也就是“我知道这里有一个表格，大概可以解决什么什么问题”，如果需要的时候去查询就可以了。所以我想在表格查询这块,llm能够帮我定位、把合适的数据找出来就可以。我肯定是要去核准的。