因为涉及到体能训练成绩,所以接触到了很多表格,触发了对表格数据的思考:

图表也是重要的数据来源,应该如何来进行处理?

图表的数据不仅关系它本身,而且也和表格形式相关,此外还和背景材料相关。

首先从一个比较干净的表格开始,它本身是可以编辑的pdf.

尝试使用kimi解析体能表格_文档级别


鉴于chatglm3不带pdf处理、llama3目前还没有看到环境,使用kimi来进行分析,问3个问题

尝试使用kimi解析体能表格_数据_02

这个是没有问题的。

尝试使用kimi解析体能表格_全文检索_03

把男、女也分开来了,应该说没有问题。

尝试使用kimi解析体能表格_全文检索_04

这个我一开始还看错了(因为这里的表格有理解困难),但是kimi实际上很好地理解了这里的问题。所以这次测试,可以打100分。

下面,就是真正的测试了。使用《国家学生体质健康标准》进行研究【首先,对比发现kimi对pdf的分析要比doc好】

尝试使用kimi解析体能表格_全文检索_05

下面画圈的都是错误的

尝试使用kimi解析体能表格_数据_06

尝试使用kimi解析体能表格_数据_07

特别是它对于多和少的理解是错误的:

尝试使用kimi解析体能表格_文档级别_08

初步小结:

1、对于单表格来说,现在的能力已经很强的;但是无法泛化至文档级别。

2、对于体能表格这个问题,可能也就是单个文档级别的规模,但是我们需要解决的是知识库规模的问题。

3、对于确定的表格数据,目前看合理的解决方法还是关系型数据库。

一个基本的结论,就是要把llm当作人一样来考虑。比如我们自己积累材料,肯定是按照自己的理解进行了分类、归纳,然后建立全文检索,方便查询;强一点的就是在哪里里面可以融汇贯通,找到不同类型、不同实践材料之间的前后关系。比如对于表格,我们一般处理也就是“我知道这里有一个表格,大概可以解决什么什么问题”,如果需要的时候去查询就可以了。所以我想在表格查询这块,llm能够帮我定位、把合适的数据找出来就可以。我肯定是要去核准的。