- 关键字:
自定义训练集
自定义测试集
- 问题描述:
情感分析demo的例子是用的 imdb 的数据集,我想用自己的数据集。请问怎么把训练集和测试集运用到demo里面? - 解决方法:
首先要熟悉你想使用的数据集的结构,熟悉了结构后,才能编写对应的处理代码,整体的逻辑其实简单,通常将数据2-8分成测试集与训练集,然后定义一个方法,在每一轮都返回一batch的数据,让trainer去处理则可。
因为实例中的情感分析Demo其实是文本分类问题,所以在使用自定义数据时,处理好输入的文本以及该文本对应的标签的关系则可,具体细节可以参考PaddlePaddle Model中文本分类的代码,https://github.com/PaddlePaddle/models/blob/59adc0d6f38cd2351e16608d6c9d4e72dd5e7fea/fluid/text_classification/train.py - 问题拓展:
因为PaddlePaddle中的各种示例代码以演示PaddlePaddle用法为主,所以通常使用的都是简单的训练数据,而且封装好了处理这些数据的接口,让使用者不必关系数据是如何被有效组织的,只需关注此时构建神经网络的结构。但这也就导致了很多人想替换自己的数据集遇到点困难。
其实只要你熟悉自己要使用数据集的结构,要让PaddlePaddle使用这些数据来训练模型还是很简单的,你完全可以模型PaddlePaddle示例代码中处理数据方法的内部实现,其实实现逻辑都不复杂,以情感分析使用的imdb数据集处理逻辑为例,其处理的方法为在movielens.py
文件中,其实都是对python内置结构的使用。 - 问题研究:
最简单的情感分析其实就是一个文本二分类问题,将一句话划分为正面情绪还是负面情绪,而复杂点的其实就是文本的定义分类问题,研究情感分析时,处理要理解其自然语言处理方面的内容,还有就是文本多分类的内容。