NLP和LLM和CV

转载

mob64ca13f30cc8 2024-09-17 11:37:55

文章标签 NLP和LLM和CV 卷积核卷积卷积神经网络 文章分类 NLP 人工智能

TextCNN

经过学习与了解最后决定使用Textcnn来作为分类的模型

TextCNN结构

NLP和LLM和CV_卷积

首先，我们要注意到卷积操作在计算机视觉(CV)和NLP中的不同之处。在CV中，卷积核往往都是正方形的，比如 3*3 的卷积核，然后卷积核在整张image上沿高和宽按步长移动进行卷积操作。与CV中不同的是，在NLP中输入层是一个由词向量拼成的词矩阵，且卷积核的宽和该词矩阵的宽相同，该宽度即为词向量大小，且卷积核只会在高度方向移动。因此，每次卷积核滑动过的位置都是完整的单词，不会将几个单词的一部分"vector"进行卷积，词矩阵的行表示离散的符号（也就是单词），这就保证了word作为语言中最小粒度的合理性（当然，如果研究的粒度是character-level而不是word-level，需要另外的方式处理）。

然后，由于卷积核和word embedding的宽度一致，一个卷积核对于一个sentence，卷积后得到的结果是一个vector，其shape=(sentence_len - filter_window_size + 1, 1)，那么，在经过max-pooling操作后得到的就是一个Scalar。我们会使用多个filter_window_size的原因是，这样不同的kernel可以获取不同范围内词的关系，获得的是纵向的差异信息，即类似于n-gram，也就是在一个句子中不同范围的词出现会带来什么信息。比如可以使用3,4,5个词数分别作为卷积核的大小（论文中），每个filter_window_size又有num_filters个卷积核是卷积神经网络学习的是卷积核中的参数，每个filter都有自己的关注点，这样多个卷积核就能学习到多个不同的信息。论文中也提到使用多个相同size的filter是为了从同一个窗口学习相互之间互补的特征。比如可以设置size为3的filter有64个卷积核。一个卷积核经过卷积操作只能得到一个scalar，将相同filter_window_size卷积出来的num_filter个scalar组合在一起，组成这个filter_window_size下的feature_vector。最后再将所有filter_window_size下的feature_vector也组合成一个single vector，作为最后一层softmax的输入。

优点

卷积神经网络的核心思想是捕捉局部特征，对于文本来说，局部特征就是由若干单词组成的滑动窗口，类似于N-gram。卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选，获得不同抽象层次的语义信息。

参考：

论文《A Sensitivity Analysis of (and Practitioners’ Guide to) ConvolutionalNeural Networks for Sentence Classification》https://arxiv.org/abs/1510.03820 论文《Convolutional Neural Networks for Sentence Classification》
https://arxiv.org/abs/1408.5882

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。