文本生成 decoder的输入维度文本生成算法

转载

轩辕 2024-03-26 11:07:57

文章标签 文本生成 decoder的输入维度 python 深度学习数据生成器 文章分类 深度学习人工智能

【0x0001】文本生成：从零实现的char-RNN

事情的起因是这样的，在某个秋日午后，突然想到了前段时间在GitHub上大火的狗屁不通文章生成器，这个分分钟生成万字长文的神器，效果就像下面这样^[1]。

文本生成 decoder的输入维度文本生成算法_生成器

在我兴致勃勃找到他的源码后，却发现不是自己想的那样，原作者并没有使用任何的NLP算法，只是使用程序在语料库中进行的随机摘抄^[2]。

文本生成 decoder的输入维度文本生成算法_生成器_02

文本生成 decoder的输入维度文本生成算法_文本生成 decoder的输入维度_03

短短54行代码就实现了这么高大上的功能，我等自然也不能浪费这个创意，所以我打算从零学起，用接下来几篇文章实现文本生成。

这是我第二篇原创文章，首先我会介绍什么是文本生成，什么是char-RNN，用char-RNN实现文本生成的流程，在文末会提供本篇文章中所有的代码和数据。

文本生成

文本生成是比较学术的说法，通常在媒体上见到的“机器人写作”、“人工智能写作”、“自动对话生成”、“机器人写古诗”等，都属于文本生成的范畴。文本生成的主要应用领域也是集中在创作、对话、信息提取几个领域^[3]。

文本生成的方法有多种分类，比如基于规则的和基于模型的，基于规则、基于规划和基于数据的，等等多种分类方法^[4]^[5]。基于规则的方法有一定的模板，上面的狗屁不通文章生成器也可以算作这一类，这类方法根据用户的需求选择不同的模板，再根据一定的生成规则产生文本。基于模型或者说数据驱动的方法，早期的是基于马尔可夫的语言模型，后来是基于深度学习的方法。本文以及后面的几篇文章都是基于深度学习的方法，将会介绍RNN、LSTM、GRU、Seq2Seq、Attention、Transformer、BERT、GPT等模型或方法。

char-RNN

关于char-RNN比较好的一个介绍是Andrej Karpathy的博客《The Unreasonable Effectiveness of Recurrent Neural Networks》^[6]。这篇博客生动的介绍了什么是RNN和char-based model，并且在最后提供了多个文本生成的结果，包括Paul Graham的文章、Shakespeare的文章、Wikipedia生成、Latex文章生成、Linux Source Code生成等等，强烈推荐大家读一下。

下面这副图片直观展示了char-RNN的原理，以要让模型学习写出“hello”为例，Char-RNN的输入输出层都是以字符为单位。输入“h”，应该输出“e”；输入“e”，则应该输出后续的“l”。输入层我们可以用独热编码（one-hot），例如，h被编码为“1000”、“e”被编码为“0100”，而“l”被编码为“0010”。使用RNN的学习目标是，可以让生成的下一个字符尽量与训练样本里的目标输出一致。在图一的例子中，根据前两个字符产生的状态和第三个输入“l”预测出的下一个字符的向量为<0.1, 0.5, 1.9, -1.1>，最大的一维是第三维，对应的字符则为“0010”，正好是“l”。这就是一个正确的预测。但从第一个“h”得到的输出向量是第四维最大，对应的并不是“e”，这样就产生代价。学习的过程就是不断降低这个代价。学习到的模型，对任何输入字符可以很好地不断预测下一个字符，如此一来就能生成句子或段落^[3]。

文本生成 decoder的输入维度文本生成算法_python_04