【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking

Character-level Encoder：作者将每个字都转换成拼音序列，例如将“轻”字转换成 {q, i, n, g, 1}，其中1指的是发音为一声。之后将编码后的序列送进GRU，输出对该“字”的编码。该模型会对一个句子的每个字都做这个事情，然后会将所有的字编码送进后面的Sentence-level Encoder。

Sentence-level Encoder：前面的GRU对每个字都进行编码后，使用4层Transformer提取句子的特征表示。

3.3 图像编码器（The Graphic Encoder）

【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking_sed_03

Graphic Encoder将字一个个的送进卷积神经网络，然后提取该字的特征。

卷积神经网络使用的是ResNet5，最终的输出height和width都为1，通道数与Semantic Encoder输出的字编码大小一样，便于后面融合。

字体图片使用的是黑体和小篆，大小为32x32

3.4 特征融合模块（Selective Modality Fusion Module）

【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking_自然语言处理_04

在最后的特征融合层，作者并不是使用简单的相加，而是定义了三个线性层来对三种模态特征进行进一步过滤，类似LSTM的遗忘门，使用公式表示为：

$【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking_深度学习_05$

其中 $【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking_编码器_06$ 是Semantic Encoder的第 $【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking_人工智能_07$ 个输出。 $【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking_人工智能_08$

使用上述方式得到 $【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking_编码器_09$ , $【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking_编码器_10$ , $【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking_编码器_11$

$【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking_深度学习_12$

最终将 $【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking_人工智能_13$

3.5 预训练编码器（Acoustic and Visual Pretraining）

Sematic Encoder的预训练：之间使用别人预训练好的BERT（hfl/chinese-roberta-wwm-ext）

Phonetic Encoder的预训练：将拼音转换为汉字，即输入为拼音序列，输出为汉字序列。

Graphic Encoder的预训练：将文字图片转换为汉字，即输入文字图片，预测这个图片是什么字。

4. 实验（Experiments）

4.1 数据集（Data and Metrics）

训练数据集：SIGHAN training data 和自己造的假数据。

测试数据集：SIGHAN test sets.

数据集地址：

SIGHAN Bake-off 2013: http://ir.itc.ntnu.edu.tw/lre/sighan7csc.html
SIGHAN Bake-off 2014: http://ir.itc.ntnu.edu.tw/lre/clp14csc.html
SIGHAN Bake-off 2015: http://ir.itc.ntnu.edu.tw/lre/sighan8csc.html
Wang271K(自己造的假数据): https://github.com/wdimmy/Automatic-Corpus-Generation

数据集描述如下表：

【论文阅读】Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking_深度学习_14