该项目用双向长短时记忆神经网络和条件随机场(Bi-LSTM-CRF)的命名实体识别

本项目是针对医疗数据,进行命名实体识别。项目中有600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体。该领域的命名实体识别问题是自然语言处理中经典的序列标注问题。


nlp入门命名实体消歧 命名实体识别训练集_命名实体识别

data:已标注的医疗数据,O非实体部分,TREATMENT治疗方式, BODY身体部位, SIGN疾病症状, CHECK医学检查, DISEASE疾病实体.data_origin:项目提供的医疗数据,需要转化为目标序列标记集合transfer_data:目标序列化脚本model:训练模型需要的字向量

nlp入门命名实体消歧 命名实体识别训练集_深度学习_02