一、实验目的了解Word2Vec技术的原理。掌握Skip-Gram 和Negative Sampling的作用及原理。二、实验要求对数据集进行预处理形成训练数据;基于Skip-Gram 和Negative Sampling实现word2vec(使用pytorch构建网络)。可视化获得的词向量(字典中的前20个字)数据集:text8包含了大量从维基百科收集到的英文语料下载地址: 地址1:
实验目的了解并掌握基于隐马尔可夫模型(HMM)的分词方法,重点掌握Viterbi算法。实验要求1、对给定的语料库(或自行准备)进行统计分析,确定 HMM 模型的三个参数;2、根据上一步求得的参数,使用 Viterbi 算法对下面的句子完成分词,并显示分词结果。“今天天气真不错。”“我们都喜欢晴天”kaggle datasets download -d helloyouth/chinese-phra
基于词表的中文分词一、实验目的了解并掌握基于匹配的分词方法,以及分词效果的评价方法。二、实验要求实现正向最大匹配、逆向最大匹配以及双向最大匹配等三种分词方法,记录并分析三种方法的准确率以及分词速度。思考并分析哪些因素可能会影响分词的准确性。三、实验准备1. 词典准备在GitHub(https://github.com/fxsjy/jieba)开源的一个中文词表数据,下载地址:
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号