一、NLP情绪识别入门

NLP学习项目 nlp入门项目_NLP入门与新技术推荐

情感倾向分析的方法主要分为两类:

基于情感词典的方法;
基于机器学习的方法,如基于大规模语料库的机器学习。
前者需要用到标注好的情感词典;后者则需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现情感的分类。
情感词典的构建是情感分类的前提和基础,目前在实际使用中,可将其归为 4 类:通用情感词、程度副词、否定词、领域词。目前国内外,情感词典的构建方法主要是利用已有电子词典扩展生成情感词典。

二、中文版GPT-3——以中文为核心的大规模预训练模型

简介:

清源 CPM (Chinese Pretrained Models) 是北京智源人工智能研究院和清华大学研究团队合作开展的大规模预训练模型开源计划,清源计划是以中文为核心的大规模预训练模型。首期开源内容包括预训练中文语言模型和预训练知识表示模型,可广泛应用于中文自然语言理解、生成任务以及知识计算应用,所有模型免费向学术界和产业界开放下载,供研究使用。

特点:
1、模型参数规模达26亿,截至2020年10月,为最大的中文预训练语言模型。
2、能够在多种自然语言处理任务上,进行零次学习或少次学习达到较好的效果。
3、收集大量丰富多样的中文语料,包括百科、小说、对话、问答、新闻等类型。
4、基于给定上文,模型可以续写出一致性高、可读性强的文本,达到现有中文生成模型的领先效果。

NLP学习项目 nlp入门项目_自然语言处理_02


NLP学习项目 nlp入门项目_NLP学习项目_03


NLP学习项目 nlp入门项目_NLP学习项目_04


NLP学习项目 nlp入门项目_NLP学习项目_05

NLP学习项目 nlp入门项目_NLP入门与新技术推荐_06

参考:https://cpm.baai.ac.cn/ 参考:https://github.com/TsinghuaAI/