光学字符识别(OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。前几个月,猿妹曾和大家分享过一个热门的中文OCR项目———chineseocr_lite。这两天猿妹才知道,百度也开源了一款超轻量级中文OCR,总模型大小仅8.6M,只有chineseocr_lite,那真真是超轻量级别的神级OCR。Padd
转载 2024-02-05 20:51:48
34阅读
接触NLP也有好长一段时间了,但是对NLP限于知道,但是对整体没有一个很好的认识。特整理了一下思绪,总结记录下:一、NLP的定义   还是按照常规的逻辑来看下定义:NLP(Natural Languange Processing,自然语言处理),方法是应用计算机来处理,理解和应用人类语言,目的是达到人机之间进行交流。分成自然语言理解和自然语言生成两部分。引用一个表来概括下:二、
Python易用,但用好却不易,其中比较头疼的就是包管理和Python不同版本的问题,特别是当你使用Windows的时候。为了解决这些问题,有不少发行版的Python,比如WinPython、Anaconda等,这些发行版将python和许多常用的package打包,方便pythoners直接使用,此外,还有virtualenv、pyenv等工具管理虚拟环境。个人尝试了很多类似的发行版,最终选择了
开源自然语言处理(NLP)工具包的出现推动了研究人类语言的计算方法的快速发展。然而现有的NLP工具包,例如CoreNLP 、Flair、spaCy 和UDPipe等本身都存在一些缺陷:首先,现有工具包通常仅支持几种主要语言。这极大地限制了处理多语言文本的能力;其次,广泛使用的工具有时会针对准确性进行优化,可能会误导下游应用程序;第三,他们有时会假设输入文本已使用其他工具进行了标记或注释,但缺乏使用
# NLP中文开源框架概述 自然语言处理(NLP)是计算机科学与人工智能的一个重要分支,它涉及计算机与人类语言之间的互动。在中文处理方面,由于语言的复杂性和丰富的文化背景,NLP 的发展尤为重要。现在,市场上涌现了许多开源框架来支持中文自然语言处理。本篇文章将介绍一些流行的中文 NLP 开源框架,并提供一些基本的代码示例来展示如何使用这些工具。 ## 常见的中文 NLP 开源框架 ### 1
直到最近,最实用的自然语言理解(NLU)系统仍然使用的是分析阶段的流程,从词性标注和依存句法分析(dependency parsing)到计算输入文本的语义表示。尽管该流程促进不同分析阶段的模块化,但早期阶段中的错误可能影响到后面的阶段以及最终表示,中间阶段的输出可能与该阶段的相关性不强。例如,典型的流程可能在早期阶段执行依存句法分析任务,最后执行共指消解。即使你只对共指消解的输出感兴趣,它也可能
开源语音识别软件 2009-02-24 9:47 开源语音识别软件simon的第一个测试版已经发布,simon用Julius作实际的语音识别处理引擎,HTK toolkit作为主要的语言模型。这些组件被一个易于使用的图形用户界面连接在一起。simon能够直接输入wiktionary(维基百科的子项目)词典,或者是将个人文本转换成HADIFIX或HTK格式和文法结构后导入。它还提
转载 2023-12-28 16:10:16
51阅读
环境说明开发环境工具版本备注JDK1.8强制要求MySQL5.7.24+强制要求Redis——开发使用工具工具说明IntelliJ IDEAJava编程语言开发的集成环境NavicatMysql数据库管理工具RedisDesktopManagerRedis可视化管理工具部署说明针对于不同的技术人群,我们提供了多种部署方式:简易版部署:使用Docker只需要一行命令即可完成‘NLP自然语言处理引擎’
# 中文开源NLP标注工具实现指南 在开发中文开源NLP标注工具的过程中,我们需要经过几个主要的步骤。通过这个流程,你将逐步构建和实现一个简单的NLP标注工具。以下是整个开发过程的步骤和需要的内容。 ## 流程图 ```mermaid flowchart TD A[需求分析] --> B[选择NLP库] B --> C[数据预处理] C --> D[模型训练]
原创 9月前
114阅读
介绍,源码主要完成了bert预训练的两个TASKMasked LM(Masked Language Model) 一个句子中每个词有15%的概率会被选中进行设置,设置的规则有三种: 80%的概率设置为[MASK]用于学习10%的概率设置为原单词,为了进行下游任务10%的概率设置为随机单词,类似负采样操作NSP(Next Sentence Prediction) [CLS]用于句子的标签,[S
nlp中文纠错 开源 paddlepaddle是一个关于自然语言处理(NLP)领域热门问题。随着中文信息处理的需求不断上升,开发一个高效的中文纠错模型显得尤其重要。本文将分享在这一过程中遇到的问题及解决方案,具体将涵盖环境配置、编译过程、参数调优、定制开发、部署方案和生态集成等关键步骤。 ## 环境配置 建立一个合适的开发环境是首要步骤。我们选择使用PaddlePaddle作为深度学习框架,因
原创 6月前
75阅读
# 前言 #文字是人从日常交流中语音中演化出来,用来记录信息的重要工具。文字对于人类意义非凡,以中国为例,中国地大物博,各个地方的口音都不统一,但是人们使用同一套书写体系,使得即使远隔千里,我们依然能够通过文字进行无障碍的沟通。文字也能够跨越时空,给予了我们了解古人的通道。随着计算机的诞生,文字也进行了数字化的进程,但是不同于人类,让计算机能够正确地进行字符识别是一个复杂又艰巨但意义重大的工作。从
特别推荐系列: 1、HMM学习最佳范例全文文档 2、无约束最优化全文文档 -by @jianzhu 3、PYTHON自然语言处理中文翻译-NLTK Natural Language Processing with Python 中文版,陈涛sean 无偿翻译。 4、正态分布的前世今生(pdf 版) – by @rickjin 5、LDA-math-汇总
目录前言一、数据集介绍1-1、spell-errors.txt1-2、vocab.txt1-3、testdata.txt二、拼写纠错代码Part0:构建词库Part1:生成所有的候选集合Part2:读取语料库,为构建语言模型准备Part3:构建语言模型,BigramPart4:构建每个单词的错误单词输入概率的词典。Part5:使用测试数据来进行拼写纠错总结 前言在自然语言处理的过程中,我们常常会
python书籍整理PYTHON自然语言处理中文翻译 NLTK 中文版.pdf  http://www.22wenku.com/pdf/21433.htmlpython简明教程中文.pdf http://www.22wenku.com/pdf/22083.htmlPython编程:从入门到实践.pdf http://www.22wenku.com/pdf/22775.html 
转载 2023-07-02 14:50:56
105阅读
文章目录前言一、中文分词的痛点1.1 中文的歧义性1.2 识别未登录词二、基于规则的分词算法2.1 切分方式2.1.1 正向匹配法2.1.2 逆向匹配法2.1.3 双向匹配法2.2 词典机制三、基于统计的分词算法3.1 HMM(Hidden Markov Model,隐马尔可夫模型)3.1.1 HMM概念及推导3.1.2 HMM求解中文分词问题3.1.2.1 训练3.1.2.2 预测3.1.2.
翻译自官网手册:NLP From Scratch: Translation with a Sequence to Sequence Network and AttentionAuthor: Sean Robertson原文github代码 这是NLP从零开始三个教程的第三个。教程中编写了自己的类和函数预处理数据来完成NLP建模任务。希望完成本教程的学习后你可以通过后续的三个教程,继续学习使用tor
Named Entity Recognition目录Named Entity Recognition1. NER1.1 NER定义1.2 数据格式1.2.1 BIO1.2.2 BIOES1.3 开源库1.4 相关数据集1.5 方法2. BILSTM2.1 BILSTM classify2.2 BILSTM seq encode3. NER应用:NER-BILSTM-CNN4. NER应用:BERT
一些实用的NLP开源项目1. 综合型开源工具(1)Natural Language Toolkit (NLTK) NLTK是用于构建Python程序以处理人类语言数据的领先平台。它为超过50个语料库和词汇资源(如WordNet)提供了易于使用的接口,以及一套用于分类、标记化、词干、标记、解析和语义推理的文本处理库,用于工业强度NLP库的包装器,以及一个活跃的讨论论坛。由于介绍了编程基础知识
一、什么是变量  顾名思义:变量就是可以改变的量  如:  z=0      x=5      y=5      z=x+y(z=?)      上方的z就是变量,其值可以改变。  通俗的理解就是:    变量  =  生活中的容器(饭盒)    变量赋值=  把东西放到容器里面    变量类型=  放了不同东西的饭盒(容器里放的是稀饭,就是早饭/晚饭;放的是面条/米饭,就是午饭)二、变量的命名规
转载 2023-05-28 21:38:48
86阅读
  • 1
  • 2
  • 3
  • 4
  • 5