LDPC码简介      低密度校验码(LDPC码)是一种前向纠错码,LDPC码最早在20世纪60年代由Gallager在他的博士论文中提出,但限于当时的技术条件,缺乏可行的译码算法,此后的35年间基本上被人们忽略,其间由Tanner在1981年推广了LDPC码并给出了LDPC码的图表示,即后来所称的Tanner图。1993年Berrou
0. 引言这篇文章将介绍一些关于文本的处理技术和深度学习训练的技巧。其实这些技巧单独拿出来大家应该都很熟悉,重点是如何将这些技巧和自己的应用场景结合起来。1. 文本领域的数据预处理技术1.1 文本纠错在一个项目中,我们会用到文本纠错技术呢?在这里我举个例子,例如我们中一些数据来自语音识别或者OCR获得,那么我们就会用到纠错技术。例如,OCR的一些错误都是一些形似的字体,而语音识别的一些错误都是读音
      为了节约大家的时间在此就不作paddlepaddle的介绍,直接简单讲解一下安装流程。这篇安装流程会比较麻烦,如果你用别的安装方法都行不通可以采用这个方法,但是不保证一定顺利。因为每个人电脑的具体环境多多少少都有差异所以报错都是五花八门,不过在此有一种错误的解决思路可以供大家参考一下。      我出现的报错是:ERROR:
##awk 的一些使用总结 ###awk 内置义变量 ``` $0 当前记录(作为单个变量) $1~$n 当前记录的第n个字段,字段间由FS分隔 FS 输入字段分隔符 默认是空格 NF 当前记录中的字段个数,就是有多少列 NR 已经读出的记录数,就是行号,从1开始 RS 输入的记录他隔符默 认为换行符 OFS 输出字段分隔符 默认也是空格 ORS 输出的记录分隔符,默认为换行符 A
一、项目简介1.1 简要说明最近在折腾Ubuntu,有一个截屏然后OCR提取文本的应用需求。在Windws上这样的工具很好找,但是在Linux没有现成的软件可用,得自己解决。网上流行的方案是使用tesseract,试了一下,效果并不好,中文能给识别出一堆乱码。于是想到PaddleOCR有预训练模型可以用,于是尝试了一下。这里把用到的两个脚本文件ocr.py和ocr.sh一起放到了这个项目中,for
# 基于PaddleNLP的文本纠错技术 在自然语言处理(NLP)的广泛应用中,文本纠错技术扮演着非常重要的角色。无论是在拼写检查、语法纠正,还是语句流畅性优化,文本纠错都是提高文本质量的重要环节。本文将介绍如何使用PaddleNLP进行文本纠错,并提供代码示例和相应的流程图。 ## 什么是文本纠错? 文本纠错是一种自然语言处理技术,旨在识别和修正用户文本中的错误。常见的错误类型包括拼写错误
原创 11月前
240阅读
做推荐系统工程的朋友们,你们是不是时常听到诸如此类的抱怨?相信阅读完这篇文章后,你可能会得到一些新思路、新方法。在介绍具体项目之前,我们先来了解一下推荐系统。简单来说,推荐系统就是根据用户的个性化需求,在海量的信息中确定提供给用户什么样的具体内容。通常推荐系统分为两个阶段:「召回」和「排序」。「召回」是推荐系统的第一阶段,主要根据用户和商品部分特征,从海量的物品库里,快速找出一部分用户可能感兴趣的
转载 2024-05-08 15:05:25
27阅读
一般有两种文本纠错的类型:1.Non-word拼写错误首先看一下Non-word的拼写错误,这种错误表示此词汇本身在字典中不存在,比如把“要求”误写为“药求”,把“correction”误拼写为“corrction”。寻找这种错误很简单,例如分完词以后找到哪个词在词典中不存在,那么这个词就可能是错误拼出来的的词。操作步骤 • 找到候选词 • 接着基于特定算法找出与错拼词关联最高的一个或多个单词作为
  背景    文本语义纠错的使用场景非常广泛,基本上只要涉及到写作就有文本纠错的需求。书籍面市前就有独立的校对的环节来保障出版之后不出现明显的问题。在新闻中我们也时不时看到因为文字审核没到位造成大乌龙的情况,包括上市公司在公开文书上把“临时大会”写成为“临死大会”,政府文件把“报效国家”写成了“报销国家”。有关文本纠错的辅助工具能给文字工作人员带来较大的便
使用Grammarly也有一些心得,在此分享给大家。1,Grammarly是什么?Grammarly是一款在线语法纠正和校对工具,支持Windows、Mac、iOS和Android等多个平台。它能够检查单词拼写、纠正标点符号、修正语法错误、调整语气以及给出风格建议等;对学术写作来说,Grammarly还可以帮助查重。2,Grammarly有哪些功能?2.1, 检查单词拼写2.2, 纠正标点符号被遗
# 基于PaddleNLP的文本纠错数据集探索 ## 引言 在自然语言处理(NLP)的研究领域,文本纠错是一个非常重要的任务。文本纠错旨在自动检测并修复文本中的错误,例如拼写错误、语法错误或上下文不一致。本文将探讨PaddleNLP的文本纠错数据集,并提供相关的代码示例,帮助读者理解如何使用这些数据集进行文本纠错模型的训练和评估。 ## 1. 文本纠错的定义 文本纠错技术可以确保信息的准确
原创 11月前
209阅读
目录一、前情回顾:文字识别器模型的策略介绍1.文字识别器的总体策略选用      回顾      简单介绍2.本人负责的文字识别器模块策略3.本文所介绍的文字识别器模块策略二、Paddle OCR组网介绍 1. 组网包目录介绍2. 组网包中本次分析的关键部分三、主要策略与代码解释1.轻主干策略总结 一、前情回顾:文字识别器模型
PaddlePaddle是百度于2016年9月开源的一款分布式深度学习平台,为百度内部多项产品提供深度学习算法支持。为了使PaddlePaddle更加易用,我们已经做了一系列的工作,包括使用Kubernetes集群管理系统来进行部署与运行。2017年3月11日,我们很高兴地发布新API的Alpha版0.10.0rc1,以及《深度学习入门教程》。目前教程包括八个示例程序,均可以在Jupyter No
# 教你如何实现基于PaddleNLP的智能文本纠错 ## 步骤概述 下面是整个流程的步骤表格: ```mermaid journey title 整个流程 section 开始 开发者->小白: 介绍整个流程 section 实施 小白->开发者: 实施过程中遇到问题 section 结束 开发者->小白: 整
原创 2024-04-30 05:59:01
446阅读
PyCorrector中文文本纠错实战 PyCorrector纠错工具实践和代码详解模型调参demo 1. 简介中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3.6开发。pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。1.1 在线Demohttps://www.bornto
用于语法纠错的深度上下文模型徐明 编译摘要本文提出了一个基于循环神经网络(RNN)用于语法错误校正的深层上下文模型。对于特定的错误类型,我们将错误纠正任务视为可以从大量的本地文本数据中学习语法表示的分类任务。传统的分类方法需要复杂的语言知识做特征工程,而且做出的特征工程可能无法涵盖所有的上下文特征。我们的模型不需要人工特征工程,在CoNLL-2014年的开放语法纠错比赛中实验表明:我们的模型达到第
目录简介1 预处理流程初探2 算子处理过程2.1 DecodeImage2.2 DetResizeForTest2.2.1 构造方法2.2.2 调用方法2.3 NormalizeImage2.4 ToCHWImage2.5 KeepKeys3 预处理结果4 实际部署时的预处理5 总结 简介导出ONNX格式的模型后,在部署模型时,需要对模型的输入进行预处理,转换成符合模型输入维度的张量;模型输出张
转载 2023-12-27 18:19:35
437阅读
纠错是搜索引擎中一个非常有特色的模块,对用户输入的内容进行改写从而让用户得到正确的结果,有的时候也会带有一些惊喜度,所以纠错技术是一个搜索体验的加分项。1、纠错技术的背景人非圣贤,孰能无过,别说是搜索的时候,哪怕是我们打字、写作文的时候,都会出现错字,一般的错别字不会对最终目标带来很大影响,且出现频率很低,不拘小节的我们常常会忽略这样的小问题,但是,在搜索场景下,错别字意味着可能就搜不到内容了,对
# paddlenlp text_correct 文本纠错微调的探讨与实践 在本文中,我将分享如何针对“paddlenlp text_correct”进行文本纠错的微调。为了使过程更加系统化,我们将探讨环境预检、部署架构、安装过程、依赖管理、配置调优和最佳实践等各个方面的内容。 ## 环境预检 在开始之前,我们需要确保系统环境的兼容性和资源充足。以下是我针对环境预检做出的分析。 首先,我绘
原创 6月前
53阅读
谐音字词,如 配副眼睛-配副眼镜混淆音字词,如 流浪织女-牛郎织女字词顺序颠倒,如 伍迪艾伦-艾伦伍迪字词补全,如 爱有天意-假如爱有天意形似字错误,如 高梁-高粱中文拼音全拼,如 xingfu-幸福中文拼音缩写,如 sz-深圳语法错误,如 想象难以-难以想象1.use kenlm1.1 kenlm打分1.2 分词1.
  • 1
  • 2
  • 3
  • 4
  • 5