在机器学习和深度学习的快速发展时代,计算机视觉(CV)算法和自然语言处理(NLP)算法的模型指标测试显得尤为重要。随着模型架构的不断演进和应用场景的复杂化,我们需要一种系统的方式来评估这些算法的性能。这篇博文将详细记录处理“CV算法NLP算法等模型指标测试”问题的过程。
让我们从时间轴上的几个重要节点开始回顾模型指标测试的演变历程:
1. **2010年**:深度学习的广泛应用开始。
2. *            
                
         
            
            
            
            ## 科普文章:算法在NLP和CV中的应用
### 导言
在当今数字化时代,人工智能技术已经成为各行各业的热门话题。而在人工智能领域中,自然语言处理(NLP)和计算机视觉(CV)是两个重要的分支,而算法则是这两个领域的核心。本文将介绍算法在NLP和CV中的应用,并通过代码示例展示其功能。
### 算法在NLP中的应用
自然语言处理是人工智能领域的一个重要分支,旨在实现计算机与人类自然语言之            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-04-25 06:38:40
                            
                                41阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            CV方向:(object detection, semantic segmentation, 人脸,姿态,视觉重建,图像恢复生成(gan),识别分类等)  面试经验总结:对自己项目的每个细节都了解清楚,多总结面试 对基本知识点的掌握要清晰,不能模棱两可 对算法公式的掌握要细致,防止推公式。  需要准备的:论文,实习经历,项目(硬            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-05 20:16:43
                            
                                53阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            0、旅行商问题背景此文是面向的任意出发点,走封闭路线的最优寻找(其实如果封闭了,一旦收敛,就是轨迹确定,其实就无所谓从哪里出发,走得什么方向了)并把从出发点到终点再到出发点的每两个城市间的距离之和来作为个体的适应度1、bug总结基本上都是一些低端错误,看着图一乐就好(1)最大错误:以i为循环变量进行,每一generation的迭代,在循环体里面的小循环中不小心也用i做了循环变量,导致总循环次数出错            
                
         
            
            
            
            【关于 BatchNorm vs LayerNorm】那些你不知道的事一、动机篇1.1 独立同分布(independent and identically distributed)与白化独立同分布 
  为什么? 
    独立同分布的数据可以简化常规机器学习模型的训练、提升机器学习模型的预测能力相关性: 
    强相关:Naive Bayes 模型就建立在特征彼此独立的基础之弱相关:Logis            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-11 20:04:20
                            
                                159阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            NLP算法面试必备!史上最全!PTMs:NLP预训练模型的全面总结预训练模型(Pre-trained Models,PTMs)的出现将NLP带入了一个全新时代。2020年3月18日,邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-trained Models for Natural Language Processing: A Survey》[1],这是一篇全面的综述,系统地对PTMs进行了归            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-24 16:26:29
                            
                                177阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
              内容目录一、数据集介绍二、解压文件明确需求三、批量读取和合并文本数据集四、中文文本分词五、停止词使用六、编码器处理文本标签七、常规算法模型1、k近邻算法2、决策树3、多层感知器4、伯努力贝叶斯5、高斯贝叶斯6、多项式贝叶斯7、逻辑回归8、支持向量机八、集成算法模型1、随机森林算法2、自适应增强算法3、lightgbm算法4、xgboost算法九、深度学习1、前馈神经网络2、LSTM 神经网络十            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-07 21:02:24
                            
                                238阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            ## 如何实现NLP算法测试
作为一名经验丰富的开发者,我将教会你如何实现NLP算法测试。首先,让我们来看一下整个流程,然后逐步介绍每一步应该做什么。
### 流程
下面是实现NLP算法测试的流程:
| 步骤 | 描述 |
| --- | --- |
| 1 | 准备数据集 |
| 2 | 数据预处理 |
| 3 | 构建模型 |
| 4 | 模型训练 |
| 5 | 模型评估 |
##            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-03-10 04:18:23
                            
                                100阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            主要分支介绍通讯、感知与行动是现代人工智能的三个关键能力,在这里我们将根据这些能力/应用对这三个技术领域进行介绍:计算机视觉(CV)、自然语言处理(NLP)在 NLP 领域中,将覆盖文本挖掘/分类、机器翻译和语音识别。机器人 分支一:计算机视觉计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。物体检测和人脸识别是其比较成功的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-30 22:44:55
                            
                                2418阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            作者丨李纪为机器学习算法与自然语言处理ACL2019投稿刚刚落幕,投稿数超过了2800篇,可以说是历史以来最盛大的一届ACL。在深度学习的推动下,自然语言处理这个子领域也逐渐被推上人工智能大舞台的最前列。最近在跟同学的邮件、或者知乎留言中的交流中,不少同学尤其是刚入(jin)门(keng)的同学,提到了深度学习背景下做NLP科研的很多迷茫。基本可以归纳为如下几点:如今一个模型,几十行TensorF            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-14 17:52:23
                            
                                44阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1. 大模型的技术趋势本节我们将分析“大模型现象”在语言模型以外的领域的进展情况,主要包括计算机视觉领域和多模态(语言+图像)领域。计算机视觉(Computer Vision,CV)领域和NLP一样,也是本轮深度学习科技热潮中被极大颠覆了的研究领域,2012年被提出的近代深度学习的开山之作AlexNet便是CV领域中的深度卷积神经网络(Convolutional Neural Network,CN            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-24 21:30:56
                            
                                150阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            这里写自定义目录标题算法岗NLP实习面经6.9科大讯飞(HR面)6.19购物狗(笔试)6.21恒生电子(笔试)6.22 字节跳动(内推)6.26-27交叉科技(笔试)6.28差评(面试)6.26-6.27交叉科技(笔试)6.26 笔试一 智力题、数学基础、机器学习和深度学习6.27 笔试二 编程题7.3子午智汇(面试)7.5交叉科技(一面)7.7贪心科技(面试)7.8交叉科技(二面) 算法岗NL            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-12 13:04:16
                            
                                18阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            BERT(Bidirectional Encoder Representations from Transformers)是Google AI语言研究人员发表的最新论文。 它通过在各种各样的NLP任务中展示最新结果而引起了机器学习社区的轰动,其中包括问答(SQuAD v1.1),自然语言推理(MNLI)等。BERT的主要技术创新是将流行的attention model,Transformer的双向            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-18 15:33:47
                            
                                99阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            第一部分:分词的方法概述基于词表: 正向最大匹配法、逆向最大匹配法基于统计: 基于N-gram语言模型的分词方法基于序列标注: 基于HMM/CRF/DeepLearning的端到端的分词方法第二部分:方法简要说明正向最大匹配法:逆行向最大匹配法: 这种基于词表的方法,前提是有一个已经分的较好的词表,然后匹配。正向与逆向只是匹配的方式不同而已。这种基于词表的方法,前提是有一个已经分的较好的词表,然后            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-13 20:45:53
                            
                                86阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            该篇文章右谷歌大脑团队在17年提出,目的是解决对于NLP中使用RNN不能并行计算(详情参考《【译】理解LSTM(通俗易懂版)》),从而导致算法效率低的问题。该篇文章中的模型就是近几年大家到处可以听到的Transformer模型。一、算法介绍前的说明由于该文章提出是解决NLP(Nature Language Processing)中的任务,例如文章实验是在翻译任务上做的。为了CV同学更好的理解,先简            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-29 22:00:56
                            
                                222阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            规则学习(独立而治之)决策树会给任务带来一组特定的偏差,而规则学习可通过直接识别规则而避免偏差。规则学习通常应用于以名义特征为主或全部是名义特征的问题,规则学习擅长识别偶发事件,即使偶发事件只是因为特征之间非常特殊的相互作用才发生的决策树必须从上至下的应用,而规则是单独存在的事实。根据相同数据建立的模型,规则学习的结果往往比决策树的结果更加简洁、直观、容易理解。规则学习算法数据的利用基于先到先得思            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-27 17:28:50
                            
                                123阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # 如何实现大模型 NLP CV
在过去的几年中,深度学习尤其是大模型(如GPT、BERT、ResNet等)的发展,使得自然语言处理(NLP)和计算机视觉(CV)领域得到了飞速的进步。若你是刚入行的小白,可能会觉得实现一个大模型是一项复杂的任务。本文将为你提供一个清晰的流程,并介绍每个步骤需要做的事情。
## 整体流程
下表展示了实现大模型 NLP CV 的主要步骤:
| 步骤            
                
         
            
            
            
            北大河图团队提出了一套面向大模型的自动并行分布式训练系统Galvatron,相比于现有工作在多样性、复杂性、实用性方面均具有显著优势,论文成果已经被 VLDB 2023 接收。最近一段时间,「大模型」在 AI 领域的各种应用场景都大放异彩,其中基于 Transformer 的大规模预训练模型是最典型的大模型之一,已经成为了当前基础模型(Foundation Model)的核心架构。例如            
                
         
            
            
            
                  库如其名,Jieba库主要用于中文分词,Jieba函数的处理过程就像结巴一样,一个接一个的产生词语。是目前非常好用的Python中文分词组件。      Jieba分词支持四种模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-08 13:28:40
                            
                                51阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            之前提到,seq2seq的一大缺点是单一的语义向量难以表达长序列的完整语义,而改善这一问题的一个有效方法就是结合注意力机制,在不同的时刻针对输出计算包含不同语义的语义向量: 所谓注意力机制,本质上就是在分析过程中引入权重,在本文,我主要介绍两种注意力计算框架:原始的计算框架和multi-head attention,从原始的框架中又进一步划分为:soft attention(key=value)、            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-25 17:10:44
                            
                                39阅读
                            
                                                                             
                 
                
                                
                    