TF-IDF(term frequency–inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。比较容易理解的一个应用场景是当我们手头有一些文章时,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能够用于评估一个词语对于一个文集或一
转载 8月前
0阅读
算法的概念算法是计算机处理信息的本质,因为计算机程序本质上是一个算法来告诉计算机确切的步骤来执行一个指定的任务。一般地,当算法在处理信息时,会从输入设备或数据的存储地址读取数据,把结果写入输出设备或某个存储地址供以后再调用。算法的五大特性1.输入: 算法具有0个或多个输入 2.输出: 算法至少有1个或多个输出 3.有穷性: 算法在有限的步骤之后会自动结束而不会无限循环,并且每一个步骤可以在可接受的
一.图简介假设你居住在旧金山,要从双子峰前往金门大桥,你想乘公交车前往。 为找出换乘最少的乘车路线,你将使用怎样的算法?金门大桥未突出,因此一步无法到达那里。两步能吗?金门大桥未突出,两步步无法到达那里。三步能吗? 金门大桥突出了!因此从双子峰出发,可沿下面的路线三步到达金门大桥。还有其他前往金门大桥的路线,但他们更远(需要四步)。这个算法发现,前往金门大桥的最短路径需要三步,这种问题被称为最短路
第十章 利用k-均值聚类算法对未标注的数据进行分组一.导语聚类算法可以看做是一种无监督的分类方法,之所以这么说的原因是它和分类方法的结果相同,区别它的类别没有预先的定义。簇识别是聚类算法中经常使用的一个概念,使用这个概念是为了对聚类的结果进行定义。聚类算法几乎可以用于所有的对象,并且簇内的对象越相似,效果越好。二.K-均值聚类算法的基本概念K-均值聚类算法它的目的是将数据分成k个簇。它的
一、 算法是什么?    算法是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来
LRU 算法描述LRU 算法实际上是让你设计数据结构:首先要接收一个 capacity 参数作为缓存的最大容量,然后实现两个 API,一个是 put(key, val) 方法存入键值对,另一个是 get(key) 方法获取 key 对应的 val,如果 key 不存在则返回 -1。注意哦,get 和 put 方法必须都是 O(1) 的时间复杂度,我们举个具体例子来看看 LRU 算法怎么工作。  /
算法定义算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。一个算法应该具有以下
Apriori算法  Apriori算法用于关联分析,其目标包括两个:发现频繁项集,发现关联规则。首先需要发现频繁项集,然后才能发现关联规则。本文Apriori部分的代码来自《机器学习实战》,有需要可以看看。发现频繁项集  频繁项集指那些经常出现在一起的集合。若某个项集是频繁项集,则它的所有子集也是频繁的。反之,若一个项集是非频繁项集,则它的所有超集也是非频繁的。Apriori利用这个原理,避免计
概述:本文从用算法“脱掉”女性衣服的DeepNude的不良应用现象及其消亡的现象为引子,介绍了其应用的2种python技术。支持生成Nude图像的pix2pix算法,和支持对python程序打包的PyOxidizer库做了介绍。旨在抛砖引玉,对读者的python技术提高有帮助。DeepNude的缘起" 世界还没有为DeepNude做好准备。" 2019年3月,当DeepNude正式推出时,它应该只
昨天看过了简单题汇聚的深度优先搜索专题,今天来体验下简单级别的广度优先搜索专题。老样子,先熟悉下术语概念:广度优先搜索算法(英语:Breadth-First Search,缩写为BFS),又译作宽度优先搜索,或横向优先搜索,是一种图形搜索算法。简单的说,BFS是从根节点开始,沿着树的宽度遍历树的节点。如果所有节点均被访问,则算法中止。广度优先搜索的实现一般采用open-closed表。 BFS是一
1,什么是算法的时间和空间复杂度  算法(Algorithm)是指用来操作数据,解决程序问题的一组方法,对于同一个问题,使用不同的算法,也许最终得到的结果是一样的,但是在过程中消耗的资源和时间却会有很大的区别。  那么我们应该如何去衡量不同算法之间的优劣呢?  主要还是从算法所占用的时间和空间两个维度取考量。时间维度:是指执行当前算法所消耗的时间,我们通常使用时间复杂度来描述。空间维度:是指执行当
因为这篇公式和图比较多,所以笔者以贴图像的形式来,附上最终的结果图。如果你需要笔者的代码,可以发邮件或者去github,笔者后续会贴上github链接。 1、 两者之间的关系 摄影测量是研究被摄物体的形状、大小、和相对位置关系的一门学科;计算机视觉可以看作是图像处理的升华(image—knowledge)。两者之间有太多的相似之处,如bundle adjustment,摄影测量中称之为光束法平差
主成分分析,即Principal Component Analysis(PCA),是多元统计中的重要内容,也广泛应用于机器学习和其它领域。它的主要作用是对高维数据进行降维。PCA把原先的n个特征用数目更少的k个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的k个特征互不相关。关于PCA的更多介绍,请参考:https://en.wikipedia.org/wiki/Prin
**用Python实现两种排序BFS/DFS算法什么是BFS和DFS算法BFS和DFS算法代码实现BFS和DFS算法(第3讲)—— 从BFS到Dijkstra算法思路: 大家做这道题的时候,首先自己要创建很多的节点,然后自己构建节点之间的连接关系,打散时候排序,排序的话大家想想根节点有什么特点,很容易就会找到根节点的。 另外就是:创建节点可以有自己的创建方式,属性可以有input node 和
  01_算法的一些基本概念  三个基本概念:问题、问题实例和算法。  算法的性质有:有穷性、可行性、确定性、有输入和输出、可终止。  算法设计的概念:从问题出发,通过分析、思考最终得到一个可以解决问题的过程性描述的工作过程。  常见算法设计模式:枚举法、贪心法、分治法、回溯法(搜索法)、动态规划法、分支界限发。  “大O记法”:对于单调的整数函数 f,如果存在一个整数函数 g 和实常数 c &g
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理作者:Python进阶者# hashlib是涉及安全散列和消息摘要,提供多个不同的加密算法接口,如SHA1、SHA224、SHA256、SHA384、SHA512、MD5等。 import hashlib md5 = hashlib.md5() md5.update("test".
这里写目录标题冒泡排序 Bubble Sort快速排序 Quick Sort插入排序 Insertion Sort希尔排序 Shell Sort选择排序 Select Sort堆排序 Heap Sort归并排序 Merge Sort计数排序 Counting Sort基数排序(Radix Sort)桶排序(Bucket Sort) 冒泡排序 Bubble Sort原理:从第一个元素开始,将相邻的
最优化问题可大致分为两类,可导的与不可导的可导的最优化问题 (e.g., 特征加权分类) 通常可使用梯度下降法解决,但不可导的最优化问题 (e.g., 神经网络超参数调整) 则只能使用遗传算法解决但遗传算法存在着明显的缺陷,即搜索方向过于随机、搜索效率低下,在更多的情况下粒子群算法会是更优的选择在参照主流的粒子群算法流程后,本算法的复现思路如下:根据用户所设置的各个坐标的取值范围生成指定规模的粒子
相关概念对于一个图G=(V, E),求图中两点u, v间最短路径长度,称为图的最短路径问题。最短路径中最长的称为图的直径。其中,求图中确定的某两点的最短路径算法,称为单源最短路径算法。求图中任意两点间的最短路径算法,称为多源最短路径算法。常用的路径算法有:Dijkstra算法SPFA算法\Bellman-Ford算法Floyd算法\Floyd-Warshall算法Johnson算法其中最经典的是D
AES算法实现分析主函数 char encryptchar str char key加密 void Cipher字节代替void SubBytes及int getSBoxValueint num行移位void ShiftRows列混合 void MixColumns秘钥轮加 AddRoundKeyround密钥调度算法 void KeyExpansion解密过程 char decryptchar
  • 1
  • 2
  • 3
  • 4
  • 5