一,信息检索的基本概念,评价,模型和算法: 1)模型、相关反馈、查询扩展;2)文本处理技术;3)文本分类和聚类技术(倾向性分析);4)信息过滤技术;5)信息组织和索引;6)并行和分布式检索 二,信息检索的应用:1)WEB检索;2)数字图书馆;3)多媒体检索 三,国际著名研究机构和代表人物 1)美国康奈尔大学Salton(1927-1995),现代信息检索的奠基人,SMART...
Information Retrieval这个术语产生于Calvin Mooers1948年在MIT的硕士论文。 Information Retrieval(IR):从文档集合中返回满足用户需求的相关信息的过程。作为一门学科,是研究信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organization)和访问(access)...
昨天有幸拜读了蛙蛙池塘的《蛙蛙推荐:蛙蛙教你文本聚类》这篇文章,受益匪浅,于是今天就动手尝试照着他的C#代码,用C++和STL标准库重新实现一遍,因此就有了这篇文章。本文将重新温习蛙蛙池塘那篇文章,并且加入我个人在用C++重写这份代码过程中的一些心得体会。
这个开源的Web爬虫,Internet Archive在它的官方文档中说只维护在linux下,我不想用那么麻烦的bash shell去设置那些环境变量什么的,所以还是偷点懒,自己写个windows命令脚本来让这个爬虫在windows下面跑起来吧,现在就跟我来吧,呵呵。 要在Windows上让Heritrix跑起来,下面三步就OK了: 1) 下载最新版的Her
一、环境: 1.操作系统:windowsXp,windows2000+ 2.java1.6,设置JAVA_HOME到环境变量 3.cygwin,当然这个不是必需的,只是nutch提供的脚本只能在shell环境下使用,所以使用cygwin来虚拟shell命令。 4.nutch版本:0.9 5.tomcat:6.0 二、nutch的安装和配置: 1,安
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号