phinecos的博客_Search Engine

《Modern Information Retrieval》笔记（一）

一，信息检索的基本概念，评价，模型和算法: 1)模型、相关反馈、查询扩展;2)文本处理技术;3)文本分类和聚类技术(倾向性分析);4)信息过滤技术;5)信息组织和索引;6)并行和分布式检索二，信息检索的应用：1)WEB检索;2)数字图书馆;3)多媒体检索三，国际著名研究机构和代表人物 1）美国康奈尔大学Salton(1927-1995)，现代信息检索的奠基人，SMART...

信息检索

c++

文本分类

lucene

计算语言学

转载 2021-08-06 10:14:29 448 阅读

《Modern Information Retrieval》笔记（二）

Information Retrieval这个术语产生于Calvin Mooers1948年在MIT的硕士论文。 Information Retrieval(IR)：从文档集合中返回满足用户需求的相关信息的过程。作为一门学科，是研究信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organization)和访问(access)...

信息检索

搜索

文本处理

搜索引擎

问答系统

转载 2021-08-05 16:33:20 204 阅读

基于K-Means的文本聚类算法

聚类

#include

i++

词频

数据

原创 2021-08-05 15:35:12 1627 阅读

Heritrix研究笔记（一）

这个开源的Web爬虫，Internet Archive在它的官方文档中说只维护在linux下，我不想用那么麻烦的bash shell去设置那些环境变量什么的，所以还是偷点懒，自己写个windows命令脚本来让这个爬虫在windows下面跑起来吧，现在就跟我来吧，呵呵。要在Windows上让Heritrix跑起来，下面三步就OK了： 1) 下载最新版的Her

jar

tomcat

java

linux

用户名

转载 2021-08-05 15:15:21 366 阅读

nutch 0.9在Windows下的安装

一、环境： 1.操作系统：windowsXp,windows2000+ 2.java1.6，设置JAVA_HOME到环境变量 3.cygwin,当然这个不是必需的，只是nutch提供的脚本只能在shell环境下使用，所以使用cygwin来虚拟shell命令。 4.nutch版本：0.9 5.tomcat：6.0 二、nutch的安装和配置： 1，安

tomcat

java

搜索

日志文件

xml文件

转载 2021-08-05 14:36:32 186 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

洞庭散人