刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名。 几年过去了,Lucene和Solr...
转载 2015-05-29 10:57:00
217阅读
2评论
中文分词器 mmseg4j 收藏该软件 我的收藏夹 /设置 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。2、MMSeg 算法有两种分词方法:S
原创 2023-07-04 20:54:18
119阅读
原文出处:http://blog.chenlb.com/2009/04/solr-chinese-segment-mmseg4j-use-demo.htmlmmseg4j 第一个版本就可以方便地与 solr 集成,在google code上面有简单的说明,第一版的发布博客也有简单的使用说明:中文分词 mmseg4j。为了更清楚说明在 solr 中使用 mmseg4j 中文分词,还是写篇博客吧。目前有两个版本的 mmseg4j,1.7 版比较耗内存(一个词库目录就要 50M 左右),所以在默认jvm内存大小会抛出 OutOfMemoryErroy。我这里示例两个词库目录,所以不用目前最新版 1.
转载 2012-07-09 22:45:00
151阅读
2评论
« 中文分词 mmseg4j 的词
原创 2023-07-04 21:46:40
40阅读
Solr版本4.10.0 mmseg4j 2.2.0 1、为什么使用中文分词器 如上图所示,输入“我是中国人”,结果是将每个字进行了分词。这个显然不是我们想要的结果。 2、使用中文分词器mmseg4j 在工程中增加 <dependency> <groupId>com.chenlb.mmseg4j</
转载 2021-04-18 14:18:00
103阅读
2评论
在上一篇博文《Solr之——整合Tomcat》中,我们介绍了Solr与Tomcat的整合方式,还没有阅读上一篇博文的朋友,请先阅读上一篇博文《Solr之——整合Tomcat》,本文是在上一篇博文的基础上整合mmseg4j中文分词词库的。下面我们一起来实现Solr与mmseg4j的整合。注:这篇博文中,我使用的是mmseg4j1.8.5。1、环境准备首先,下载mmseg4j1.8.5中文
原创 2015-11-19 22:07:57
187阅读
在上一篇博文《Solr之——整合Tomcat》中,我们介绍
原创 2022-04-22 14:36:56
74阅读
solr 中文分词 mmseg4j 使用例子 版权信息: 可以任意转载, 转载时请务必以超链接形式标明文章原文出处, 即下面的声明.
转载 2022-05-12 16:02:08
310阅读
前言.Net 下分词组件选择不多,最近看到宝玉发布了改进版本的mmseg分词,正好跟使用已久的盘古分词做个对比。盘古是用自动机来实现分词,更详细的分析://.cnblogs./eaglet/archive/2008/10/02/1303142.htmlmmseg的算法相对先进一些,更详细的解释:://.coreseek.cn/opensource/mmseg/这里只对比盘古默认的配置,因为默认中不打开一元分词已经满足需求,mmseg只对比maxword的配置,目标是多元分词的效率和效果。效率对比硬件配置:CPU i7 2.3GHz RAM 4GB盘古分词官方效
转载 2013-06-07 11:29:00
157阅读
2评论
原文出处:http://blog.chenlb.com/2009/04/use-chinese-segment-mmseg4j-in-lucene-demo.htmlmmseg4j 发布也有一段时间了,前些日子忙着发布新的版本,修正 bug 之类的。使用示例一直拖到现在,其实 svn 上的 test 有使用 lucene 例子。如果你了解 lucene ,就不用例子也可以很方便与它集成。mmseg4j 有几个 analyzer:SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer、MMSegAnalyzer。前面三个都是继承 MMSegAnalyzer,
转载 2012-07-09 22:47:00
185阅读
2评论
1、下载(链接:https://pan.baidu.com/s/1LizUFxzOy5hUtTY7hkPjKQ )并解压mmseg4j-1.9.1.zip
原创 2022-06-21 20:31:22
235阅读
利用mmSeg4j分词实现网页文本倾向性分析         最近一直在做网页情感倾向性分析的工作,找了一些论文,发现基于机器学习的算法在项目中不太合适,于是自己鼓捣了一套基于中文分词和正负面词库的分析算法。        原理很简单:  &nbsp
推荐 原创 2012-05-14 16:52:13
4423阅读
3评论
 分表和分区的区别: 一,什么是mysql   分表,分区  什么是分表,从表面意思上看呢,就是把一张表分成N多个小表,具体请看:mysql分表的3种方法 什么是分区,分区呢就是把一张表的数据分成N多个区块,这些区块可以在同一个磁盘上,也可以在不同的磁盘上; 二,mysql分表和分区有什么区别呢  1,实现方
转载 10月前
23阅读
这个本质上还是Lucene的analyzer chain,Solr的只是方便了使用:通过配置xml文件就可以把tokenizer和filter链接起来。我们有时候需要在自己代码里使用这个chain。本文记录怎么做。
原创 2016-04-07 09:15:42
1213阅读
在 lucene 中,我们是使用 IndexWriter 调用mse...
原创 2023-06-21 21:53:39
232阅读
默认Solr提供的分词组件对中文的支持是不友好的,比如:“VIM比作是编辑器之神”这个句子在索引的的时候,选择FieldType为”text_general”作为分词依据时,分词效果是:它把每一个词都分开了,可以想象如果一篇文章这样分词的搜索的体验效果非常差。能够和Solr集成的中文分词组件有很多,比如:mmseg4j、IkAnalyzer、ICTCLAS等等。各有各的特点。这篇文章讲述如何整合S
转载 2016-01-11 19:05:00
125阅读
2评论
权重衰退——最常见的处理过拟合的方法通过限制参数的选择范围来控制模型容量对于权重W和偏移b,让||W||² <= θ小的θ意味着更强的正则项通常不限制b,限不限制都差不多因为W越大,往往对噪声的放大就更大,所以我们需要适当限制W大小,达到控制噪音的目的,也就解决了过拟合问题。 但通常不直接用上面的式子,而是:      &
转载 2024-07-11 11:43:47
73阅读
# 从log4j迁移到slf4j的步骤及区别 在Java开发领域,日志框架是非常重要的一部分。log4j和slf4j都是常用的Java日志框架,他们之间的关系比较特殊。当我们想在项目中使用slf4j而已有的代码基于log4j时,我们可以使用log4j-over-slf4j来进行兼容,或者称之为迁移。下面将介绍log4j-over-slf4j和slf4j-log4j的区别以及如何进行日志框架的迁移
原创 2024-05-29 11:36:10
723阅读
在使用Kubernetes(K8S)进行开发时,日志记录是一个非常重要的组成部分。在Java项目中,经常会使用log4j和slf4j来进行日志记录。而在K8S中,我们需要将log4j和slf4j结合起来,以便能够在集群中更好地管理和监控日志。 下面我将向你介绍如何在K8S中实现"log4j-slf4j-impl slf4j-log4j12"这个过程。首先,我们来看看整个操作的流程: | 步骤
原创 2024-05-29 11:33:43
190阅读
# 日志框架slf4j+log4j实现详解 作为一名经验丰富的开发者,你一定知道,在开发过程中,良好的日志记录是非常重要的。而在Java开发领域,slf4j+log4j是一个被广泛使用的日志框架组合。本文将详细介绍如何使用slf4j+log4j来记录日志,并帮助新手快速上手。 ## slf4j+log4j整体架构 在使用slf4j+log4j之前,我们需要了解整个架构的组成部分。下表展示了s
原创 2024-04-26 10:12:02
108阅读
  • 1
  • 2
  • 3
  • 4
  • 5