mmseg4j_51CTO博客

solr分词一:mmseg4j

刚接触Lucene2.x和Solr2.x的时候，谈到中文分词，会让我立即想到用庖丁中文分词，庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库，而且是纯文本格式，一行一词，使用后台线程检测词库的更新，自动编译更新过的词库到二进制版本而出名。几年过去了，Lucene和Solr...

Solr

solr

analyzer

中文分词

jar

转载

mob604756f06ed8

2015-05-29 10:57:00

217阅读

2评论

中文分词器 mmseg4j 收藏该软件我的收藏夹 /设置 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。2、MMSeg 算法有两种分词方法：S

java

jar

solr

字符串

原创

mb64216b23e45d0

2023-07-04 20:54:18

119阅读

solr 中文分词 mmseg4j 使用例子

原文出处：http://blog.chenlb.com/2009/04/solr-chinese-segment-mmseg4j-use-demo.htmlmmseg4j 第一个版本就可以方便地与 solr 集成，在google code上面有简单的说明，第一版的发布博客也有简单的使用说明：中文分词 mmseg4j。为了更清楚说明在 solr 中使用 mmseg4j 中文分词，还是写篇博客吧。目前有两个版本的 mmseg4j，1.7 版比较耗内存（一个词库目录就要 50M 左右），所以在默认jvm内存大小会抛出 OutOfMemoryErroy。我这里示例两个词库目录，所以不用目前最新版 1.

solr

xml

tomcat

analyzer

apache

转载

mb5fed43756edc3

2012-07-09 22:45:00

151阅读

2评论

solr 中文分词 mmseg4j 使用例子

« 中文分词 mmseg4j 的词

java

php

solr

中文分词

xml

原创

mb64216b23e45d0

2023-07-04 21:46:40

40阅读

Solr 整合中文分词器mmseg4j

Solr版本4.10.0 mmseg4j 2.2.0 1、为什么使用中文分词器如上图所示，输入“我是中国人”，结果是将每个字进行了分词。这个显然不是我们想要的结果。 2、使用中文分词器mmseg4j 在工程中增加 <dependency> <groupId>com.chenlb.mmseg4j</

solr

中文分词

analyzer

xml

jar

转载

mb5fdb133c76a49

2021-04-18 14:18:00

103阅读

2评论

Solr之——整合mmseg4j中文分词库

在上一篇博文《Solr之——整合Tomcat》中，我们介绍了Solr与Tomcat的整合方式，还没有阅读上一篇博文的朋友，请先阅读上一篇博文《Solr之——整合Tomcat》，本文是在上一篇博文的基础上整合mmseg4j中文分词词库的。下面我们一起来实现Solr与mmseg4j的整合。注：这篇博文中，我使用的是mmseg4j1.8.5。1、环境准备首先，下载mmseg4j1.8.5中文

Solr

原创

冰河技术

2015-11-19 22:07:57

187阅读

Solr之——整合mmseg4j中文分词库

在上一篇博文《Solr之——整合Tomcat》中，我们介绍

solr

mmseg4j

analyzer

lucene

原创

冰河技术

2022-04-22 14:36:56

74阅读

solr 中文分词 mmseg4j 使用例子 ,NGramTokenizerFactory

solr 中文分词 mmseg4j 使用例子版权信息: 可以任意转载, 转载时请务必以超链接形式标明文章原文出处, 即下面的声明.

solr

analyzer

xml

转载

wx5acf76b593c6d

2022-05-12 16:02:08

310阅读

Lucene分词组件盘古与mmseg4j评测

前言.Net 下分词组件选择不多，最近看到宝玉发布了改进版本的mmseg分词，正好跟使用已久的盘古分词做个对比。盘古是用自动机来实现分词，更详细的分析://.cnblogs./eaglet/archive/2008/10/02/1303142.htmlmmseg的算法相对先进一些，更详细的解释：://.coreseek.cn/opensource/mmseg/这里只对比盘古默认的配置，因为默认中不打开一元分词已经满足需求，mmseg只对比maxword的配置，目标是多元分词的效率和效果。效率对比硬件配置：CPU i7 2.3GHz RAM 4GB盘古分词官方效

lucene

盘古

分词

数据

hive

转载

mb5fe94b83e4685

2013-06-07 11:29:00

157阅读

2评论

中文分词 mmseg4j 在 lucene 中的使用示例

原文出处：http://blog.chenlb.com/2009/04/use-chinese-segment-mmseg4j-in-lucene-demo.htmlmmseg4j 发布也有一段时间了，前些日子忙着发布新的版本，修正 bug 之类的。使用示例一直拖到现在，其实 svn 上的 test 有使用 lucene 例子。如果你了解 lucene ，就不用例子也可以很方便与它集成。mmseg4j 有几个 analyzer：SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer、MMSegAnalyzer。前面三个都是继承 MMSegAnalyzer，

analyzer

lucene

apache

solr

svn

转载

mob604756f99da6

2012-07-09 22:47:00

185阅读

2评论

三、Solr与中文分词器Mmseg4j整合

1、下载（链接：https://pan.baidu.com/s/1LizUFxzOy5hUtTY7hkPjKQ ）并解压mmseg4j-1.9.1.zip

solr

analyzer

分词器

原创

mb62b19580f1ddc

2022-06-21 20:31:22

235阅读

利用mmSeg4j分词实现网页文本倾向性分析

利用mmSeg4j分词实现网页文本倾向性分析最近一直在做网页情感倾向性分析的工作，找了一些论文，发现基于机器学习的算法在项目中不太合适，于是自己鼓捣了一套基于中文分词和正负面词库的分析算法。原理很简单： &nbsp

网页

情感分析

倾向性分析

文本倾向性

文本情感

推荐原创

william_xu

2012-05-14 16:52:13

4423阅读

3评论

mysql使用第三方分词插件mmseg4j

分表和分区的区别：一，什么是mysql 分表，分区什么是分表，从表面意思上看呢，就是把一张表分成N多个小表，具体请看:mysql分表的3种方法什么是分区，分区呢就是把一张表的数据分成N多个区块，这些区块可以在同一个磁盘上，也可以在不同的磁盘上；二，mysql分表和分区有什么区别呢 1，实现方

分表

数据

数据库

转载

mob64ca1411a6fc

10月前

23阅读

不启动Solr，使用Solr的analyzer chain （使用mmseg4j分词）

这个本质上还是Lucene的analyzer chain，Solr的只是方便了使用：通过配置xml文件就可以把tokenizer和filter链接起来。我们有时候需要在自己代码里使用这个chain。本文记录怎么做。

groovy

lucene

solr

mmseg4j

原创

waynetree

2016-04-07 09:15:42

1213阅读

mmseg4j 中文分词器的一些简介整理

在 lucene 中，我们是使用 IndexWriter 调用mse...

lucene

分词器

中文分词

原创

wx624d558eede5f

2023-06-21 21:53:39

232阅读

全文检索引擎Solr系列——整合中文分词组件mmseg4j

默认Solr提供的分词组件对中文的支持是不友好的，比如：“VIM比作是编辑器之神”这个句子在索引的的时候，选择FieldType为”text_general”作为分词依据时，分词效果是：它把每一个词都分开了，可以想象如果一篇文章这样分词的搜索的体验效果非常差。能够和Solr集成的中文分词组件有很多，比如：mmseg4j、IkAnalyzer、ICTCLAS等等。各有各的特点。这篇文章讲述如何整合S

search

solr

jar

vim

analyzer

转载

mob604756eb4476

2016-01-11 19:05:00

125阅读

2评论

mmseg 权重

权重衰退——最常见的处理过拟合的方法通过限制参数的选择范围来控制模型容量对于权重W和偏移b，让||W||² <= θ小的θ意味着更强的正则项通常不限制b，限不限制都差不多因为W越大，往往对噪声的放大就更大，所以我们需要适当限制W大小，达到控制噪音的目的，也就解决了过拟合问题。但通常不直接用上面的式子，而是： &

mmseg 权重

权重

过拟合

lua

转载

mob64ca13f8eecb

2024-07-11 11:43:47

73阅读

log4j-over-slf4j slf4j-log4j区别

# 从log4j迁移到slf4j的步骤及区别在Java开发领域，日志框架是非常重要的一部分。log4j和slf4j都是常用的Java日志框架，他们之间的关系比较特殊。当我们想在项目中使用slf4j而已有的代码基于log4j时，我们可以使用log4j-over-slf4j来进行兼容，或者称之为迁移。下面将介绍log4j-over-slf4j和slf4j-log4j的区别以及如何进行日志框架的迁移

日志框架

Java

xml

原创

mob64e7380020a5

2024-05-29 11:36:10

723阅读

log4j-slf4j-impl slf4j-log4j12

在使用Kubernetes（K8S）进行开发时，日志记录是一个非常重要的组成部分。在Java项目中，经常会使用log4j和slf4j来进行日志记录。而在K8S中，我们需要将log4j和slf4j结合起来，以便能够在集群中更好地管理和监控日志。下面我将向你介绍如何在K8S中实现"log4j-slf4j-impl slf4j-log4j12"这个过程。首先，我们来看看整个操作的流程： | 步骤

应用程序

properties文件

日志输出

原创

大林123

2024-05-29 11:33:43

190阅读

slf4j+log4j

# 日志框架slf4j+log4j实现详解作为一名经验丰富的开发者，你一定知道，在开发过程中，良好的日志记录是非常重要的。而在Java开发领域，slf4j+log4j是一个被广泛使用的日志框架组合。本文将详细介绍如何使用slf4j+log4j来记录日志，并帮助新手快速上手。 ## slf4j+log4j整体架构在使用slf4j+log4j之前，我们需要了解整个架构的组成部分。下表展示了s

日志记录

记录日志

日志输出

原创

云丽周阿

2024-04-26 10:12:02

108阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

mmseg4j

solr分词一:mmseg4j

中文分词器 mmseg4j

solr 中文分词 mmseg4j 使用例子

solr 中文分词 mmseg4j 使用例子

Solr 整合中文分词器mmseg4j

Solr之——整合mmseg4j中文分词库

Solr之——整合mmseg4j中文分词库

solr 中文分词 mmseg4j 使用例子 ,NGramTokenizerFactory

Lucene分词组件盘古与mmseg4j评测

中文分词 mmseg4j 在 lucene 中的使用示例

三、Solr与中文分词器Mmseg4j整合

利用mmSeg4j分词实现网页文本倾向性分析

mysql使用第三方分词插件mmseg4j

不启动Solr，使用Solr的analyzer chain （使用mmseg4j分词）

mmseg4j 中文分词器的一些简介整理

全文检索引擎Solr系列——整合中文分词组件mmseg4j

mmseg 权重

log4j-over-slf4j slf4j-log4j区别

log4j-slf4j-impl slf4j-log4j12

slf4j+log4j

log4j-slf4j

log4j_slf4j log4j.properties

slf4j+log4j升级log4j2

【log4j】log4j

slf4j-api、slf4j-log4j12、log4j之间关系

log4J & Slf4j

log4j日志实现重复警告slf4j-log4j12和log4j-slf4j-impl

SLF4J: Detected both log4j-over-slf4j.jar AND bound slf4j-log4j12.jar on the

android log4j引用 log4j-to-slf4j.jar