一、什么是中文分词器       学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开。而中文则以字为单位,字又组成词,字和词再组成句子。所以对于英文,我们可以简单以空格判断某个字符串是否为一个单词,比如I love China,love 和 China很容易被程序区分开来;但中文“我爱中国”就不一样了,电脑不知道“中国”是一个词语还
测试用例是测试工作的核心。测试工作是讲究投入产出比的工作,这也是测试用例设计的指导思想。测试用例有度的概念,正如亚里士多德在《伦理学》中讨论道德为例:道德意味着过与不及之间的状态。面向测试用例,网上流传着这么一句话:“不同的机构会有不同的测试目的;相同的机构也可能有不同测试目的,可能是测试不同区域或是对同一区域的不同层次的测试”下面就列举测试用例设计的方方面面,看不同的团队,不同的测试目的,如何把
一、查看、创建索引创建一个名字为user索引:curl -X PUT 'localhost:9200/stu'{"acknowledged":true,"shards_acknowledged":true,"index":"stu"} {"acknowledged":true,"shards_acknowledged":true,"index":"stu"}二、查看索引:http://192.16
前言 我们知道微服务是一种理念,没有确切的定义和边界,好比设计原则,是属于抽象的概念。在定义不明确的情况下谈划分也是一种各说各话,具体问题需要具体分析,所以这篇文章谈到的划分也不是绝对标准,仅供参考。有人说微服不难,难的是服务的划分,虽然我持保留意见。但是从侧面也反应了划分具有一定的困难。这里的矛盾在于粒度。如果粒度太大了,分和不分似乎都差不多;如果粒度太小了,聚合、发布、调用链、调试等
                                 &n
转载 2024-06-13 18:49:35
47阅读
cws_evaluation 是一个Java开源项目,用于对Java中文分词分词效果进行评估。 cws_evaluation是通过对前文《word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词分词效果评估》中写的评估程序进行重构改进后形成的。 支持的分词器有:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcs
ES优化 开篇之作,由于时间紧张和能力有限,时间没来得及详细整理,望不要吐槽1.  【 ES分词 空闲的时候整理一波 】 相关性算分是指文档与查询语句间的相关度,英文为relevanceQ:  通过倒排索引可以获取与查询语句相匹配的文档列表,那么 如何将最符合用户查询需求的文档放在前列呢 ?A:  本质是一个排序问题,排序是依据是相关性算分。实例倒排索引单词
  什么是服务的颗粒度?一般的说法,服务颗粒度(service granularity)就是指一个服务包含的功能大小。举个例子,对于电信九七系统中的营业受理来说,提交客户订单就是一个典型的粗粒度的服务,而实现这个提交订单服务的一系列内部操作,比如说创建客户资料,生成客户订单,记录产品属性,更新帐务关系等等就可能成为一系列细粒度的服务。细粒度的服务(fine-grained)提供相对较小的功能单元,
转载 2024-08-19 14:41:19
68阅读
在数据管理与应用中,MySQL的“颗粒度”问题指的是在设计和实施数据库时数据细节与层级的控制力度。合理的颗粒度可以提高数据库的查询效率与灵活性,而不当的颗粒度选择则可能导致性能瓶颈和维护难度上升。因此,本文将详细记录解决MySQL颗粒度问题的过程。 ### 环境预检 为确保成功实施MySQL颗粒度方案,首先需要进行环境预检。以下是四象限图和兼容性分析,确保不同配置的兼容性。 ```merma
原创 6月前
58阅读
1.1什么是锁?在计算机科学中,锁(lock)或互斥(mutex)是一种同步机制,用于在有许多执行线程的环境中强制对资源的访问限制。锁旨在强制实施互斥排他、并发控制策略。锁通常需要硬件支持才能有效实施。这种支持通常采取一个或多个原子指令的形式,如"test-and-set", "fetch-and-add" or "compare-and-swap"”。这些指令允许单个进程测试锁是否空闲,如果空闲
转载 2023-09-07 21:25:10
192阅读
1.概述中文分词指的是将一段文本拆分为一系列单词的过程,这是中文信息处理的第一站,中文分词备受关注。中文分词大致分为以下两类:基于词典规则基于机器学习这里我们主要介绍词典分词 2.词典分词词典分词是最简单,最常见的分词算法,需要的材料为:一部词典一套查词典的规则简单来说,词典分词就是一个确定的查词与输出的规则系统。词典分词的重点不在于分词本身,而在于支撑词典的数据结构。 3.词典分类及加载互联网上
PBC架构颗粒度的描述 在开发复杂系统时,PBC(Process Based Component)架构的颗粒度问题经常会引起讨论。合理的颗粒度设计可以提高系统的可维护性、可扩展性和可重用性。本文将详细介绍如何解决这一问题,从背景描述、技术原理到性能优化和案例分析,全面解析PBC架构的颗粒度问题。 ```mermaid flowchart TD A[背景描述] --> B[技术原理]
原创 6月前
46阅读
# Redis分片颗粒度 ## 什么是Redis分片颗粒度? 在Redis中,分片是一种将数据分散存储在多个Redis实例中的方法,以提高性能和扩展性。在分片中,数据根据某种规则被分散到不同的节点中存储,从而形成一个整体的数据存储结构。而分片颗粒度则是指数据被分片的粒度大小,即将数据分片存储到多个节点的单位大小。 ## 为什么要关注Redis分片颗粒度? 正确选择和配置分片颗粒度对于Red
原创 2024-07-10 05:35:56
21阅读
最近经常与人探讨服务颗粒度的问题,大家总是觉得这个问题难以捉摸,各种各样的方法论、模型让人困惑。那么从S++的方法来看,服务的颗粒度是怎么确定的呢?让我们先从服务治理开始,从几个典型的例子来看如何梳理服务。服务治理的目标是建立理想的业务模型,其方法就是通过理解业务、划分业务、定义业务最终完成业务模型的建立。在治理之前,你可以对业务有所了解,也可以完全不懂,但治理之后你一定是个业务专家。S++治理的
事情是这样的,最近实验室在搞一个Java Web的项目,用的Spring MVC的框架。项目组有很多没做过Spring的学弟学妹,为了提高效率,我让大家自己先抛开Spring来写自己负责的模块,我来把各个模块在Spring里集成。 项目里有一个文本分析的模块是一个学妹负责的,里面用到了HanLP,我在集成的时候直接用maven添加的依赖,等集成好了测试的时候发现怎么也测不过,问了学妹才发现为了做实
 InnoDB支持行级锁和表级锁(默认行级锁),支持事务,外部键等;大量的insert和update更快等。只有通过索引条件检索数据,InnoDB 才使用行级锁,否则,InnoDB 将使用表锁。MyISAM是表级锁,不支持事务,大量的SELECT查询更快等BDB引擎支持页级锁和表级锁(默认页级锁) 行级锁行级锁是 MySQL 中锁定粒度最细的一种锁,表示只针对当前操作的行进行加
转载 2024-06-05 19:09:04
48阅读
通过调用方式示例,我们可以发现悲观锁基本都是在显式的锁定之后再操作同步资源,而乐观锁则直接去操作同步资源。那么,为何乐观锁能够做到不锁定同步资源也可以正确的实现线程同步呢?我们通过介绍乐观锁的主要实现方式 “CAS” 的技术原理来为大家解惑。CAS全称 Compare And Swap(比较与交换),是一种无锁算法。在不使用锁(没有线程被阻塞)的情况下实现多线程之间的变量同步。java.util.
前面我们学习了微服务的全景架构,了解到相对于传统单体架构,微服务的优势,以及系统服务化的发展趋势。对于新启动的项目,我们在权衡之后可以大方的使用微服务架构。但其实大部分情况下,我们还要去维护一些以前研发的单体系统,这些系统可能因为访问流量的膨胀、功能的扩张而显得非常臃肿不堪,急需要向微服务架构迁移。1 微服务迁移准备1、需对业务充分了解,这是服务拆分,通信设计,资源整合的必要前提。2、适应微服务架
微服务的粒度  我们如何在服务化系统或者微服务架构中,做合理的拆分服务,服务拆分到什么粒度才算合适?  依照微服务的初衷,服务要按照业务的功能进行拆分,直到每个服务的功能和职责单一,甚至不可再拆分为止,以至于每个服务都能独立部署,扩容和缩容方便,能够有效地提高利用率。拆得越细,服务的耦合度越小,内聚性越好,越适合敏捷发布和上线。  然而,拆得太细会导致系统的服务数量较多,相互依赖的关系较复杂,更重
在进行数据库应用开发时,许多开发者和DBA会遇到“SQL Server 锁颗粒度”的问题。锁颗粒度是指在事务处理过程中,数据库为保护数据完整性而施加的锁的范围。锁的颗粒度越细,锁定的数据就越少,但带来的开销也相对较大;反之,锁颗粒度越粗,锁定的数据就越多,但带来的开销较小。 $$ \text{锁颗粒度} = \frac{\text{锁定数据的数量}}{\text{事务并发度}} $$ 这个公式
原创 5月前
26阅读
  • 1
  • 2
  • 3
  • 4
  • 5