中文词向量相似度计算python 中文相似度匹配算法

转载

mob64ca13fe62db 2023-12-23 22:39:03

文章标签 中文词向量相似度计算python 算法 php 开发语言中文分词 文章分类 Python 后端开发

一种相似（中文）字符串匹配算法

前言
0x00 jieba分词
0x01 分词匹配rank打分
0x02 按rank排序得到top10
0x03 实测效果
0x04 后续思考

前言

php开发时遇到一个需求，做一个任务匹配算法，使大家在浏览任务时，能查看相似任务进行参考。初步考虑可以给任务加上tag，类似于微博的话题标签，通过tag来找到相似任务，但给过去的任务添加tag又是一个巨大的工作量。于是考虑使用分词匹配rank打分的方法，分词每匹配到一次则任务的rank+1，最后给所有任务按rank排序，找到匹配度最高的top10。

0x00 jieba分词

jieba分词是一个第三方分词库，支持python、java、go等多种语言，这里使用php版本，github项目地址：
https://github.com/fukuball/jieba-php 这里通过composer引入项目：
composer require fukuball/jieba-php:dev-master 而后项目里通过autoload引用：
require_once "/path/to/your/vendor/autoload.php";

具体用法详见github

使用时首先引入库

require_once '../../vendor/autoload.php';
use Fukuball\Jieba\Jieba;
use Fukuball\Jieba\Finalseg;

将目标任务分词，输入任务名string，输出分好的词array

//  任务名分词
    public function  divideName($taskName){
        ini_set('memory_limit', '1024M');
        Jieba::init();
        Finalseg::init();
        return Jieba::cut($taskName);
    }

0x01 分词匹配rank打分

遍历每一个分词，与其它任务匹配，匹配成功则该任务rank+1

$nameDivide = $this->divideName($thistask->name);
//      按分词搜索
        foreach ($nameDivide as $seg_name){
//		过滤无意义的单字
            if(mb_strlen($seg_name) > 1){
                foreach ($AllTask as $oneTask){
                    if(substr_count($oneTask->name,$seg_name))  $oneTask->rank += 1;
                }
            }
        }
//      不匹配本任务
        $AllTask[$taskID]->rank = -1;

0x02 按rank排序得到top10

//  按rank排序，rank相同按date排序
    public function sortAsRank($task1,$task2){
        if($task1->rank == $task2->rank)    return $task1->openedDate < $task2->openedDate;
        else return $task1->rank < $task2->rank;
    }

usort调用

usort($AllTask,array($this,'sortAsRank'));
    return array_slice($AllTask,0,10);

0x03 实测效果

匹配效果：

中文词向量相似度计算python 中文相似度匹配算法_中文词向量相似度计算python

匹配分词：人事、工作、考勤、统计

其中：“：”和“月”作为单字被过滤

匹配度相同则按日期排序

实测响应时间2s左右，更长的任务名匹配时间增长幅度较小，可以接受

中文词向量相似度计算python 中文相似度匹配算法_算法_02

0x04 后续思考

1、可以更改匹配的权重，比如匹配到更重要、更有价值、更有意义的分词加更多的rank。
2、算法优化，如何进一步优化时间复杂度？当前耗时主要在两层循环匹配，算法仅适用于较为简单的任务名匹配，更复杂的任务描述匹配相应时间超过5s。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：bios模式是传统可以安装ubuntu吗 bios可以升级uefi吗

下一篇：kubernetes 内部增加dns kubernetes dns解析

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯