5月15日;微软宣布了开源了部分必应搜索引擎的核心算法,能快速的将搜索结果反馈给用户。通过开放这项技术;微软希望开发人员能够利用这项技术为其他用户搜索大量数据的用户提供类似的体验。
普通的用户可能不清楚;其实我们在使用百度和其他搜索引擎,本质上是利用百度提供api接口去检索我们想要的数据,要知道在海量的数据中筛选出我们想要的数据是非常困难的,尤其是能做到毫秒级的响应。其背后的核心算法,是由一群数据科学家团队维护的。
今天开源的软件是微软开发的一个库,它可以更好地利用它收集的所有数据,为Bing 引擎构建的 AI 训练模型。该算法称为空间分区树和图(SPTAG),使用开源的 Python 库为核心;允许用户利用深度学习模型的智能来搜索数十亿条信息,可以实现毫秒级的“矢量”搜索;用于更快地向用户提供更相关的结果。
“矢量搜索”可以更好低理解用户意向,而不是根据关键字匹配。例如,如果用户输入“巴黎的塔楼有多高?” Bing可以返回一个自然语言结果,告诉用户 埃菲尔铁塔是 1,063 英尺,即使搜索查询中没有出现“埃菲尔”这个词,结果中也没有出现“高”这个词。
矢量化工作已经扩展到搜索引擎索引的超过1500亿条数据,从而改进了传统的关键字匹配。这些匹配包括单个单词,字符,网页代码段,和其他媒体图片。一旦用户搜索后,可以快速准确的提供搜索结果。