「回顾」金融知识图谱的应用与探索_java




「回顾」金融知识图谱的应用与探索_java_02


今天的分享分为以下几个部分,知识图谱的实现基础、理论基础和技术基础,还包括三个案例,跟金融都是相关的。


「回顾」金融知识图谱的应用与探索_java_03


首先讲的是实现基础,这个时间轴贯穿于知识图谱的前世今生,发展到今天大概50-60年,其中最早诞生的是语义网络。语义网络可以理解为,现存的词汇都是可以串联起来的,比如说“麻雀是鸟,朱鹮也是一种鸟,朱鹮又是国家一级保护动物,一级国家保护动物包括扬子鳄、大熊猫。大熊猫本身又是哺乳动物。”这样就可以对某一领域的知识甚至是全领域的知识,可以通过网络的方式进行链接,这样就构建了一个语义网络,它是对知识表示的奠基。


到了80年代,人工智能领域又把哲学中的本体论引入进来,刚才讲到的“麻雀”、“鸟”和“朱鹮”等等,需要标识哪些是主体,这样就引进了本体论。接下来互联网的诞生,从万维网诞生到超文本的链接,像维基百科,使得互联网把数据链接起来,出现了数据链接这样非常重要的跨越。


这样非常重要的三段历程,语义网络本体论,以及从文本链接到数据链接,成为构成知识网络的基础。Google在2012年推出了全世界第一款知识图谱的产品。


「回顾」金融知识图谱的应用与探索_java_04


google对于知识图谱有一个非常重要的定义,things not strings。过去人们通过搜索引擎获取大量信息,其中相当多是我们不想要的,当然也包括广告,甚至有一些噪音。比如搜索“贵州茅台”,实际上关注的是这只股票,希望在检索的时候更精准的告诉我们想要的,不要有太多臃肿的知识。Google在自己的知识图谱里就是这样去构建的。ppt右下角,在检索贵州茅台,会有一个简单的知识库的总结,包括实时股价,归属,总资产规模,包括子公司等等。更加精准定义我们想要的东西,展现字符串背后隐含的对象和事物。我们的目标就是洞察语义。


「回顾」金融知识图谱的应用与探索_java_05


简单回顾了历史,讲了一下知识图谱的实现基础,接下来回顾知识图谱的理论基础。知识图谱中很重要的一点就是知识,知识从何而来。过去知识的获取主要有三种方式。第一种是进化,更多的是人与自然的互,在相互驯化的过程中,适者生存,把最先进的知识传承下去。第二种是经验,经验是日常生活中司空见惯的方式,例如“一朝被蛇咬,十年怕井绳”,这就是一个典型的经验。第三种是文化传承,从古代的图腾到近现代的文字、书籍和影像资料等,更广泛的让我们获取知识和传承知识的方式。


「回顾」金融知识图谱的应用与探索_java_06


到了近现代,除了前三种方式之外,又有了计算机这种新的方式,计算机能帮我们获取知识、存储知识、传播知识、理解知识。理解知识就是广义上讲的机器学习,包括人工智能。


「回顾」金融知识图谱的应用与探索_java_07


在计算机去发现知识的方向,过去被广泛研究的主要是五种方式。第一种方式是填补现有知识的空白,比如填字游戏,根据字母的排列关系把答案填补上去。第二种方式是模仿大脑,例如现在比较火的神经网络,用机器去构建神经元。第三种方式是模拟进化,主要用在机器人的领域,让机器人通过自学习自迭代的方式去成长。第四种方式是系统性的减少不确定性,说白了就是统计学,ppt右上角是典型的贝叶斯定理。第五种方式是注意新旧知识之间的相似性,类似svm,精准的去找到一个二分类的方法。


「回顾」金融知识图谱的应用与探索_java_08


做一下总结,发现知识有五种方式,相对应的是五大学派。统计学就是贝叶斯学派,svm就是类推学派,模拟进化就是进化生物学学派,模仿大脑的就是联结学派,神经网络分支。填补现有知识空白是符号学派。其中的理论依据,还是根据基础学科去做借鉴,比如说统计学、心理学、生物学、脑科学和哲学,同样用到了很多算法,比如贝叶斯分类器,内推学派主要是svm内核机,进化学派主要是遗传编码,神经学派主要是反向传播,符号学派是逆向演绎。


对应的应用场景,统计学用在风险控制的场景,支持向量机用在推荐类的场景,生物学主要是机器人场景,神经网络用在深度学习,符号学派有很多专家系统的应用。


「回顾」金融知识图谱的应用与探索_java_09


关于五大学派,有一本书叫终极算法,不同的学派在某个领域去解决不同的问题,有没有一种终极算法把这五个合并在一起?可以参考下这本书。


「回顾」金融知识图谱的应用与探索_java_10


五个学派,模仿人的大脑,模仿人的心,模仿人的智。其实知识图谱关注的是人类的语言思考以及推理,如何通过机器的方式来实现,构成了知识图谱的理论基础。


「回顾」金融知识图谱的应用与探索_java_11


刚讲了理论基础,这里讲讲技术,这里用了 nlp的图片,知识图谱主要还是在自然语言处理的领域。


「回顾」金融知识图谱的应用与探索_java_12


这是我总结的知识图谱全栈,从底层到上层有四层。


最底层是理论层,理论层就是刚才提到的几个比较关键的点,比如说本体论、语义网络、语义超链接、数据链接以及知识库。


在数据层,举例的都是一些通用的数据源,比如说freebase,这个是google收购了,knowledge vault,这个是google开放的知识图谱库,包括维基数据,imagenet等,这些都是公开的,大家从网上能够查到。


实现层,大概分成六个步骤,分别是知识获取、知识抽取、知识融合、知识存储、知识推理、知识建模和知识发现,知识获取是获取外部数据的方式,包括爬虫和实时入库的技术方法;知识抽取就是,对三元组进行知识的抽取,包括实体抽取、关系抽取和属性的抽取;知识融合就是,抽取出来之后,存在很多的数据冗余和噪声,要去做实体的消歧,数据的整合;知识存储,刚才讲了,实际是要构建一个三元组RDF的数据结构,如果把所有的顶点和边构造出来之后,要对他进行图数据库的存储;知识推理,刚才也讲到了,如果要做一些深层次的知识问答,就要做很多的训练,无论有监督的还是半监督的;知识建模更多的是去理解语义,涉及到属性的映射,实体的连接;知识发现,两大主要的应用是知识的检索和知识的问答。这些构建了知识图谱的实现层。


再往上就是应用领域,大概分成两个方向,一个是通用领域,比如搜索引擎、机器人和物联网等等。在专业领域基本都是行业,例如交通、能源、金融,包括医疗健康。


「回顾」金融知识图谱的应用与探索_java_13


刚才讲的是技术的全栈,这里是解决方案构建的实现路径。首先就是知识的采集和获取。现在的数据无非两块,内部数据和外部数据。对于外部数据,入库后要做知识的抽取,主要是对三元组的抽取,实体关系和属性的抽取。对抽取的知识可以去构建一个简单的搜索引擎应用。把自然语言处理结合进来之后,就要对知识进行消岐和补全,如果有一些行业属性数据,要从这里去做补全。融合之后的数据,首先放在类似ES的存储里边,通过知识表示,一方面去构建搜索引擎,再一个就是结合知识推理,对知识问答类的应用去产品化,例如siri、微软小冰和小米音箱。在知识推理这块,更多的用到了符号学和类推学的算法去实现。对知识表示化后的数据进行深加工,去做关系抽取、属性映射、实体连接,可以把顶点和边全部结构化,存储在图数据库里。构建了自己的图数据库,可以为行业做一些专用的知识图谱,比如企业族谱、证券的智能投研和监管科技。


「回顾」金融知识图谱的应用与探索_java_14


刚才提到了知识图谱的一些数据源,这里也摘录了一些信息,比如freebase,Google的knowledge vault等。 


「回顾」金融知识图谱的应用与探索_java_15


刚才讲了知识图谱的构建步骤,对几个比较抽象的步骤做展开。第一个就是知识抽取,知识抽取就是自然语言理解和知识表示的结合。刚才提到了自然语言处理两个非常重要的步骤,第一个就是文本的预处理,涉及到数据的清理、降噪、数据的集成、数据的离散化;第二个步骤,就是做分词、做标注,更深入一点的是做语法的解析和依存度的解析,这个层面实现后做三元组的抽取。把关系、实体和属性抽取出来。再后边就是知识表示,实现关系、实体和属性之间的关联,构建三元组。


「回顾」金融知识图谱的应用与探索_java_16


刚才多次提到三元组,到底什么是三元组,一部分是一些概念、实体、语义、内容、属性。 我们对于语言的理解,主要还是通过主谓宾的方式去构建,主谓宾就是典型的一个三元组,把它应用到知识图谱就是RDF。RDF有非常多的构建方式,下面举了两种例子。一种是实体、关系、实体的方式,一种是实体、属性、属性值的方式。举个例子,某某法人京东,构建了一个非常简单的三元组,可以理解某某是京东的法人。


「回顾」金融知识图谱的应用与探索_java_17


举一个小的案例,这是我们帮一个券商做的企业族谱,如何把上市公司任职的高管关系全部遍历出来,从源数据库抽取三张表,分别是高管信息表、任职表、公司信息表。这样就可以把对应的高管字段、高管任职的字段以及所在的公司属性字段抽取出来,构建成高管任职关系的三元组。


「回顾」金融知识图谱的应用与探索_java_18


某某和所有有资金关联的公司,全部都在上面,有些是法人关系,有些是财务投资,有些是并购,有些是控股。


「回顾」金融知识图谱的应用与探索_java_19


这是我们帮券商做的应用,每个人都有自己的股票app,当我们去购买某一个个股的时候,个股对应的公司所在的行业,对应的关联公司,以及个股所在的板块,板块对应的上市公司个股,都可以构建为知识图谱通过app推送给客户。假设用户购买的是“苏宁云商”个股,可以看到行业属性里,会把“京东”个股关联进来,它们都属于互联网电商行业。“苏宁”物流这块就会跟顺丰关联起来。“苏宁”本身所处的板块有家电背景,会跟美的、格力关联,蓝色的是关联公司,橙色的是产品,绿色的是上游,棕色的是下游。 


「回顾」金融知识图谱的应用与探索_java_20


前面讲了知识抽取和知识表示,这里简单讲一下图数据库。最近两年图数据库非常火,像neo4j、Stellardb、GraphX、TITAN、OrientDB。图数据库是知识图谱非常重要的技术架构,对图数据库的存储、检索要求越来越高,希望更多去兼容sql语法。现在很难去构建多层属性,更多的去平铺,平铺开之后有个问题,点和边会非常的多,现在遇到一些案例,上百亿个点,上千亿条边。海量的数据,计算引擎怎么设计,比方说现在比较好的分布式计算架构是不是能更好的去优化,包括点边是否能实现增删改查,对图的遍历能否做到秒级返回,这是我们关注的一些点。


「回顾」金融知识图谱的应用与探索_java_21


这里对图数据库的存储结构做简单的展示,目前主流的图数据库是通过RDF的方式去构建,GraphX把顶点和边分别存储,属性和属性值和点边产生依赖。TITAN把顶点、边和属性全部拆分开去构建。Neo4j是RDF去构建,通过指针跳转的方式去连接,各有千秋。


「回顾」金融知识图谱的应用与探索_java_22


最后一部分讲下案例,今天来的很多讲师来自一线互联网公司,更多关注的是搜索引擎和知识问答这些方面,星环是专门做企业级市场的公司,更多关注的是企业级知识图谱。


「回顾」金融知识图谱的应用与探索_java_23


第一个例子是银行的案例,银行信贷里担保链的分析。用户检索出目前某一个授信企业客户目前的信贷状况,可以看到信贷的不良率、是否有违约以及逾期的状况,这是一个非常基础的信息报表的展示。当我们发现该企业有疑点的时候,就可以去检查它某一次的授信里面的关联关系。比如该次授信,企业的担保人是不是存在一些问题。右边的知识图谱中,红色是我们查阅的实体,实体与它产生的担保关系就可以全部遍历出来,和给该企业做担保的上级是否存在担保关系。这样全部都能遍历出来,在遍历出来的图谱可以看到企业是不是存在闭环,或者出现双向或者交叉的图形。在过去,人工的方式很难做到,尤其一些体量比较大的银行,企业的经营范围面向全国的时候。目前构建企业担保类的知识图谱非常快,遍历一个大企业能做到小时级。


「回顾」金融知识图谱的应用与探索_java_24


这是一个监管科技的应用,这是我们帮银监会去做的案例,在福建省银监做的银监眼的案例。福建省有七个地市,抓一些关键性的监控指标,比如存款指标、贷款指标以及不良率的指标、流动性指标 。这是一个应急看板,可以看到有一些关键性的数据,比方说不良率、地区的存款分布、房产贷款,横坐标是地市。


「回顾」金融知识图谱的应用与探索_java_25


检索是相对比较复杂的,有疑点提示,指标概览,当我们去关注某一个疑点的时候,可以做一些筛选,像资金流向、资金空转、失信被执行等监管科技比较关心的指标,当我们去筛选的时候,把有疑点的一些企业和客户抓取出来。


「回顾」金融知识图谱的应用与探索_java_26


深入点击进去之后,就可以对该企业形成关系图谱,或者叫对公客户的客户画像。比方跟该企业相关联的交易关系,可以通过知识图谱展示出来。空心就是实体,绿色就是跟企业产生交易的,全部都是有向图,箭头指向就是交易的流向。


「回顾」金融知识图谱的应用与探索_java_27


第三个案例是证券,帮券商去构建的投研平台,当去搜索个股的时候,除了个股F10的信息之外,还会有研报信息和新闻热点信息都可以在看板展示。在左下方,帮助个股构建了四类图谱,第一个是公司图谱,主要对企业内部,跟企业相关的高管、法人以及股东关系。


「回顾」金融知识图谱的应用与探索_java_28


产业链图谱,包括物流、家电、电商等。还有所处行业都会做展示。


「回顾」金融知识图谱的应用与探索_java_29


跟投资相关会比较关注热度,第一个就是情感分析,比如雪球指数、新浪、股吧。红色表示反向,蓝色表示中性,绿色表示正向。


右边是情感走势,可以看到个股在每一个互联网平台热度的变化。这样就是智能投研的知识图谱。配套PPT下载,请识别底部二维码关注社区公众号,后台回复星环科技


作者介绍:


张秋剑,星环科技金融事业部总监上海师范大学计算机科学技术硕士,资深大数据专家和金融行业技术专家。 现任星环科技金融事业部总监,大数据技术架构行业顾问专家,云析学院发起人, AICUG社区联合发起人,曾在IEEE等期刊发表多篇论文。目前主要为银行、证券和保 险等行业客户提供大数据平台及人工智能平台的整体规划和项目建设等工作。


——END——

社区介绍:


DataFun定位于最“实用”的数据科学社区,主要形式为线下的深度沙龙、线上的内容整理。希望将工业界专家在各自场景下的实践经验,通过DataFun的平台传播和扩散,对即将或已经开始相关尝试的同学有启发和借鉴。DataFun的愿景是:为大数据、人工智能从业者和爱好者打造一个分享、交流、学习、成长的平台,让数据科学领域的知识和经验更好的传播和落地产生价值。


DataFun社区成立至今,已经成功在全国范围内举办数十场线下技术沙龙,有超过一百五十位的业内专家参与分享,聚集了万余大数据、算法相关领域从业者。


「回顾」金融知识图谱的应用与探索_java_30