context
大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。因此,通过大数据分析,政府、机构和企业可以掌握自身甚至一个领域、地区的规律。
以电商交易为例,用户的所有消费、购买、交易等行为在这个平台上有所有数据的记录。 除了出售产生的实际价值外,数据能提供的内在价值更为巨大,其内容完全可以创造出新的产品。例如,客户特性、购买力、购买内容等可以用来进行客户群体细分,然后为每个群体量定制特别的服务。客户购买背后的原料需求、运输等可以模拟现实环境,发掘新的需求同
时提高投资的回报率。最后,一个地区用户的购买需求、用户使用共享交通工具或打车产生的轨迹等,都能说明该地区的经济特征,便于企业降低服务成本,发现隐藏线索进行产品和服务的创新,提高整条管理链条和产业链条的效率。通过大数据分析,近几年,互联网公司已经能够对全国各领域的市场,给出最有说服力的统计报告了。
实际场景中,企业使用数据遇到的问题
大数据带来价值也就是让大数据能够变现,提高生产效率、进行智能化数据分析和决策建议、挖掘数据交易背后的规律。然而,在大数据应用时,有了海量的数据,却无法充分让大数据带来应有的价值。机构和企业往往会遇到以下问题:
- 数据源、管理系统和数据平台种类繁多:
当前使用的开源数据平台种类就有十余个,主要有 Hive,Kylin,Hbase 等。数据库语言也有 SQL,Oracle 等。接口格式有 json,pdf, xml 等。这些存储形式之间往往难以统一调用,也就影响了数据的共享使用。 - 数据使用普及问题:
大数据利用的难点在于,大数据是无法用现有的软件工具提取、存 储、搜索、共享、分析和处理的海量的、复杂的数据集合,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些庞大数据进行专业化处理、分析和挖掘。然而,这种工具专业化、处理过程专业化、必须依靠云计算技术来实现挖掘和整理的特质,使得很多数据需求方难以接触和使用大数据分析。另外,这也导致了业务人员难以直接使用数据,增加了和IT人员之间需要协调的不便。 - 数据来源和质量问题:
大数据的数据来源众多一般来说,除了开源数据之外,不同的机构、公司,公司的部门之间都有各自的内部数据,还需要用到外源数据、爬虫得到的数据等。有很多数据并非数据产生和储存方直接授权的数据,而是二手、三手的数据,往往出现多个数据来源之间无法比对可靠性的问题,数据质量难以得到保障。另外,现今的数据来源众多,是因为缺乏可以进行数据共享的平台。要获取别的机构、企业的数据,往往通过数据买卖进 行。而数据买方、卖方的分散,也就导致了各方难以共享自身数据,也难以获得别人的数据。 - 数据共享时的安全性问题:
共享数据时在共享数据的过程中,数据拥有方面临数据倒卖、损坏的风险。而且,考虑到数据安全,如果没有安全的数据调用方式,由于容易泄露机密信息、用户隐私等,企业不会轻易泄露自己的数据、建模方法和分析过程。目前,全国有 20 多家数据交易平台,涵盖身份验证、电商数据、各领域信用记录等,然而首先优质的数据源,如政府数据、巨头公司、银行、运营商等数据源较为封闭,很难通过一般方式,实现用户资源共享。未实现共享的原因主要是数据安全性方面的考虑。
以上这些问题往往导致许多机构、企业积累了大量的原始数据,却往往存在有了海量的数据,却无法充分让大数据带来应有的价值的情况。 在此背景下,创造了支持多种数据源共享、数据来源可追溯、数据与平台相互分 离的大数据融合平台。该平台主要致力于:多方的数据共享。以及通过为客户提供企业级大数据平台服务,帮助企业从传统应用向大数据应用转型,借力大数据优势深化自身的业务价值体系。
如何解决这4个问题、产品的功能
从数据集到数据产品展示一体化
从数据层面到可供用户浏览的终端层面,一般需要 6 步技术处理,展示如下。其中,数据源和数据平台作为广为应用的技术,由技术人员掌控和管理。本产品的核心节点为之后四步。
本平台对现有关键技术进行封装,从而实现通过已有的数据源及数据接口,即可在本平台上创建数据集、进行数据管理、一体化地发布为可对外展示的数据共享接口。改变了需要多种分散的应用和工具才能完成以上步骤的现状。
什么是数据集?
数据集是将需要用到的内容,如某些特定表中的某些特定字段抽出后构建的,方便用于查询、调用等。可以视为将多个数据源中所需要的信息聚合后所产生的集合。
融合平台支持将多种数据源定义为数据集,在定义数据源的时候,可以选择数据库中特定的表以及需要用到的字段。如选择“手机号”做查询码,“地区”为返回字段,就是一个手机号归属地查询。表中其他的信息,如用户名、身份证号等,都可以不包含在数据集里。
在融合平台上创建数据集的步骤:定义数据源,获取数据库,获取表,选择组合字段,构建数据集,形成数据集列表。
数据平台融合
一般来说,为了满足数据分析的要求,机构或企业要获取多方面的数据源。
以贷款方对企业进行企业信用风险监测为例,贷前需要工商官方数据源校验企业基本信息,法院判决、上司公司财务报表、企业关系图谱、行业上下游图谱判评估贷款企业风险,贷中需要实时获 得负面信息、行业风评状况等判断该企业面临的风险,贷后要把整个贷款过程产生的数据、违约情况等和多维度的数据进行分析,并完善企业风险报告,判断企业风险趋势、行业风险趋势。
这些数据既包括外部数据接口,也包括内部的各种数据平台、数据仓库存储的数据,还 有通过爬虫存储在本地服务器的数据。通常,这些内部、外部数据因为现有的数据源、管理系统和数据平台种类繁多,内外数据调用方式不同,而缺乏统一管理和融合的手段。
本融合平台的一大特点是,不仅支持内部数据源的多种数据库、数据平台与其对接,还支持外部接口的直接连接调用。便于各种数据统一管理和统一调用,易于运维和业务、产品部门等探明所有的数据类型和字段。
数据接口上线实现资源共享和变现
在接口上线前,数据需要完成调用、字段选取、形成数据集等复杂的过程,而数据接口上线是形成技术黑箱的最后一步。在接口上线后,用户就可以不再重复接口建立和调用中复杂的技术过程,而是一步到位地通过数据融合平台提供的地址和调用方式,便捷调用通过数 据集选取出的字段。与此同时,数据接口上线后,可以直接进行数据接口管理,内部数据通过数据集市对外提供数据接口,外界可以直接通过融合平台调用数据。还可以设置调用的次数和收费金额,实现资源共享和数据变现。
保障安全性
数据库中需要保护的数据需要保证其独立性。将数据和大数据平台隔离,数据从接口输出,从而有效地降低了数据库向外调用时遭到入侵的风险。 除了接口本身的安全性外,我们还可以通过设置访问权限、数据实时监控、安全管理,保障数据分享时的安全性。与此同时,在大数据融合平台上产生的所有操作痕迹会全程通过日志记录,方便归则到人、防止数据盗用。对于涉及隐私或机密的信息,通过本融合平台提供的合作库建模服务,以标签或评分、验证结论等方式提供服务,防止调用过程中加密信息外泄。
可以基于key和ip进行限制,key其实就是账号的概念
数据集
数据在存储的时候,除了可能用到多种数据库,还存在每个数据库内有多张表、每个表中有多种字段的情况。
这样的架构是在系统最初设计的时候根据提高效率、方便工作进行的 原则来设计的,但是表的层次越多,多字段查取、调用的效率相应也会越为降低。
为了方便数据查询调用,我们需要把关系存储转换为数据集。