探讨数据管理之前,我们需要对数据的本质做一个梳理,无论哪一个数据管理技术最终都要回归到数据的本质,解决数据本质问题这个基本点上来。同时石油的数据管理技术都要遵从于数据本质的约束。

1 、什么是数据?

什么是数据?在度娘上可以看到这样的解释“数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。”如果通俗地解释,数据就是对某个对象(事物)某个方面属性的描述。从这概念上讲,数据是通过特定的方式,如数据、文档、图形或者影像、声音等,说明一个对象的特性。

从概念上讲,数据的定义比较好理解,但是实际工作中一个数据的内涵不是简单的概念能够包含的,需要从很多基本概念上去认识和梳理。

2 、数据要素

按照上述概念,从数据本质上讲,数据一定是依附于某个对象(或者事物),离开某事物的数据是没有意义的。如15不能称之为数据,只能说是一个数字,因为它是孤立的,没有含义的,实际生活中,他有可能是指今天的天气温度,也有可能是大气中PM2.5含量,还有可能是指一个人的年龄,也有可能是指隔壁家那只可爱小狗的体重。

另外,数据一定是指某个对象某个方面的含义,前面说的隔壁家小狗不仅有体重,还有皮毛颜色,品种,还有年龄等,15斤只是表达这只小狗的体重,并且是体重一种表达方式。体重可以有很多种表达方式,如公斤就是7.5,英制就是16.5磅。

数据的记录是为了使用,在使用过程中还要考虑多种情况,如数据保密问题、数据使用范围、什么时候的数据(小狗15斤只是表示今天的体重,过去,将来肯定不是这个数据)、如何得到数据等等都需要在数据中体现,完整的描述一个数据,需要以下几个要素:

2.1 对象

对象(或者事物)是数据的主要要素,数据是依赖于对象存在的,没有对象的数据是没有意义的。

石油勘探开发中涉及到的对象类型很多,如地质对象(盆地、区带、圈闭、油气藏、含油层系等)、工程对象(井、管线、平台)、工作对象(项目、工区、区块)、管理对象(各级单位、组织等)、组合对象(如某井某层位)等等。

2.2 属性维度

一个对象有多个方面的属性(属性维度),每一个维度可以代表对象某个方面的属性,一个属性维度可以有多个属性值。

以井为例,可以有钻井、测井、录井、试油测试、生产等多个属性维度,每一个属性维度都表示井某个方面的属性特征。

对于石油数据而言,属性维度重点要记录石油专业业务信息,如业务过程、业务流程、专业、工作类型等。

2.3 数据表现形式维度

任何一个数据都是通过一定的表现形式呈现出来的,有些数据还可以根据应用需要有多种的呈现形式。数据的表现形式维度有格式、样式、图表、数据、量纲等多种属性。

如测井曲线可以是数据形式,以数据的形式还可以有不同的数据格式;也可以是图形形式,还可以是图像形式等。

2.4 数据产生维度信息

每一个数据都是在一个特定条件下产生的,具有这个特定条件的特殊含义。如上面说到的小狗的体重,是指当前的体重,并且是用体重计测量出来的,这个体重数据就和当前及体重计测量两个因素关联在一起。石油勘探开发数据产生因素更加复杂,需要记录很多因素。对后期的数据使用者来讲,数据的产生维度信息有时比数据本身更有意义和重要。

2.5 数据使用维度信息

数据产生的目的是为了应用,从应用角度,不同的数据都有特定的应用范围和目的,这方面的信息站在应用的角度看,可以理解为不同的应用需要特定的数据集和数据方式。

2.6 数据管理维度信息

数据都有一定的使用范围,特殊的数据还有保密要求,对数据产生、管理、应用、安全等方面进行控制的信息都可以归结到数据管理维度。

石油数据由于其特殊性,在管理方面要求很高,需要对各类管理信息完整记录。

2.7 数据使用评论信息

很多主观认识数据不同专家、不同角度对其认识不一样,在使用过程中可能会对数据进行多个角度的评论,如适用性、对错、缺陷等。这些信息对后续数据继续使用作用很大,也需要在数据中保存和管理。

上述七个维度是描述一个数据完整信息的内容,无论描述的方式和格式是什么,从一个数据的描述中要可以看到这七个方面的信息,否则这个数据的描述可能是缺失的。

3、 数据之间的关系

由于石油勘探开发业务的特殊性,我们研究的对象都是在地下不可见,所有的对地下对象的描述信息都是间接的。为了更加准确地描述地下地质体的特征,采用了多种技术和方式,这些不同技术方式产生的数据之间有很强的专业逻辑关系,如何描述和保留数据之间的专业逻辑关系在实际应用工作中非常重要。

数据之间的关系不能从数据本身之间去建立,所有的数据之间的关系都是来源于数据要素之间的关系,要建立数据之间的关系首先需要梳理数据七大要素之间的关系。

如圈闭和井属于不同的对象,圈闭的含油性是来自于圈闭里面井的含油性,两个含油性的数据关系产生是由于圈闭和井两个对象有包含关系,井是属于某个圈闭的,一个圈闭里面有某口井。

地质研究中经常组织一个大的项目组开展地质综合研究,这个项目组会产生很多研究成果,这些研究成果之间有些是基础研究,有些是在基础研究之上的综合研究,这些研究成果之间都属于一个产生的维度即一个项目的成果。

石油数据由于行业特殊性,数据量庞大,种类复杂,不同数据之间存在非常复杂的关系,实际应用中经常需要依据数据之间的关系去判断或者决策某件事情,如何梳理数据之间这些关系,如何在数据管理系统中去管理这些关系非常重要。

4 数据源头

在实际工作中经常一个数据在很多地方有存放,并且很多时候这些数据还不一样,这样就造成我们使用这些数据的困惑和错误。解决这个问题的唯一方式就是正确梳理数据源头,知道哪些数据是源头数据,哪些数据是引用数据。从理论上讲,任何一个数据产生的源头只有一个,如录井数据的源头是录井公司录井过程中产生的数据。有些数据从表面上看有多个源头,但是其本质还是有区别的,如果将数据的各种属性加上,每一个数据的源头还是唯一的,如层位划分数据,有录井现场层位划分数据、研究院层位划分数据、其他单位层位划分数据等,虽然这些层位划分数据都是描述一个地区层位划分界限的,但是每一个划分结果依据的数据基础、应用范围都是不一样的,从本质上他们不是属于同一个数据。

分析石油数据的本质是开展石油数据管理工作的基础,我们衡量一个数据管理协同是否好,唯一标准是看这个数据管理系统是否很好地管理了所有的数据要素,是否对数据的关键要素进行了科学的管理。