农业大数据平台建设项目
建议方案
***
2019年10月
目 录
1 概述 1
1.1 相关政策 1
1.2 农业大数据 1
1.3 农业大数据平台 3
2 建设的可行性及需要解决的关键技术 5
2.1 建设的可行性 5
2.2 需解决的关键技术问题 5
2.2.1 数据存储 5
2.2.2 数据分析 6
2.2.3 数据显示 6
2.2.4 数据安全 6
2.3 大数据落地面临的问题 6
3 系统设计 8
3.1 整体架构 8
3.2 数据来源 10
4 建设内容 12
4.1 农业大数据标准体系 12
4.2 农业监测数据库 12
4.3 农业大数据平台 12
4.3.1 平台功能 12
4.3.2 平台目标 13
4.4 建设的基本原则 13
5 技术解决方案 15
5.1 遥感技术 15
5.1.1 植物的光谱特征 15
5.1.2 气象卫星用于农业遥感 16
5.1.3 高光谱农业遥感 17
5.1.4 农业微波遥感 18
5.2 北斗应用新技术 18
5.2.1 自主系统、信息安全 18
5.2.2 北斗高精确定位 19
5.2.3 短报文通信 19
5.2.4 精密授时 19
5.3 大数据技术 19
5.3.1 大数据处理过程 20
5.3.2 大数据处理的核心技术—Hadoop 21
6 遥感监测数据库的建立 25
6.1 数据加工处理与建库 25
6.2 遥感数据来源 25
6.2.1 农作物长势监测 25
6.2.2 农作物面积监测 27
6.2.3 病虫害监测 29
6.2.4 灾情监测 31
6.2.5 受灾评估 32
6.2.6 农作物估产 33
7 硬件支撑 38
7.1 数据采集系统 38
7.2 数据存储系统 39
7.3 数据分析/挖掘系统 40
7.4 网络与网络安全设备 41
8 项目实施说明 42
8.1 项目启动阶段 42
8.2 需求调研确认阶段 43
8.3 系统功能确认实施阶段 44
8.4 基础地理信息数据预处理阶段 44
8.5 基础地理信息数据整理入库阶段 45
8.6 数据与系统集成初装阶段 45
8.7 项目培训阶段 45
8.8 系统安装测试及试运行阶段 46
8.9 项目总体验收阶段 47
8.10 项目成果交接阶段 47
9 项目建议 48
10 资金计划 49
概述
相关政策
***农业厅认真贯彻落实国务院“互联网+”行动、促进大数据发展行动纲要精神,按照“关于加快转变农业发展方式的意见”要求,依照《***大数据与云计算产业示范工程实施方案》的规划,以农业信息互联互通为目标,以“陕西农业网”为平台,以数据库建设为重点,遵循现行统计基本方法,建立监测科学、分析准确、体系完整的农业监测分析系统,实现农业统计分析的规范化、制度化。拟定基于“农业信息监测分析”、“农业电子商务”、“农业科技推广”、“农业执法管理”、“农产品质量安全”、“农村土地确权”、“农业信息服务”为主要内容的***农业大数据建设方案。
为了不断推进农业经济的优化,实现可持续的产业发展和区域产业结构优化,进一步推动智慧农业的建设进程,需要全面及时掌握农业的发展动态,这需要依托农业大数据及相关大数据分析处理技术,建设农业监测分析大数据平台来支撑。在技术上,该平台应充分运用先进数据管理技术和数据仓库技术,建设具有高效性,先进性,开放性的商务智能项目。结构上,该平台应具有良好的可配置性,满足资源、业务流程的变化。同时随着业务的发展,业务量的增加,系统也应该具有良好的应用及性能的扩展。
农业大数据
大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。
农业大数据是融合了农业地域性、季节性、多样性、周期性等自身特征后产生的来源广泛、类型多样、结构复杂、具有潜在价值,并难以应用通常方法处理和分析的数据集合。它保留了大数据自身具有的规模巨大(volume)、类型多样(variety)、价值密度低(value)、处理速度快(velocity)、精确度高(veracity)和复杂度高(complexity)等基本特征,并使农业内部的信息流得到了延展和深化。农业大数据是大数据理念、技术和方法在农业的实践。农业大数据涉及到耕地、播种、施肥、杀虫、收割、存储、育种等各环节,是跨行业、跨专业、跨业务的数据分析与挖掘,以及数据可视化。农业大数据由结构化数据和非结构化构成,随着农业的发展建设和物联网的应用,非结构化数据呈现出快速增长的势头,其数量将大大超过结构化数据。
农业大数据是生产到流通的农业信息集合,能为政府及涉农部门提供数据共享和产业指导,帮助农户进行生产管理及政农信息互通,为消费端提供原产地信息及认证溯源。
(1) 从领域来看,以农业领域为核心(涵盖种植业、林业、畜牧业等子行业),逐步拓展到相关上下游产业(饲料生产,化肥生产,农机生产,屠宰业,肉类加工业等),并整合宏观经济背景的数据,包括统计数据、进出口数据、价格数据、生产数据、乃至气象数据等。
(2)从专业性来看,应分步实施,首先是构建农业领域的专业数据资源,其次应逐步有序规划专业的子领域数据资源,例如针对畜品种的生猪、肉鸡、蛋鸡、肉牛、奶牛、肉羊等专业监测数据。
(3)从地域来看,以国内区域数据为核心,借鉴国际农业数据作为有效参考;不仅包括全国层面数据,还应涵盖省市数据,甚至地市级数据,为精准区域研究提供基础。
(4)从粒度来看,不仅应包括统计数据,还包括涉农经济主体的基本信息、投资信息、股东信息、专利信息、进出口信息、招聘信息、媒体信息、GIS坐标信息等。
商业化农业生产十分复杂,涉及生物学、气象和人类活动。近年,种植者迅速采用新的精准农业技术。利用北斗/GPS和其他技术,生产者可以精确地追踪不同田地的产出,操纵和控制设备,监测田地状况,管理投入品,大幅提高生产率和利润。同时,数据迅速累积,变得数量庞大且错综复杂,只能使用计算机软件进行分析。数据本身无法创造见解,需要通过分析和咨询服务来帮助农民洞悉数据。以机器学习为核心的软件应用在与数据、设备和人类互动时变得越来越智能化和定制化。通过学习,它们能提供以前没有开发过的机遇,帮助我们在农事方面做出更明智的决策。
农业大数据平台
农业大数据平台是将遥感、地理信息系统、全球定位系统、计算机、自动化、通信和网络等技术与地理学、农业、生态学、植物生理学、土壤学等基础学科紧密地结合起来,形成一个包括对农作物、土地、土壤从宏观与微观的监测,农作物生长发育状况及其环境要素的现状进行定期的信息获取以及动态分析和诊断预测,耕作措施和管理方案在内的信息系统。将传统的农业生产管理提高到一个以快速调查和监测、适时诊断和分析、高效决策和管理为标志的全新的与信息时代相适应的现代化农业的新阶段。
农业大数据平台是以粮、畜、果、菜、茶五大产业为重点,对生产、加工、储运、销售全程产业链进行监测,并开发农业信息监测分析与预警模型,形成大数据统计分析与专家会商相结合的农业监测预警长效机制,为行政决策、精准指导等提供实时决策信息。
农业大数据平台是结合省级、地市级和县级农业管理单位在农业管理、农村管理等方面的需求,设计的集信息采集、发布、处理、存储、开发应用为一体的综合应用系统,为农业决策部门、管理部门、行业协会、普通农户和有关机构提供农业资源管理与决策支持手段,为社会提供全方位的农业信息服务,从整体上提高农业工作的科学化、规范化水平。
遥感技术可以客观、准确、及时地提供作物生态环境和作物生长的各种信息,它是精确农业获得田间数据的重要来源。在不同资源条件对发展农业生产的适宜性之间常常出现互不一致的矛盾,采用遥感技术可把各项资源条件的不尽一致的适宜性进行空间分析,便于集中反映出各因素适宜性的空间组台,从而因地制宜地为指导农业生产提供科学依据,提高资源可持续利用的效率。农业结构调整中,农业区划必须根据客观规律,特别是地域分异规律的要求,阐明自然条件(地貌、土壤、气候、植被、动物、水文、地质等)发生、发展和分布的规律;阐明社会经济条件(人口、劳动力、技术、收入分配、地理位置等)发展、变化和分布规律,查明和评价这些农业生产条件中的资源数量、质量和空间分布对农业生产的影响,研究根据地域生产综合体内的相似性及其潜力如何开发、利用、保护,提出发展方向、合理结构、决策性指标和战略性措施,从而为农业规划提供科学依据和论证。分区划片和形成合理的农业生产结构和布局更需要强大的空间分析技术和稳定的空间数据信息来支持。
建设的可行性及需要解决的关键技术
建设的可行性
(1)基础设施已具备
随着我国信息化建设的推进,互联网基础设施的建设取得了明显成果,许多领域都已处于世界先进水平,甚至超越了发达经济体。互联网基础设施直接决定着经济活动的效率和经济效益,同时也影响着每个经济体的投资环境。互联网基础设施的改善会带来经济与社会发展的良性循环,帮助摆脱贫困,加快工业化进程,吸收利用外国资本,融入区域产业链和供应链体系,获得宝贵的发展机遇,进而通过发展解决矛盾和问题。
(2)基础数据库已逐渐完善
目前,国土部门已完成并形成的相关数据库有:土地利用现状、土地利用更新调查、基本农田划定、农用地分等、耕地质量评价、耕地后备资源调查、土地整治规划。农业部门已完成并形成的相关数据库有:测土配方、土壤质量评价(耕地质量评价)、土地承包经营权确权,种、养殖、水产相关资料。气象部门:气象观测数据库。水利部门:水文、干旱、灌溉,水利工程资料,水利普查数据库。
(3)数据处理技术已逐渐形成
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。
解决大数据问题的核心是大数据技术。
主要可分为:数据采集,数据存取,基础架构,数据处理,统计分析,数据
挖掘,模型预测,结果呈现等 8 种技术。
大数据技术主要形成了批处理、流处理和交互分析三种计算模式:
离线批处理( Batch Processing)技术以MapReduce和Hadoop系统为代表。
实时流处理( Stream Processing)技术以Yahoo的S4系统和Twitter的Storm 系统为代表。
交互式分析( Interactive Analysis)技术以谷歌的Dremel系统为代表。
需解决的关键技术问题
数据存储
大数据发展面临的问题是来自不同地方、不同标准、数据量大、多种结构形式、实时性等多样化要求的数据信息。这些问题无疑增加了数据采集和整合的困难,故此应修改基于块和文件的存储系统的架构设计,以克服存在的问题。
数据分析
数据分析是大数据处理流程的核心,因为大数据的价值就产生于分析的过程,
10 但是它同样带来了很大的挑战。首先,数据量大带来更大价值的同时也带来了更 多的数据噪音,在进行数据清洗等预处理工作时必须更加谨慎,若清洗的粒度过 细,很容易将有用的信息过滤掉,而清洗的粒度过粗,又无法达到理想的清洗效 果,因此在质与量之间需要进行仔细的考量和权衡,同时也对机器硬件和算法都 是严峻的考验。其次,传统的数据仓库系统对处理时间的要求并不高,而在很多
数据显示
与数据分析相比,很多用户往往更关心数据结果的显示。传统的以文本形式输出结果或者直接在电脑终端上显示结果的方法在面对小数据量或许是很好的选择,但是对于形式复杂的海量数据是不可行的。这就需要引入可视化技术来可视化最终甚至是中间的计算结果,此外,还需要人机交互技术或者数据起源技术,使得用户在得到结果的同时更好的理解结果的由来。
数据安全
数据的持续增长带来了数据的安全问题。首先,大数据因为目标大而在网络上更容易被发现;其次,大数据存在更敏感更有价值的数据,对潜在攻击者的吸引力更大。近两年来,有些互联网公司用户信息泄露的数据量非常庞大,在2012年6月,据挪威IT网站Dagens IT 报道,约有 650 万职业社交网站 LinkedIn 用户的账户的明文和加密密码被泄露;在2012年7月,据美国有线电视新闻网 (CNN)报道,雅虎网络遭遇黑客攻击,45万个用户账号信息遭到泄露雅虎遭到网络攻击。此外,个人信息的曝露,也会造成个人安全的问题。
大数据落地面临的问题
应该说,全球来看,对大数据认识、研究和应用还都处于初期阶段。特别是对我国来说,大数据真正落地,还需要迈过三道坎。
第一,数据是否足够丰富和开放?丰富的数据源是大数据产业发展的前提。而我国数字化的数据资源总量远远低于美欧,每年新增数据量仅为美国的 7%, 欧洲的12%,其中政府和制造业的数据资源积累远远落后于国外。就已有有限的 数据资源来说,还存在标准化、准确性、完整性低,利用价值不高的情况,这大 大降低了数据的价值。
同时,我国政府、企业和行业信息化系统建设往往缺少统一规划和科学论证,系统之间缺乏统一的标准,形成了众多“信息孤岛”,而且受行政垄断和商业利 益所限,数据开放程度较低,以邻为壑、共享难,这给数据利用造成极大障碍。 制约我国数据资源开放和共享的一个重要因素是政策法规不完善,大数据挖掘缺 乏相应的立法,无法既保证共享又防止滥用,一方面欠缺推动政府和公共数据的 政策,另一方面数据保护和隐私保护方面的制度不完善抑制了开放的积极性。因此,建立一个良性发展的数据共享生态系统,是我国大数据发展需要迈过去的第一道砍。
第二,是否掌握强大的数据分析工具?要以低成本和可扩展的方式处理大数据,这就需要对整个 IT 架构进行重构,开发先进的软件平台和算法。这方面, 国外又一次走在我们前面。特别是近年来以开源模式发展起来的 Hadoop 等大数 据处理软件平台,及其相关产业已经在美国初步形成。
而我国数据处理技术基础薄弱,总体上以跟随为主,难以满足大数据大规模应用的需求。如果把大数据比作石油,那数据分析工具就是勘探、钻井、提炼、加工的技术。我国必须掌握大数据关键技术,才能将资源转化为价值。应该说,要迈过这道坎,开源技术为我们提供了很好的基础。
第三,管理理念和运作方式能否适配数据化决策?大数据开发的根本目的是以数据分析为基础,帮助人们做出更明智的决策,优化企业和社会运转。哈佛商业评论说,大数据本质上是“一场管理革命”。大数据时代的决策不能仅凭经验, 而真正要“拿数据说话”。因此,大数据能够真正发挥作用,深层次看,还要改善我们的管理模式,需要管理方式和架构的与大数据技术工具相适配。这或许是我们最难迈过的一道坎了。
系统设计
整体架构
农业大数据平台整体架构为5个层次,即用户层、应用层、传输层、感知层和对象层。其各层的功能、构成和逻辑关系如下图所示。
1.用户层。农业大数据平台用户不仅包括农业生产者,也包括系统管理员、远程专家、物流运输者、农产品加工者、经销零售商、终端消费者等各个环节使用者,各环节用户使用的技术类别和实现的技术功能有所差异。
2.应用层。应用层主要包括三个部分:一是终端设备;二是由各模块集成的管理信息系统;三是云端中心。其中,终端设备主要指农业各级用户使用的各类网络计算机、智能手机、其他手持终端以及其他身份识别标签读取设备。集成管理信息系统主要包括环境感知、无损感知、过程感知、灾害感知、专家咨询、安全溯源、视频监控及专家系统等功能模块。云端中心主要指提供云计算、云存储、云服务和云应用的云端中心。
3.传输层。传输层主要指网络传输层,具有两种主要网络传输类型:一是无线网络传输。包括无线传感网络(如 Zigbee、WiFi、6LoWPAN、Bluetooth、3G、GPRS等无线网络传输技术)和卫星通信网络(如遥感技术、北斗短报文技术);二是有线网络传输:包括有线广域网(WAN)、局域网(LAN)和个域网(PAN)等网络传输技术。具体传输过程主要是由传感器件、遥感设备和身份识别技术标签等获取感知监测对象的各种数据信息,传入无线传输网络,并通过网关传入有线网络,由有线网络传入云端中心进行加工和存储等。
4.感知层。感知层是利用卫星遥感技术、射频识别、二维码、传感器件、北斗等技术实现对农业生产监测对象实施感知和监控的环节。遥感技术可以用来对土地资源的营养状况、墒情、作物长势等信息进行实时感知监测。北斗技术可以对地面各类农作物进行地面位置调查。射频识别和二维码技术可以将标识物的信息通过读卡器传入无线传输网络。传感器件(如温、湿、光、PH 值、光谱等传感监测仪器)通过对农业生产监测对象所处环境或其自身进行实时信息监测,以便于进行预警或施加影响,以适应其生长需要。
5.对象层。对象层是指农业大数据平台的作用对象,不同农业产业其具体作用对象不同。一般根据农业产业大类可以将作用对象分为4种:设施农业、水产养殖、畜禽养殖和大田作物。其中:在设施农业领域农业相关技术应用最为广泛;在水产养殖和畜禽养殖领域的应用近年发展较快;在大田农业领域,除了智能灌溉技术外,卫星遥感、北斗定位技术逐渐受到广泛重视。
综上所述,应用射频识别、二维码、电子耳标等身份识别技术,以及卫星遥感技术、传感器件技术和北斗等感知和监测技术对农业生产对象进行实时感知和监测,并将感知和监测信息通过传输层传到云端中心进行加工和存储。用户借由各种终端设备使用集成管理信息系统各个模块,访问云端中心,获取其所要感知和监测的数据,以达到实时感知和监测目标对象及其环境的目的,同时通过积累的大量数据可进行大数据的分析;并根据需要对环境或对象本身施加影响,从而使农业生产、流通和交换等各环节更加远程化、智能化、数字化和可溯源化。
数据来源
图总体设计
农业大数据工程主要包含四方面内容:农业信息监测基础数据库、农业行业信息监测子数据库、农业信息监测分析系统、农业信息监测网络体系。其中信息监测基础数据库包含了农业经济类、农业基础类、农业生产类、农业发展类、农业投入类、主要农产品类相关数据。农业行业信息监测子数据库包含了种植业数据库、果业数据库、畜牧数据库、产业化数据库、农业市场数据库、农业经管数据库、农业科技数据库、农业发展数据库、质量监测数据库、农业机械数据库。
农业大数据平台需要大量的数据做支撑,其中包含大量的实时监控(测)数据、基础农业资源数据、地理信息数据和遥感影像数据等。根据数据不同来源及应用方式,将综合数据库从逻辑上划分为空间数据库、基础业务数据库、农业管理业务数据库、决策业务数据库、模型库、预案库、专家知识库。
空间数据库内容分为:基础电子地图、农业专题电子地图。基础电子地图主要包括:行政区划图、重点经济和政治目标分布图、居民分布图、道路交通图、社会经济状况分布图、常规组织机构分布图、地形图、DEM数字高程模型、土地利用图、下垫面特征图等;专题电子地图则可划分为:农作物产量分布图、农作物分布图、土壤养分分布图、土壤水分分布图、农田规划图、气候(降雨、气温)分布图、植株养分含量(N、P、K等)分布图等。
基础业务数据库由气象数据库、土壤数据库、农作物数据库、农村数据库、水旱灾害数据库、病虫害数据库、土地利用数据库、农业科技数据库等组成。气象数据库包括:天气预报、灾害天气(高温、台风、暴雨、冰雹等)警示、卫星云图、降雨量等。土壤数据库包括:土壤含水率、SOM含量、土壤耕作层深度、土壤结构、土壤阳离子交换能力(CEC)等。农作物数据库包括:农作物种植面积、长势、产量、农业产值等。农村数据库主要有农村人口情况、劳动力情况等。水旱灾害数据库主要有历次水旱灾害受灾情况、经济损失情况、人员伤亡情况、保险赔偿情况等。病虫害数据库主要有病虫害分布、病虫种类、名称、应对方法等。土地利用数据库主要是土地利用规划等信息。农业科技数据库主要有农业新技术、新品种、新方法、新政策等。
农业管理业务数据库主要存储农业管理单位日常办公涉及相关的业务数据,包括:各类公报文档、规划成果、行政法规、行业知识、农业事务管理等文字、图片、图表、影像数据。
决策业务数据库内容包括:农业资源评估数据库、农业生产评估数据库、病虫害预测数据库等。
模型库主要有土地评估模型、农作物估产、长势预测模型、病虫害预测模型施肥决策模型、灌溉决策模型等。
知识库包括概念性知识、事实性知识、规则性知识和规律性知识4类。
建设内容
农业大数据标准体系
农业大数据标准体系定义了一系列的体系规范,来规约数据的采集、存储、分析、管理和数据的表达、发布、交换的各种格式、方法和规范。这些体系根据涉及的方面不同,可以分成四大类,分别是:
(1)框架体系:框架体系主要定义了一系列规范,说明其中各个规范的应用范围、作用及相互关系。
(2)数据管理:数据管理包括了数据加工流程、数据分类、数据采集、数据组织、质量控制、数据维护等方面的相应规范,比如数据的采集、数据质量控制等。
(3)数据制作:包括元数据、数据标引、数据著录、数据表示等涉及数据加工流程的操作规范。
(4)数据服务:包括了农业科学数据发布、交换和共享方面的相关规范。主要包括农业科学数据的转换格式和方法,互操作的方法和规则,以及用户认证、数据库性能监督和改进等各方面的规范。
农业监测数据库
- 通过遥感手段采集农业生产中的各项数据,建立农业生产监测数据库,包括各类农作物长势、面积、病虫害、受灾情况、农作物产量等信息。
- 通过交换数据的方式,获取相关农业资源信息,包括土地资源、水资源、气候资料、生物资源数据、灾害数据等。
- 通过政府公开数据,建立农业行业信息监测子数据库,包括种植业、果业、畜牧、产业化、农业市场、农业科技、农业发展、农业机械、质量监测等资料。
农业大数据平台
平台功能
(1)实现数据库的交互;
(2)根据农业大数据研究的个性化需求,形成一系列相关公开发布数据的 采集机制,将数据采集的相关程序设计并编写完善,部署此套机制在平台上周期 运转;
(3)数据的浏览,对数据进行查询、展现和基础统计分析等初步应用;
(4)实现农业大数据分析人员的交流平台。
平台目标
(1)通过平台的建设,汇集各方资源,构建农业领域的大数据研究中心;
(2)通过数据整合,采集和加工处理,建设专业的农业数据资源中心;
(3)依托农业大数据相关技术,包括数据采集技术、存储技术、处理技术、 分析挖掘技术、展现技术等构建农业大数据应用平台;
(4)通过分析应用平台,进行成果发布,形成农业领域专业研究的权威成果发布平台,服务于高校和政府,涉农企业,社会公众等。
建设的基本原则
大数据中心系统是能够对各种信息数据进行存储、管理、更新、维护、查询、分析等操作的一个集合,是建设智慧农业的重要组成部分。为确保数据中心建成后能够稳定的运行和发挥作用,必须针对数据中心建设的技术要求和需求情况提出一些基本原则。
- 实用性原则大数据中心建设要充分考虑各部门应用的实际情况,尽可能地满足当前的基本应用需求,使大数据中心建成后能够很快的发挥作用,辅助政府、单位等解决城市中存在的一些实际问题。数据库管理系统建设还应该做到功能完善、界面美观、操作方便,能够充分实现信息资源共享,方便人们获得自己所需要的信息。
- 先进性原则大数据中心建设要在吸取国内外大数据中心建设的经验和教训的基础上,研究和分析相关技术及其发展趋势,尽可能采用先进的技术和手段,统一规范大数据中心的内容,合理组织数据库的结构,实现多源空间数据的集成化管理,确保大数据中心的科学性和前瞻性,方便进行更新维护,使数据中心能够适应未来技术发展的变化,保证大数据中心能够持续稳定的发展。
- 开放性原则大数据中心建设必须严格按照国家和行业的相关标准和规范,结合应用的实际需要,这样才能保证大数据中心建设的质量,方便数据及时更新和维护,有效整合现有的数据资源,方便用户随时随地直接应用数据库中的数据,也方便将数据转换到所需的系统中,确保数据能够广泛地得到应用。
- 可扩展性原则大数据中心的更新维护是一个长期而重要的过程。随着系统业务的变更、内容的调整和技术的不断进步,对大数据中心的要求也越来越高,一方面需要能够方便系统进行管理、维护和升级,另一方面需要能够对相关数据进行及时更新。因此,在大数据中心建设之初,要充分考虑大数据中心的可扩展性,以便在未来的使用过程中能够方便对数据进行更新和扩展。
- 安全性原则
大数据中心储存着大理的基础信息数据,随着计算机网络技术的不断发展,数据共享越来越紧密,数据的安全性就显得越来越重要,一旦出现数据泄密情况,将对国家的安全构成威胁。因此,在建设大数据中心时应设计一套行之有效的安全机制,保证数据在网络中的安全。
技术解决方案
遥感技术
将遥感技术与野外样方采集相结合,在***境内以GF-2遥感影像为主,综合利用多源中高分辨率遥感数据和地面调查资料,通过精确识别与混合像元处理,实现像元尺度与农作物种植面积等进行对比。在此基础上,通过统计病虫害监测信息、长势信息与丰度水平,并扣除图斑内的非采集因素成份,建立面积估算模型,最终得到单元面积估算结果。
农业遥感是指利用遥感技术进行农业资源调查,土地利用现状分析,农业病虫害监测,农作物估产等农业应用的综合技术。它是将遥感技术与农学各学科及其技术结合起来,为农业发展服务的一门综合性很强的技术。主要包括利用遥感技术进行土地资源的调查,土地利用现状的调查与分析,农作物长势的监测与分析,病虫害的预测,以及农作物的估产等。是当前遥感应用的最大用户之一。
植物的光谱特征
农业遥感是以土壤和作物的光谱理论为基础,主要是用于地被土壤等作物目标的发射信息。因为绿色植物的叶绿素对可见光红光的吸收更强。所以植物叶片的信息在红光波段就更加丰富。并且植被对近红外波段有较高的反射率、高的透射率和极低的吸收率,近红外对植被差异及植物长势十分敏感,因此近红外波段包含了植物冠层叶片的大量信息。这一反射光谱特性就是用卫星影像进行农业遥感的理论基础。
, 图 绿色植物的反射光谱特性曲线
植物的共性光谱特征主要有。
1、350~490 nm 波段:400~450波段为被叶绿素强烈吸收,425~490nm波段被类胡萝卜素强吸收,所以350~490nm波段植物的反射光谱曲线的开头数值低也趋于平缓,反射率小于10%。
2、490~600nm波段:该波段式类胡萝卜素的次强吸收带,530~590nm是藻胆素中藻红蛋白的主要吸收带。550nm附件是叶绿素的绿色强反射峰区,因此490~600nm波段植物的反射光谱曲线具有波峰的形态和中等的反射率数值。
3、600~700nm 波段:该波段植物的反射光谱曲线具有波谷的形态,并具有很低的反射率值。多数植物的反射率谷值在680nm或者670nm波长处,植物的反射率自670~680nm开始随着波长的增加而急剧升高,植物对光的吸收率则自670~680nm波长开始随着波长的增加而急剧下降。
4、700~750nm 波段:该波段的主要特征是植物反射率急剧上升,曲线具有陡而接近于直线的形状,其斜率于植物单位叶面积所含叶绿素(a+b)的含量有光。
5、750~1300nm 波段:植物的反射光谱曲线在此波段具有波状起伏的形态和高反射率的数值,植物在此波段透射率也相当高,而吸收率较低,此波段的平均反射率野外测定值在25%~65%之间,这与植物的本身的生物学特征有关。
6、1300~1600nm 波段:此波段具有波谷的形态和较低的反射率,这与水和二氧化碳在此波段为强吸收带有关。
7、1600~1830nm 波段:在此波段反射光谱曲线表现为波峰的形态,并具有较高的反射率,这种特征与植物及其所含水分的波普特性有关。
8、1830~2080nm 波段:在此波段植物光谱曲线具有波谷的形态和很低的反射率数值,这与水和二氧化碳在此波段为强吸收有关。
9、2080~2350nm 波段:在此波段植物光谱曲线具有波峰的形态和中等的反射率数值,这种特征与植物及其所含水分的波谱特征有关。
气象卫星用于农业遥感
气象卫星主要是应用于云图云量分析、水汽分布及大气温度分布等服务,因为其在植被探测方面具有优势,后来被广泛地应用于资源环境和农业等领域。
气象卫星应用于农业遥感主要是通过植被指数提取实现的。由于典型绿色植物反射光谱曲线上,蓝光区和红光区各有一个绿色素吸收带(吸收中心在400nm和650nm),在近红外区则有一个强反射峰,植被对可见光和近红外辐射的吸收—反射作用的两种截然不同的表现是由色素及细胞内部机构差异造成的。AVHRR观测通道的设置非常有利于扑捉这种差异:第一波段CH1(0.58~0.68um)处在叶绿素的吸收带;第二波段CH2(0.72~1.1um)则位于绿色植物的反射区。因此,这两个波段的组合常被有效地用于作物长势监测。通常应用这两个波段计算归一化植被指数NDVI:
(2-1)
为了更加有效地消除云遮蔽、大气影响、观测中的几何关系、非天底角观测等不利因素,可以在一定时间内采取逐日NDVI图像的最大值合成处理方案。目前采用最多的是“准十日”的逐日合成,即对每日的上、中、下旬的逐日NDVI最大值,形成该旬的NDVI图像。此外,其他植被指数也在农业遥感中被广泛运用。
气象卫星主要在云图云量分析中应用到,并分析大气层的温度和水汽的分布。这些特点可以很好的用在植被探测方面,随着不用的发展慢慢主要被用到环境资源和农业等方面。农业遥感采用气象危险主要就是对植被指数进行提取,植物反射光谱曲线上。
高光谱农业遥感
高光谱遥感技术在农作物种类大的精确识别、高精度成像、作物形态及化学组分测定等方面具有强大的信息获取能力,是获取、分析和处理农情信息及促进农业可持续发展最有力的工具。
目前对地观测技术信息源如TM、SPOT、AVHRR等在进行土地利用状况调查和农作物长势监测时,主要是通过获取不同类型植被等地物目标的光谱信息、植被指数(VI)、叶面积指数(LAI)和生物量信息来进行。但是,这些信息源的光谱分辨率都比较低,一般在50nm以上,难以识别出多种土地和作物类型,尤其在作物生长的旺季更加难以区分。以为植被光谱特征主要因素是色素成分、细胞结构和含水量,出现在0.45um和0.65um为中心波长的强吸收带,峰值宽度为20nm;植被受害时叶绿素大量江少,叶绿素与叶黄素相对增加,在0.7um处的反射率出现“红移”现象,“红移”量为5~17nm,反映植被水分胁迫的波段主要在1.4um、1.9um、2.1um处,些现象时低光谱分辨率遥感信息源难以区分的。要区分不同的植被,并监测去生长状况,光谱分辨率为10~20nm的高光谱分辨率数据具有很大的优越性。高光谱遥感在植被信息反演深度和广度反面的改进主要体现在一下两方面:
1、 超多坡段的高光谱数据能够比较真实、全面地反映自然界中给中植被所固有的光谱特性及其差异,从而可以大大提高植被遥感分类的精细程度和准确性,也为利用光谱反射率诊断作物水肥状况成为可能。
2、 高光谱分辨率的植被图像将对传统的植被指数运算予以改进,提高了植被指数所能反演的信息量,使人们可以更加精确地获取一些诸如叶绿素浓度、叶绿素密度、叶面积指数、生物量、光合作用有效吸收系数等植被生物物理参数,并且可以利用高光谱数据提取一些生物化学成分的含量,如木质素、全氮、全磷、全钾等。
农业微波遥感
微波遥感的主要特点在于微波不仅具有顺利穿透大气层的体征,而且能穿透云雾和小雨,对地面的植被和土壤能进行一定厚度的探测。探测时,不必借助于阳光反射,只利用被探测目标发射或反射的微波。这样一来就使得微波—雷达遥感与可见光遥感相比具有两项对农业应用最大的优点,即全天时全天候的探测能力。微波遥感可以弥补可见光遥感只能在晴空条件下工作的局限性,更好的发展遥感技术在农业上应用的潜力。土壤和植物的微波后向散射特征是农业遥感的基础,根据欧洲空间局的研究,影响土壤和植物的微波后向散射的因子中属于仪器本身的有42项,植物有28项,土壤有13项,环境有12项。从农业目标返回到仪器上的辐射特征主要取决于生物量大小,介电常数(主要与农业目标物的含水量紧密相关)和植物的几何形态。因此,农作物对微波的后向反射情况取决于作物的形态和大小,进而又取决于作物的种类和武侯年龄。对土壤而言,主要影响后向散射的因子是粗糙度和介电常数(水分含量)。微波遥感在农业上的应用主要包括水分探测、作物类型探测等。
北斗应用新技术
自主系统、信息安全
北斗卫星导航系统是我国独立发展、自主运行的全球卫星导航系统,是国家正在建设的重要空间信息基础设施,可广泛用于诸多社会经济领域和国防安全领域。
北斗高精确定位
确定人员、车辆及重要设施的精确地理位置。北斗卫星导航系统结合北斗地基增强系统可以实现对重要设施的毫米级定位,满足高精度服务需求。
短报文通信
北斗卫星导航定位具有用户与用户、用户与地面控制中心之间双向通信能力。运作流程为地面控制中心接收到用户发送来的响应信号中的通信内容,进行解读后再传输给收件人客户端。一般用户1次可传输36个汉字,经核准的用户可利用连续传输方式最多可传输120个汉字。
精密授时
北斗导航定位具有单向和双向两种授时功能,可提供数十纳秒级的时间同步精度,可以在服务区域内任何时间、任何地点,为用户确定其所在的地理经纬度和海拔高度,并提供双向短报文通信和精密授时服务。
大数据技术
对于农业而言,海量的监测数据即用户宝贵的资源,通过大数据技术,不仅可以存储***境内各种农业作物累计的遥感数据、北斗数据,也可以实现对各数据接口信息的存储,实现多数据来源统一数据体系的维护,并且可以向上层各应用提供统一的数据接口,解决数据统一与可靠性的问题。
图大数据整体架构
大数据处理过程
大数据采集
大数据的采集是指利用多个数据库来接收客户端Web、App或者传感器形式等数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。在大数据的采集过程中,其主要解决高并发数,以及如何在数据库之间进行负载均衡和分片是需要深入的思考和设计。
大数据导入及预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作,确保数据的标准和全局唯一。
大数据统计及分析
统计与分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。统计与分析主要解决涉及的数据量大而对系统资源所带来的影响。在这方面,一些实时性需求会用到 EMC 的GreenPlum、Oracle的 Exadata,以及基于 MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用 Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是 I/O 会有极大的占用。
数据挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测( Predict)的 效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、 用于统计学习的SVM 和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及 的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。
大数据处理的核心技术—Hadoop
大数据技术涵盖了硬软件多个方面的技术,目前各种技术基本都独立存在于存储、开发、平台架构、数据分析挖掘的各个相对独立的领域。这一部分主要介绍和分析大数据处理的核心技术——Hadoop。
Hadoop的组成
大数据不同于传统类型的数据,它可能由TB甚至PB级信息组成,既包括结构化数据,也包括文本、多媒体等非结构化数据。这些数据类型缺乏一致性,使 得标准存储技术无法对大数据进行有效存储,而且我们也难以使用传统的服务器 和SAN方法来有效地存储和处理庞大的数据量。这些都决定了“大数据”需要不 同的处理方法,而 Hadoop 目前正是广泛应用的大数据处理技术。Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。该框架在很大程度上受Google在2004年白皮书中阐述的MapReduce的技术启发。Hadoop主要组件包含如图:
Hadoop Common:通用模块;
支持其他Hadoop模块Hadoop Distributed File System(HDFS):分布式文件系统,用以提供高流量的应用数据访问;
Hadoop YARN:支持工作调度和集群资源管理的框架;
Hadoop MapReduce:针对大数据的、灵活的并行数据处理框架;
其他相关的模块还有:
ZooKeeper:高可靠性分布式协调系统
Oozie:负责 MapReduce 作业调度
HBase:可扩展的分布式数据库,可以将结构性数据存储为大表
Hive:构建在MapRudece之上的数据仓库软件包
Pig:架构在 Hadoop 之上的高级数据处理层
在Hadoop框架中,最底层的HDFS存储Hadoop集群中所有存储节点上的文件。HDFS的架构是基于一组特定的节点构建的(如图),
图
这些节点包括一个NameNode和大量的DataNode。存储在HDFS中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的RAID架构大不相同。块的大小(通常为64MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的 TCP/IP 协议。NameNode在HDFS内部提供元数据服务,负责管理文件系统名称空间和控制外部客户机的访问。它决定是否将文件映射到DataNode上的复制块上。DataNode通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。Hadoop MapReduce是Google MapReduce的开源实现。MapReduce 技术是一种简洁的并行计算模型,它在系统层面解决了扩展性、容错性等问题,通过接受用户编写的Map函数和Reduce函数,自动地在可伸缩的大规模集群上并行执行,从而可以处理和分析大规模的数据。Hadoop提供了大量的接口和抽象类,从而为Hadoop应用程序开发人员提供许多工具,可用于调试和性能度量等。在 Hadoop应用实例中,一个代表客户机在单个主系统上启动MapReduce的应用程序称为JobTracker。类似于NameNode,它是Hadoop集群中唯一负责控制 MapReduce应用程序的系统。在应用程序提交之后,将提供包含在HDFS中的输入和输出目录。JobTracker使用文件块信息(物理量和位置)确定如何创建其他 TaskTracker从属任务。MapReduce 应用程序被复制到每个出现输入文件块的节点,将为特定节点上的每个文件块创建一个唯一的从属任务。每个 TaskTracker将状态和完成信息报告给JobTracker。如图显示一个示例集群中的工作分布,如图:
Hadoop的优点
Hadoop 能够使用户轻松开发和运行处理大数据的应用程序。它主要有以下 几个优点:
- 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
- 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可 以方便地扩展到数以千计的节点中。
- 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
- 高容错性。
Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分 配。Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如 C++。
Hadoop的不足
Hadoop作为一个处理大数据的软件框架,虽然受到众多商业公司的青睐, 但是其自身的技术特点也决定了它不能完全解决大数据问题。在当前Hadoop的 设计中,所有的metadata操作都要通过集中式的NameNode来进行,NameNode有可能是性能的瓶颈。当前Hadoop单一NameNode、单一Jobtracker的设计严重制约了整个Hadoop可扩展性和可靠性。首先,NameNode和JobTracker是整个系统中明显的单点故障源。再次,单一NameNode的内存容量有限,使得Hadoop 集群的节点数量被限制2000个左右,能支持的文件系统大小被限制在10-50PB,最多能支持的文件数量大约为1.5亿左右。实际上,有用户抱怨其集群的NameNode重启需要数小时,这大大降低了系统的可用性。随着Hadoop被广泛使用,面对各式各样的需求,人们期望Hadoop能提供更多特性,比如完全可读写的文件系统、Snapshot、Mirror等等。这些都是当前版本的Hadoop不支持,但是用户又有强烈需求的。
遥感监测数据库的建立
数据加工处理与建库
按照数据库软件系统设计与开发,根据遥感监测数据库应用特点,对遥感监测成果数据进行加工处理,并完成入库与管理应用。
- 遥感监测数据内容与格式监测成果数据内容及格式如表所示。
表动态遥感监测成果数据
内容 | 格式 |
技术文档 | 技术设计书和技术报告等,为word格式数据文件。 |
图形图像 | 遥感监测图、遥感影像图(SOPT和TM融合影像)等,为TIFF格式文件。 |
监测信息管理 | 监测信息管理文件,将遥感影像和各类变化图斑分层管理,PSD格式文件。 |
统计报表 | 监测信息统计报表,为Excel的数据文件(.xls)。 |
矢量数据 | 行政界线、数字化土地利用现状图等信息,DXF格式。 |
- 数据加工处理内容对各类监测成果数据进行整合处理,制作成几何上严格配准的栅格数据与矢量数据、反应监测地区农作物信息的属性数据和描述监测数据基本信息的元数据。
- 监测数据入库
- 数据检查在数据入库之前,对数据加工处理结果进行数据格式、矢量数据拓扑关系、数据完整性、数据准确性、空间数据几何配准精度等方面的检查。
- 数据入库
建立REMOTEDATA数据库,用于存放各监测地区的空间数据,包括遥感影像数据和变化图斑矢量数据;建立REMOTEDATAATTR数据库,用于存放属性数据,包括统计数据和元数据;相关文本数据按HTML格式存放。
最后,将各监测地区的加工处理结果数据导入相应的数据库中,并在开发的遥感监测数据库软件系统下,与对应的监测地区实现链接。
遥感数据来源
农作物长势监测
农作物长势监测是指利用卫星资料对作物苗情、生长状况及变化的宏观大面积监测。农作物长势监测可为田间管理提供及时的决策支持信息和早期估产提供依据。
随着作物的生长发育,作物叶面积指数由小而大变化,叶片颜色亦发生变化,并引起反射率发生变化,另外不同的水分含量,作物长势好坏,能导致反射率的改变。遥感监测作物长势,就是根据作物物候期,在作物生长期内,通过分析光谱值或植被指数的大小,分析评价作物长势好坏。
数据源
农作物长势与农田环境参数有着密切的关系,选择农作物为小麦和玉米两种,以玉米为例研究农作物长势监测方案。玉米在壤土、粘土以及沙壤土中都可以生长,适宜的土壤PH值范围比较宽,一般PH值为5~8,最适合生长的PH为6.5~7.0,基本属于中性,耐盐碱能力不高,所以在不同肥力等自然条件下玉米的长势不同,玉米不同长势在遥感影像的表现为玉米生长量大、叶面积指数高、在近红外波段反射率高,不同长势的玉米在卫星影像上产生明显的色调深浅差异。
玉米长势监测是在整个生长期中对研究区的玉米进行长势的连续监测,监测的农田环境参数包括冠层温度、土壤水分、光合有效辐射,叶面积指数。关中地区夏玉米的物候期一般为:5月下旬至6月中旬播种,6月下旬至7月下旬出苗拔节,8月中旬到9月中旬吐丝灌浆,9月下旬到10月上旬收获。因此玉米长势监测选择5幅当年高分遥感影像,成像时间分别为:5月中旬、6月上旬、9月上旬、9月下旬以及10月上旬的影像数据。同理根据小麦的物候期,对小麦的长势监测需要当年高分遥感影像数据5幅。
作物长势监测方法
遥感监测作物长势是建立在绿色植物光谱理论基础上的,根据绿色植物对光谱的反射特性,在可见光部分有强的吸收带,在近红外部分有强的反射峰,从而反映作物生长信息,从而判断作物的生长状况,进行长势的监测。通常的农作物长势监测指对作物的苗情、生长状况及其变化的宏观监测,即对作物生长状况及趋势的监测。作物长势包括个体和群体两方面的特征,叶面积指数LAI是与作物个体特征和群体特征有关的综合指标,可以作为表征作物长势的参数。归一化植被指数NDVI与LAI有很好的关系,可以用遥感图像获取作物的NDVI曲线反演计算作物的LAI,进行作物长势监测。作物长势监测流程如下图所示。
图1 农作物长势监测流程
作物长势监测结果
(1)农作物长势专题图;
(2)农作物遥感图像上表现的特征。
农作物面积监测
农作物的种植面积作为国家农情基础数据是农作物估产的必要参数,同时也是国家的粮食安全重要指标。农作物面积获得的主要方法是大面积实地测量调查或者是统计部门逐级上报,但是这种方法耗时耗力而且缺乏空间分布信息。“3S”技术的快速发展为监测农作物种植面积信息提供了一个实用高效的科技手段。由于遥感技术的客观性、空间性、时效性、内容丰富和成本相对较低的优势;与其它方法相比利用遥感技术可以获得不同时间分辨率和空间分辨率下的大规模的地表信息,它在作物面积监测方面具有无可比拟的优势。
农作物种植面积提取的关键是准确地识别作物类型,不同作物在遥感影像上呈现不同的颜色、纹理、形状等特征信息,利用信息提取的方法,得到作物种植面积和种植区域。利用多源、多时相遥感信息协同的农作物遥感识别技术和基于多尺度遥感数据协同的区域作物种植面积估算技术,可以进行多级行政区域的农作物种植面积监测。
数据源
- 亚米级遥感影像1期(0.5-1m):当年6月-10月,以覆盖测量范围的当季农作物生长周期内的影像为主;
- 米级遥感影像4-6期:米级影像(1m左右)一年一季种植区(小麦)至少需要四期影像(5、6、7、9月),在一年两季种植地区每季各需至少两期影像(播种前后1-2月、收获前期)分别针对作物播种初期、生长中期、收获前期;2m左右当年影像至少一个时相全覆盖。
- 中分级遥感影像12期:要求为当季作物播种前至收获后关键时期的遥感影像,一季作物至少需要三期影像,二季作物每季各需至少两期影像,关键时相主要包括:未播种前期、全部播种后初期、生长中期、收获前期、全部收获后;
- 野外样方数据两季。
农作物面积监测方法
农作物种植面积监测通过地面调查方式,以地面抽样调查信息为辅助参量,根据多尺度遥感影像处理的原理,采用分阶段方式逐步提取示范县基于高分遥感影像的作物种植面积。第一阶段依据影响纹理或光谱特征在大尺度上进行非作物的分类提取,在此基础上进行小尺度上的统计模式识别分类,采用监督分类中的最大似然法结合人工目视解译进行作物分类,对示范区分类后处理,得到示范区最终的作物分类结果。
第二阶段农作物精细测量,精细测量精度直接影响到农作物测量面积估算,遥感数据分辨率和质量、解译人员技能和先验知识储备是精细测量的必备条件。示范区遥感影像以当年GF-1/2为主,补充其他高分数据,解译方法采用自动分类和人工目视解译相结合的方法。采用人机交互解译的方法,对示范区农作物进行精细测量。精细测量分两个步骤完成,第一步即第一次室内测量,完成示范区调查样本的地块人工勾画,并制作野外调查数据任务包;第二步即第二次室内测量,完成示范区内所有自然地块的作物品种测量任务。
第三阶结果推算与精度检验。通过示范去野外调查数据、遥感分类数据及室内精细测量数据估算示范区农作物种植面积,其估算结果公式及CV指数计算如下:
其中,代表示范区作物估计总体,CV表示变异系数,代表样本调查均值,代表样本遥感识别均值,代表总体目标作物遥感识别结果。农作物种植面积监测流程如下图所示。
图2 农作物面积监测流程
农作物种植面积监测结果
(1)农作物空间分布图;
(2)主要农作物种植面积统计数据。
病虫害监测
农作物病虫害监测目前在数据采集上主要依靠植保人员田间调查、田间取样等传统方式,不仅耗时、费力,而且存在以点代面的代表性差、主观性强和时效性差等弊端,难以满足大范围病虫害实时监测的需求。近年来遥感技术的发展,为大面积、快速获取作物和环境信息提供了重要的手段,是未来大面积病虫害监测和预测预报与产量损失评估的重要手段。
遥感的基本依据是获取来自地物的反射或发射的电磁波能量,各种物质因结构与组成成分不同,大多数地物又具有BRDF(双向反射分布函数)各向异性的反射特性,所以在光谱反射与辐射特性方面有差异,从而具有该物体诊断意义的光谱特征。健康绿色植物的光谱特征主要取决于它的叶子,在可见光谱波段内,植物的光谱特征主要受叶绿素的影响。当植物受病害侵害时,叶片组织的淑芬代谢受到阻碍,植物细胞结构遭到破坏,各种色素的含量减少,导致叶片对近红外的辐射的反射能力减少,在光谱特征上表现为可见光区反射率升高而近红外区反射率降低。据此,不同作物或同一作物在不同生长季节、不同角度和病虫危害及程度下,有其特殊意义的诊断性光谱特征。因此通过光谱分析技术可以探测作物的健康状况以及病虫发生情况。
数据源
(1)中分级遥感影像,一个月覆盖1次;
(2)病虫害野外光谱数据;
(3)手持终端位置信息数据;
(4)野外样方数据。
监测方法
目前一般小麦、玉米等大规模连片种植的作物常采用地面高光谱遥感数据分析与高光谱航空影像解译分析相结合的方法进行病虫害监测。基于遥感的农作物病虫害监测技术流程为:
- 地面光谱获取加农学采样;
- 分析生化参量,农学参量与光谱特征;
- 病虫害光谱诊断模型的建立,验证;
- 高光谱影像的病虫害反演;
- 病虫害波谱库数据;
- 建立病虫害斩断专家系统,发布信息。
农作物病虫害遥感监测的一般技术流程如下图:
图3 植物病虫害遥感监测技术流程
监测结果
(1)病虫害空间分布图;
(2)主要农作物受灾面积统计数据。
灾情监测
农作物灾情是指由于自然异常变化而导致的农业受损,如旱灾、洪涝、冷冻、风、雹、雪等。基于遥感的农作物灾情监测是一种新型的监测方式,弥补了传统方法的费时、费力、效率低下的缺点。遥感监测能从空中大面积地对灾害进行宏观监测研究,使灾害监测工作向立体监测方向发展。航空相片提供了地面连续的立体图像,拓宽了视野,这样可以克服地面点线监测的局限性及视野的阻隔,便于从整体上把握灾害的各种资料。对于复杂多变、涉及面广的大型灾害优越性更明显。特别是对于大区域的环境灾害及动态变化(如雪灾、旱灾、洪涝)监测十分有利。
数据源
米级或中分级或亚米级遥感影像,包括光学和SAR遥感影像。
监测方法
卫星遥感监测具有实时、动态、全天候的特点,因此可以对灾情进行连续、动态监测,进而获得连续准确的灾情资料。利用这一点,就可以对那些具有爆发隐患或周期性爆发的自然灾害(如雪灾、旱灾等)进行灾前预测;对那些破坏力大、持续时间长、波及范围广的灾害(如洪水、蝗灾等)进行跟踪监测。此外,也可以用于对灾后恢复过程进行跟踪监测,及时掌握相关资料,目前常用的监测方法有以下三种:
(1)目视解译法;
(2)计算机自动分类法;
(3)目视解译与计算机自动分类结合法。
监测结果
- 灾害空间分布图;
- 灾害统计结果。
受灾评估
利用高分遥感数据监测农作物旱情、冰雪、洪水等受灾情况,为农作物受灾面积、受灾程度、农作物单产估算及粮食价格调整提供最基本真实可靠的基础数据。
数据源
- 光学遥感数据;
- SAR数据。
监测方法
受灾面积监测方法采用以分层系统抽样为基础的农作物受灾等级与受灾面积评估的方法,具体流程如下:
图4 灾情评估流程
监测结果
(1)受灾空间分布图;
(2)受灾面积统计结果。
农作物估产
农作物产量预估对整个国家具有重要的意义,它是粮食政策和经济发展策略指定的基石。传统的农作物产量的预测大多基于田间取样和调查,费时费力,更新慢、准确率低,遥感影像,特别是高分辨遥感影像为作物产量预测提供一个很好的途径,通过对获取的实时遥感影像进行分析,建立相应的产量预测模型可得到理想的结果。
遥感估产是建立作物光谱于产量之间联系的一种技术,通过光谱来获取作物的生长信息。在实际工作中,常常用绿度或植被指数作为评价生长状况的标准,植被指数中包括了作物长势和面积两方面的信息。光谱产量的模式的基本思想是将各种形式的植被指数与作物单产建立回归方程,筛选出方程拟合率高、相对剩余标准差小的估产模式。遥感估产的两个关键问题:一是作物识别和面积估算,二是作物长势分析,单产模型构建,这两个问题的解决都是通过遥感信息处理实现的。
在农业生产管理中,采用遥感技术可以估算农作物的播种面积、监测农作物的长势和预测农作物的产量。利用植被光谱特征的独特性可以从遥感图像中区分植被类型,通过多时相和不同波谱段的组合,可以动态监测植被光合作用强度的空间分布,建立光谱参数与农作物产量的关系,动态实时监测大面积农作物的长势,并借助于地理信息系统的支持,实现农作物产量的估测。
数据源
为了精确监测农作物产量,需使用多种数据源,目前主要使用高分一号与高分二号数据为数据源进行监测,以达到农作物产量估算的目标。在GF1与GF2数据质量差的情况下,配合使用Quickbird、Geoeye、Worldview、IKONOS、orbview、Kompsat、CARTOSAT等遥感数据。
考虑到成本和工作量,在影响精度不大的条件下,光学数据可以使用5米左右尺度的卫星监测,这一尺度的卫星数据包括Rapideye、ZY3、SPOT数据,其数据采集能力强,覆盖范围大,实用性较强。
监测技术
农作物估产在方法上可分为传统的作物估产和遥感估产两类。
传统的作物估产基本上是农学模式和气象模式,采用人工区域调查方法。它们把作物生长与主要制约和影响产量的农学因子或气候因子之间用统计分析的方式建立起关系。这类模式计算繁杂、速度慢、工作量大、成本高,某些因子种类往往难以定量化,不易推广应用。遥感估产则是建立作物光谱与产量之间联系的一种技术,它是通过光谱来获取作物的生长信息。在实际工作中,常常用绿度或植被指数(由多光谱数据,经线性或非线性组合构成的对植被有一定指示意义的各种数值)作为评价作物生长状况的标准。植被指数中包括了作物长势和面积两方面的信息,各种估产模式,尤其是光谱模式中植被指数是一个极为重要的参数。根据传感器从地物中获得的光谱特征进行估产具有宏观、快速、准确、动态的优点。
农作物遥感估产的主要步骤:
(1)遥感信息获取与处理
主要应用陆地卫星(Landsat)MSS和TM影像资料、其他卫星遥感信息(包括我国自己将发射的卫星信息)积极开展应用基础研究,为日后采用奠定基础。
(2)遥感估产区划
农作物生长的动态监测和估产是大面积的应用,需要将自然条件、社会环境以及农作物的生长状况基本相同的地区归类,以便于作物生长状况的监测与估产模型的构建。在前人工作的基础上,充分利用现有图件、数据资料及多种遥感资料,分出作物类型区、产量水平区,以便合理分层布设地面样点,并确定单产模型适用空间范围。
(3)建立GIS支持的背景数据库
背景数据库主要有两个方面的作用:一是为遥感信息分类提供背景资料,使分类精度提高;二是在遥感信息难以获取时,它支持模型分析,从历史资料和实际样点采集的数据中综合分析,取得当年的实际种植面积和产量。
(4)单产模型、长势监测、面积提取
作物不同,地域分布的差异,使得单产模型、长势监测、面积提取方法会有很大差别。
①单产模型
作物长势分析是一个动态的过程,需要多时相遥感信息来反映植物生长过程的节律特点。常以数量化的植被指数(如NDVI,PVI)作为评价作物生长状态的定量标准。某一时刻的植被指数是该时刻作物长势的函数。通过植被指数结合地面实际调查数据,可建立起各种不同条件下,单位面积产量与植被指数间的数量关系,即估产模式。
目前常用的估产模型有:统计估产模型、农学估产模型、气象估产模型、综合估产模型、同化估产模型和遥感模型(或称光谱-产量模型)。
②农作物长势监测
长势,即作物生长的状况与趋势。作物的长势可以用个体与群体特征来描述。发育健壮的个体,构成合理的群体,才是长势良好的作物区。作物长势监测指对作物的苗情、生长状况及其变化的宏观监测。作物生长过程是一个长势动态变化的过程,是产量信息不断更新和确定的过程。作物长势监测的本质是在作物生长早期阶段就能反映出作物的产量的丰欠趋势,通过实时的动态监测逐渐逼近实际的作物产量。
对于多光谱遥感影像,作物生长初期,随着作物生长,叶子结构中叶孔的增加,叶子表面散热能力增强,近红外波段值逐渐增加,叶绿素吸收能力增强,红波段的值逐渐减速少,NDVI值逐渐增加;而在作物生长末期,由于枝干由绿色变为黄色,叶绿素吸收能力减小,相应的红波段的反射值将会增加,叶面的叶孔相对收缩,散发的热量降低,近红外波段的值将会减小,因此利用近红外波段和红波段的线性组合可以很好的反映作物的生长过程特征。所以常用作物生长的NDVI动态迹线、以最直观的形式反映作物从播种、出苗、抽穗到成熟收割的变化过程。通过NDVI反演LAI,综合反映作物长势。
③面积提取
农作物播种面积提取是农作物估产中的关键,是由单产估测总产的必需参量。国外卫星遥感测算作物种植面积,主要应用陆地卫星(Landsat)MSS和TM的资料。在我国应用陆地卫星测算种植面积,由于存在资料源得不到保证、资料价格和处理费用昂贵等局限,在研究大范围作物种植面积测算方法时,多采用气象卫星资料源。但由于气象卫星空间分辨率较低(星下点为1.1 km),其图像像元绝大部为混合像元,为提高测算种植面积的精度,应考虑混合像元分解问题。
- 建立遥感估产模型实现作物光谱与产量之间的联系,通过光谱来获取作物的生长信息,目前常用的是根据“光谱—植被指数—产量”之间的关系来建立估产模型。
- 遥感估产进度的分析和确认,尽可能减少误差
- 遥感估产系统的建立
该系统通常包括遥感信息获取、建立背景数据库、估产模型生成工具库、空间分布图形系统等问题。式(1)为采用“绿度指数—温度—绿度变化速率”构建的大面积小麦遥感估产模型:
(1)
式中Y------估算的单位面积产量,∑G返青至抽穗期的绿度累加;--------拔节后期至灌浆始期小麦品种需要的积温或多年平均低温累加;--------当年拔节后期至灌浆始期积温或当年低温累加;---------小麦灌浆起始日期;---------拔节后期日期;G--------小苗品种标准千粒重;△G-------灌浆始期至灌浆终止的绿度差;△T-------灌浆始期至灌浆终止日期差;a、b、c-------调查常数;W-----自由项,可以根据示范区情况调整。农作物估产流程技术路线如下图所示:
图5 农作物估产流程
遥感估产特点
遥感估产需要作物生长全过程的光谱参数。由于构造产量的3个要素分别于作物不同生长期的PVI/NDVI有关,所以必须掌握作物生长全过程的光谱参数才能正确估产。遥感估产主要运用遥感数据中反映植物光合作用与活性的代表波段——可见光红波段和近红外波段。
遥感估产离不开地面调查的配合,遥感估产还需要积温、日照时数、土壤含水量等非遥感的农学参数和气象参数的支持,所以在GIS支持下进行遥感与非遥感数据的综合分析是提高遥感估产精度的必要途径。
监测结果
(1)主要农作物单产空间分布图;
(2)主要农作物种植面积空间分布图;
(3)主要农作物产量统计结果。
硬件支撑
农业大数据平台包括支撑系统运行的机房环境,大数据采集系统、大数据存储系统、大数据分析系统与大数据交换系统,包括支撑上层系统应用运行的各类数据处理、数据保存的主机、存储、网络与网络安全等设备。
考虑到当前用户环境,机房设备较为简单,无法支撑整个农业大数据系统众多设备及系统的运行,同时系统建成后,必须保证连续运行,运维压力巨大,用户自行建设机房费时费力,为保证系统运行正常,建议采用租用专业IDC机房,得到IDC机房的专业运维服务,包括7*24小时坐班值守的消防、电力、机房、安保、网络等各方面的专业服务。因此项目建设采用专用的IDC机房,用户不再自行建设。
农业大数据平台系统规模需要满足采集包括以农业领域为核心(涵盖种植业、林业、畜牧业等子行业),以及相关上下游产业(饲料生产、化肥生产、农机生产、屠宰业、肉类加工业等),相关宏观经济背景的数据(包括统计数据、进出口数据、价格数据、生产数据、气象数据等)信息,并对这些数据进行编目、分析和处理,系统性能压力及处理规模使得我们必须采用大数据的手段,对系统处理性能和IO压力做分布式处理,同时并用缓存数据库、读写分离、分层存储等众多技术手段,分散系统性能压力,确保系统上线运行的性能。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
数据采集系统
数据库系统包括农业信息监测基础数据库和行业信息监测子数据库,数据来源主要为遥感数据、历史数据、新录入数据和外部数据源的数据交换等。
建议数据采集服务器4台,单台配置为32核心CPU,256GB内存,1200GB 10K硬盘12块,标配RAID5带512MB缓存,4口千兆电口网卡。系统通过大数据管理系统自动分配资源。配置与数据存储系统相同,有利于系统资源调动,并简化系统部署工作量。
外部数据源的数据交换,其设备需求统一归属大数据交换系统中说明。其他的数据来源无需专用的数据采集服务器。
数据存储系统
大数据处理关键技术一般包括:大数据采集、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
农业大数据系统的数据加工处理流程如下:
图数据加工处理流程
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输以及复杂结构化、半结构化和非结构化大数据管理与处理。Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop 的首要优点是非常可靠,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。同时,Hadoop 是非常高效的,因为它以并行的方式工作,通过并行处理加快处理速度。另外,Hadoop 还是可伸缩的,能够处理 PB 级数据。因此,在项目中,采用Hadoop建立数据存储平台。
建议数据存储服务器8台,单台配置为32核心CPU,256GB内存,1200GB 10K硬盘12块,标配RAID5带512MB缓存,4口千兆电口网卡。平台配置有系统管理工作站等配套设备。
数据分析/挖掘系统
农业大数据系统涉及经济类、基础类、生产类、发展类、投入类、农产品类等众多领域,数据量毫无疑问是空前海量,必须采用大数据技术进行数据采集、存储、分析和展现。大数据监测分析平台包含了数据同步、数据存储、数据挖掘、数据可视化、数据仓库等众多建设内容。
农业大数据系统既需要通过各种采集层设备对不同农作物面积、产量、受灾情况等信息进行采集,也需要来自外部的数据支持,并对外提供各种数据,供农业部门、涉农企业及相关高校使用,因此势必存在与外界其他已有系统的数据交互。对数据的共享和交互、同步涉及到不同行业的信息系统,其中必然涉及数据访问的权限、数据访问的及时性、可靠性等要素,因此,需同步建设大数据交换系统,通过大数据交换系统,统一提供外部数据获取通道,并将系统捕获、产生的数据,通过适当的授权,发送给各相关服务对象。
大数据交换系统采用前置机与外部数据源交换数据,因此大数据交换系统与大数据平台、大数据分析系统应位于不同的安全域。不同的机构对大数据交换的服务器要求并不一致,一般情况下也不允许采用单一的物理硬件进行共享,因此对每一个外部交换数据源,必须采用独立的物理服务器。依照目前的测算,当前大数据交换系统的前置机数量建议为10台。这10台服务器采用虚拟机和物理机两种情况进行部署,单台配置为8核心CPU,2G以上主频,16GB内存,1.2TB 10K硬盘2块,标配RAID1,双口千兆电口网卡。
数据处理和分析是一个大数据系统的核心。像聚合,预测,聚集,以及其它类似的逻辑操作都需要在这一步完成。通过对数据内部关联关系的分析和挖掘,发现数据内部包含的规律,是大数据的核心价值所在。同时,为确保相关数据能够得到及时处理,数据处理和分析的性能也是必须考虑的因素,大数据蕴含的丰富的数据价值及行为预测必须在有效的时间范围内提供才有意义。因此,内存计算、深度学习、知识计算等,均对系统的处理能力提出较高要求。
建议数据分析服务器8台,单台配置为32核心CPU,256GB内存,1200GB 10K硬盘12块,标配RAID5带512MB缓存,4口千兆电口网卡。系统通过大数据管理系统自动分配资源。配置与数据存储系统相同,有利于系统资源调动,并简化系统部署工作量。
网络与网络安全设备
农业大数据平台需配置网络及网络安全设备。
平台网络部分应采取两层网络,分为核心层与接入层设备。农业部门办公网络通过办公网络的核心交换机与平台的核心网络交换机互联。
平台核心交换机数量两台,单台配置为双冗余引擎,双电源,提供8个业务插槽,配置双24口万兆接口板带满配万兆多模光模块,交换容量≥178TB,包转发率≥86400Mpps。交换机需支持双机虚拟化。
接入层交换机数量2台,单台配置为双引擎,双电源,提供6个业务插槽,配置四个24口千兆电口接口板,两个16口万兆多模光模块带满配万兆多模光模块。交换容量≥25.6Tbps,包转发≥12000Mpps。
网络安全设备包括防火墙、流量清洗、入侵检测等各种设备。为简化系统管理,建议采用统一安全网关设备,数量两台,单台配置千兆以太网口4个,万兆多模光接口6个,系统配置冗余电源,具备SQL注入、XSS、CSRF等WEB攻击防护功能、URL访问控制功能、防盗链功能、报表分析及告警功能。并发连接≥300万,网络层吞吐量≥10Gbps,应用层检测能力≥4Gbps;支持透明代理,反向代理,旁路部署等。两台应构成热备集群。
项目实施说明
大数据中心的建设,一般采用三种模式进行:
(1)政府主导型:由地方政府投资建设,网络基础设施、硬件投入、数据采集及基础数据库建设、软件开发、数据中心云平台、应用推广等均由政府投资进行,企业以项目形式承担其中某一部份的工作。
(2)企业建设、 客户购买服务型:由不同类型的企业进行投资建设,客户提出需求并向相应的服务提供商购买服务。
(3)混合型:地方政府进行部分基础数据库建设(如:基础地理信息空间
数据,此类数据为国家保密数据,不对外公开,即便是处理、应用部分数据也需相应的保密资质),不同类型的企业建设各自的大数据服务云平台并提供服务,应用部门按需求购买服务;或企业按客户需求专门开发并提供服务。
大数据中心建设投资巨大,功能繁多,不建议地方政府单一投资进行,仅建议地方政府对涉密数据进行基础数据中心的建设。其余功能由不同类型的企业进行投资建设,客户提出需求并向相应的服务提供商购买服务;或企业按客户需求专门开发并提供服务。
因此,本建议书以基础地理信息大数据中心平台为例进行说明。
项目启动阶段
此阶段处于整个项目实施工作的最前期,由成立项目组、前期调研、编制总体项目计划、启动会四个阶段组成。
阶段主任务:
(1)成立项目组:
项目实施部门经理接到实施申请后,任命项目经理,指定项目目标,由部门经理及项目经理一起指定项目组成员及成员任务,并报总经理签署《项目任务书》。
(2)前期调研:
项目经理及项目组成员,在商务人员配合下,建立与用户的联系,对合同、用户进行调研。填写《项目工作说明书》。在项目商务谈判中,商务经理积累了大量的信息,项目组首先应收集商务和合同信息,并与商务经理一起识别哪些个体和组织是项目的干系人,确定他们的需求和期望,以确保项目开发顺利。
(3)编制《项目总体计划》:《项目总体计划》主要包括以下几方面内容:项目描述,项目目标、主要项目阶段、里程碑、可交付成果等。
(4)启动会:
项目组与用户共同召开的宣布项目实施正式开始的会议。
会程安排如下:
共同组建项目实施组织,实施组织的权利和职责,填写《项目组成员表》;
项目组介绍《项目总体计划》和《项目组成员表》,包括以下内容:项目目标、主要项目阶段、里程碑、可交付成果及计划的职责分配(包括用户的);
项目实施中项目管理的必要性和如何进行项目管理,项目的质量如何控制;
项目实施中用户的参与和领导的支持的重要作用;
阶段验收、技术交接和项目结束后如何对用户提供后续服务。
需求调研确认阶段
此阶段的主要工作是项目实施人员向用户调查用户对系统的需求,包括用户工作现状调研、系统所需软硬件环境调研、系统功能需求调研、现有数据情况调研等,实施人员调研完成后,会编写《项目工作调研报告》,并交付用户进行确认,待用户对《项目工作调研报告》上所提到的需求确认完毕后,项目实施人员将以此为依据进行软件功能、数据处理的实现。如果用户又提出新的需求,实施人员将分析需求的难度及对整个系统的影响程度来确定是否给予实现。需求调研阶段具体包括如下内容:
(1)进行需求调研准备
(2)编制《需求调研计划》
(3)需求调研,项目组以《需求调研计划》为依据,从工作流程、地理信息公共平台现状、基础地理信息库现状等方面开展详细调研工作,并搜集用户的 个性化需求。
(4)需求调研分析,根据调研的结果,项目组和公司其他技术部门将进一步进行分析,确定合理、可行的需求,将分析结果形成《项目工作调研报告》和《系统功能设计书》草稿。
(5)内部评审通过《项目工作调研报告》和《系统功能设计书》,项目组、部门经理、公司其他技术部门的人员对《项目工作调研报告》和《系统功能设计书》 草稿进行评审,稍后由用户签署。
(6) 用户组织项目干系人以会议的形式审核《项目工作调研报告》和《系统功能设计书》,在经过讨论、质询、确定《项目工作调研报告》和《系统功能设计书》阐述的内容符合用户需求后,用户确认并签署《项目工作调研报告》和 《系统功能设计书》,需求调研阶段工作结束,进行后续的软件功能实现和数据 处理等工作。
系统功能确认实施阶段
此阶段的主要工作是项目实施人员根据需求调研阶段确认的《项目工作调研报告》和《系统功能设计书》中的内容进行具体软件功能的研发实现工作。在此阶段需要重点研究基础地理信息数据库系统建设技术路线,进行数据库结构设计和数据库系统设计,按照《系统功能设计书》进行数据库建设和数据库管理系统软件开发、测试、集成,实现多源、多尺度、海量市级基础地理信息数据库建设、更新、管理和分发等服务,同时指导其他项目实施人员开展基础地理信息数据预处理和数据整理入库工作。
按照调研要求的所有功能实现完毕后,项目实施人员编制《系统功能确认表》,将定制好系统功能待用户确认,用户根据《系统功能确认表》上的功能逐一确定软件功能达到要求。
基础地理信息数据预处理阶段
此阶段的主要工作是项目实施人员指导用户整理***现有基础地理信息数据资料,按照矢量数据、影像数据、地形数据、城市模型数据、业务数据进行分类,并参照已有的基础地理信息库,将所有数据资料依照***地理信息公共平台的基础地理信息数据集成要求,进行格式转换、坐标变换、投影变换、数据拼接等操作,为下一步的数据整理入库做好准备。在此阶段为了清楚掌握***基础数据的情况,项目实施人员需要整理《基础数据情况统计表》,并请用户负责人签字确认。
基础地理信息数据整理入库阶段
此阶段的主要工作是项目实施人员指导用户将来自多个单位和部门的生产和汇交的基础地理信息数据按照统一的标准规范、数据组织要求编制数据建库方案。在基础地理信息数据预处理的基础上对多源、多尺度、多格式的空间数据按照入库方案进行数据整合、数据质量检查,包括坐标系统的一致化、数据编码的一致化、数据格式的一致化、数据命名等一致规范化,然后配合系统研发人员将已有数据资料整理入库。
数据与系统集成初装阶段
此阶段的主要工作是项目实施人员指导用户按照地理信息公共平台大数据中心系统的要求,将标准化后的数据资料进行集成处理,并对用户进行初装空间信息数据的软件操作培训,以便用户能够及时的将各类空间信息数据录入到数据库管理系统中,初装完成后,项目实施人员对空间数据资料集成的情况进行核查,为以后具体业务功能的开展做好基础。
项目培训阶段
项目培训阶段工作是整个项目实施工作中比较重要的工作,用户对基础地理信息数据库的操作功能是否熟练将直接影响到后面的系统应用效果,应给予足够的重视。在项目实施过程中对用户的相关人员进行了系统和规范的使用培训,让用户了解了系统的功能,最终自己能够解决使用中的具体的问题。
此阶段的培训工作中将用户参加培训的人员划分为三个层次:决策层、技术层、操作层,对不同层次的用户参加产品培训人员的培训内容分别是:
决策层:领导在实施中的作用与重要性、决策查询。
维护层:系统维护知识、操作方法。
操作层:操作方法。
具体的培训工作流程为:
(1)编制培训计划:
根据地理信息公共平台大数据中心系统的使用需求,与用户实施负责人商议具体培训内容、时间,场地,人员等。项目组编制《培训计划》。
(2)发培训通知:
培训开始前2天,按照签署的《培训计划》,将培训内容、时间,场地,人员等信息通知用户实施负责人。
(3)组织培训:
公司项目组培训负责人与用户实施负责人组织相关人员参加培训,详细讲解软件使用方法,解答用户疑问,并向操作人员提供软件使用手册。由用户将考勤情况填入《培训人员签到表》。
(4)培训总结:
公司项目组培训负责人与用户实施负责人一起对培训情况做出总结,确认各级使用人员对系统操作掌握情况,保证培训成果。
系统安装测试及试运行阶段
此阶段的主要工作是在用户真实环境下,对用户网络及硬件设备进行测试,对地理信息公共平台大数据中心系统进行容量、性能压力等测试,确保系统各项功能均能正常使用,并且符合用户签署的《项目工作调研报告》中描述的需求,同时把尽可能多的潜在问题在正式运行之前发现并改正,并进一步提高有关人员的操作水平,规范操作。
此阶段的主要工作内容为:
- 编制计划:
与用户实施负责人商议具体测试及试运行时间、地点、人员等安排,项目组编制《测试及试运行计划》。
(2)发测试及试运行通知:
在测试及试运行开始前2天,按照《测试及试运行计划》,将时间、地点、人员等信息通知用户实施负责人。
(3)搭建环境及数据准备:
在试运行开始前搭建好软件环境、硬件环境、网络环境、调通线路;检查软件、硬件、网络、线路等各个环节是否有问题。由各部门和生产单位整理提供试运行基础数据,系统所需各类数据完整可用。
(4)组织测试及试运行:
用户相关各级领导给予全面配合,组织相关人员进行测试及试运行。公司项目组负责担当指挥,检查用户人员组织情况并给予指导。
(5)测试及试运行总结:
测试及试运行完成,测试运行中硬件网络设备、软件的运行情况是否正常,试运行中系统各操作环节符合预期期望,生成《系统测试报告》。
项目总体验收阶段
此阶段是对项目总体的完成情况进行验收。验收分阶段进行,在每一项目阶段结束时,用户对这一阶段的可交付成果进行验收,在测试及试运行结束后,对系统进行总体验收。
需要验收的可交付成果:
项目成果交接阶段
此阶段是项目实施的最后一个阶段,主要工作是项目组向用户移交项目成果资料,包括基础地理信息库管理系统、空间信息数据预处理成果、空间信息数据整理入库成果、项目实施过程中所生成的各种文档资料。
项目组需根据系统部署情况、数据成果情况编制《项目成果提交单》,交由用户签字确认。
项目建议
大数据开发的根本目的是以数据分析为基础,帮助人们做出更明智的决策,优化企业和社会运转。大数据本质上是“一场管理革命”。大数据时代的决策不能仅凭经验,而真正要“拿数据说话”。因此,大数据能够真正发挥作用,深层次看,还要改善我们的管理模式,需要管理方式和架构与大数据技术工具相适配。
大数据有巨大的社会和商业价值,就看会不会挖掘,是否善于运用数据分析的结果。同时,它又是一个应用驱动性很强的服务,要做好大数据产业,为经济发展提供更大的动力,需要从以下几个方面入手。
(一)建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。
(二)规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。
(三)搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类信息系统的数据交换和数据共享。
(四)培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。
资金计划
从前述系统建设内容来看,***农业大数据系统工程结构复杂,内容庞杂,结构联系紧密,数据相互依存,在具体实施中,为降低实施难度,应采取“统一规划,分步实施”的思路,对系统进行顶层设计,统一规划,并依照系统之间的关联性,分步实施,依托现有系统,建改结合,边建设,边完善,边收益,降低系统初始投资额。
***农业大数据系统拟分为需求论证与基础设施建设、软件开发与测试完善及系统推广应用三个阶段,一年半内建设完成,2018年4月完成项目整体验收。
需求论证与基础设施建设阶段的主要工作目标是对需求进行分类和细化,明确系统架构与功能区分,进行顶层设计。同时,启动数据中心的建设,建设支撑业务运行的基础环境。该阶段工作拟于2017年4月完成。
软件开发与测试阶段的主要工作目标是依照软件顶层设计,进行详细设计,定义数据类型与关联关系,业务流程梳理,进行软件编码,进行软件单元测试。对开发末期的应用进行小规模试用,尽快发现系统漏洞,排查和纠正系统潜在的问题。为避免模块之间相互影响,应首先安排基础功能模块首先投产,随后数据分析与决策支持等需要其他系统数据支撑的业务系统进入开发阶段。无明显关联关系的功能模块可以考虑并行开发,以节约开发周期。本阶段同时完成省农业厅与IDC机房的网络建设工作,为系统全面上线运行做好准备。该阶段工作拟于2017年10月完成。
系统推广应用阶段的主要工作是对已开发、测试、并经完成的功能模块,逐步推广上线运行。同时,根据小规模试用的结果,优化、完善系统性能表现,补充完善系统长期稳定运行所需的配套设备。
通过科学、合理的安排建设内容并推广应用,力争在2018年4月实现全省农业技术与管理工作的集约化、信息化、科学化、精准化,提升省农业机关的管理水平,推动农业现代化与新型工业化、信息化、城镇化同步发展。
项目建设投资预算?万元,资金来源为省级财政拨款。其中农业大数据平台基础硬件建设费用?万元,大数据系统、云计算管理与应用软件采购、开发与部署?万元,采购外部服务如IDC机房托管环境、时空大数据与网络连接等?万元,项目管理、施工、项目推广、项目监理与招标等其它费用?万元。
项目建设的主要内容清单如下表:
序号 | 名称 | 技术参数 | 配置说明 | 单位 | 数量 | 预算 (万元) |
1 | 农业大数据平台硬件部分 | |||||
1.1 | 大数据及应用服务器 | 32核心CPU,256GB内存,1200GB 10K硬盘12块,标配RAID5带512MB缓存,4口千兆电口网卡。 | 数据存储服务器8台,数据采集服务器4台,数据处理与分析系统8台,预留资源两台,运行大数据系统,通过大数据的方式分配资源。 | 台 | 20 | |
1.2 | 数据交换前置机 | 8核心CPU,2G以上主频,16GB内存,1.2TB 10K硬盘2块,标配RAID1,双口千兆电口网卡 | 采用虚拟/物理机两种部署方式,满足安全域要求。 | 台 | 10 | |
1.3 | 核心交换机 | 双冗余引擎,双电源,提供8个业务插槽,配置双24口万兆接口板带满配万兆多模光模块,交换容量≥178TB,包转发率≥86400Mpps。交换机需支持双机虚拟化。 | 通过双机虚拟化,构成冗余网络核心 | 台 | 2 | |
1.4 | 接入层交换机 | 双引擎,双电源,提供6个业务插槽,配置四个24口千兆电口接口板,两个16口万兆多模光模块带满配万兆多模光模块。交换容量≥25.6Tbps,包转发≥12000Mpps。 | 连接核心交换机与服务器等设备 | 台 | 2 | |
1.5 | 网络安全设备 | 配置千兆以太网口4个,万兆多模光接口6个,系统配置冗余电源,具备SQL注入、XSS、CSRF等WEB攻击防护功能、URL访问控制功能、防盗链功能、报表分析及告警功能。并发连接≥300万,网络层吞吐量≥10Gbps,应用层检测能力≥4Gbps;支持透明代理,反向代理,旁路部署等。 | 两台应构成热备集群。 | 台 | 2 | |
1.6 | 管理工作站 | i5-4460或更高CPU,4G内存,500G硬盘两块,GT720 1G独显,带DVD,千兆网卡,Win10操作系统,23英寸显示器,有线键盘、鼠标。 | 用于系统维护与管理。 | 台 | 4 | |
农业大数据平台硬件部分合计 | ||||||
2 | 农业大数据系统软件部分 | |||||
2.1 | 大数据系统 | 包括大数据采集系统,大数据存储系统,大数据交换系统,大数据分析系统等四个部分。 大数据采集系统对不同数据源的不同数据格式的数据进行统一的数据清洗、转换、过滤、查重和补充聚合,转换为统一的数据进行存储;支持实时操作如Syslog,SNMP,Flume,SparkStreaming等数据源的接入,支持非实时如FTP,FTP增量获取,RDB数据,SCP,Spider互联网数据爬取等方式;支持本地文件、远程FTP、SFTP等方式的文件采集;文本数据、音视频数据和外部采购数据(如果有),都可以使用文件加载的方式进行数据存储;大数据平台支持多种格式的文件加载,包括txt、word、PDF、csv、excel、log等;采用Sqoop技术,对各种关系型数据库进行数据抽取,通过目标数据库的JDBC连接,实现定制化的数据库表的逐条抽取或批量抽取,实现快速配置,稳定无误的进行数据导入;可实现数据从关系型数据库导入到HDFS、HBase、Hive,以及将数据从平台导入到关系型数据库,并提供图形化操作界面;针对日志型数据通过Flume进行采集,具有极高的数据采集和加载能力;Nutch负责对互联网数据进行爬取,经过改造,可以在大数据平台上实现并行的、可细粒度配置的网页采集等;提供标准 JDBC、ODBC 驱动,ODBC驱动至少兼容linux、windows (64 位)等传统数据库接口;HBase通过合理的表结构设计可以实现对制定字段的快速查询响应,响应速度毫秒级;同时通过solr技术实现全文索引功能,支持对模糊查询和只能索引功能; 大数据存储系统包括大数据平台管理、工作流、平台管理、元数据管理、 分布式数据库HBASE等;包括系统的自动安装部署、集群的告警监控、图形化节点配置管理功能、用户权限管理、角色管理、作业调度管理、文件副本管理、日志查询审计、分布式文件存储管理等;工作流来解决多任务之间的协调关系,流程包含了多个作业之间的依赖关系及相互顺序;工作流应包含流程制定、流程配置、流程管理(流程启动、停止、终止)等功能;提供丰富的平台管理组件,其中包含监控和运维模块,提供对系统的软硬件资源、任务运行状态、数据状态的监控和管理,保障系统能够稳定的运行。包括集群服务监控、集群CPU监控、集群内存监控、集群网络监控、集群磁盘监控、任务监控等;支持Hadoop服务的自动部署,可以通过管理控制台进行集群节点和服务的启动、停止、删除等操作;元数据管理:包括元数据自动获取、元数据导入、元数据维护等功能;系统可以按照需求进行扩容,在加入新的设备时计算性能可以线性增长;平台采取副本备份机制,可以有效保证在服务器故障时系统的正常运行,保证数据的准确性和全面性;平台对外提供如下数据服务:BigDB服务提供高并发高可扩展的数据库服务,对外提供JDBC接口,标准SQL;全文检索BigSearch服务:毫秒级对数据任意维度的全文检索服务,支持Term检索和统计聚合类检索,对外提供Rest服务;数据存储服务:支持海量数据的存储服务,采用Kerberos权限控制,保证数据访问安全; 大数据交换系统提供异构数据交换功能,实现不同业务场景下对多源、异构的数据内容的异步或同步的转换、交换、共享需求;支持的存储包括:HDFS、Hbase数据库、检索引擎、SparkSQL表、外部关系型数据库(MYSQL/Oracle)以及远程FTP和其它集群的HDFS;数据交换支持按自定义周期或一次性、条件触发等方式;提供交换过程的完整性、可靠性、安全性保障; 大数据分析系统支持文本、数据库、算法等方式的数据分析挖掘;提供高效的运行数据挖掘算法,挖掘有价值信息;通过界面配置方式对数据多维统计分析,采用Spark技术实现了类似传统数据库的行列过滤,Distinct,GroupBy/Count/SUM/MAX/MIN/AVG等聚合函数,Having过滤等;Hbase数据库的标准SQL分析,支持标准SQL对Hbase数据进行增删改查操作,底层采用Hbase存储,支持水平无限扩展,可以作为交互式分析工具,支持传统BI进行数据仓库类分析;组件化ML分析,支持常用的分类、聚类、分词、文本挖掘、推荐算法等机器学习算法;能够从数据仓库或者HBase数据库中将数据装载入内存或 SSD 组成的分布式内存列式缓存,进行交互式SQL分析和数据挖掘。 | 委托研发 | 套 | 1 | |
2.2 | 云计算管理 | 实现计算与存储、网络资源的虚拟化及云资源的统一管理,云计算服务、云存储服务、云数据库服务的统一调度,用户和管理员能简单方便地申请和管理云机资源;包括:云主机管理、备机管理、云主机状态监控、权限管理和系统日志等。 | 使用成熟产品,总计四台服务器组成云计算环境的需要。 | 套 | 1 | |
2.3 | 农业大数据标准体系建设 | 农业大数据标准体系通过定义一系列的体系规范,来规约数据的采集、存储、分析、管理和数据的表达、发布、交换的各种格式、方法和规范。 | 套 | 1 | ||
2.4 | 农业监测数据库建立 | (1)通过遥感手段采集农业生产中的各项数据,建立农业生产监测数据库,包括各类农作物长势、面积、病虫害、受灾情况、农作物产量等信息。(2)通过交换数据的方式,获取相关农业资源信息,包括土地资源、水资源、气候资料、生物资源数据、灾害数据等。(3)通过政府公开数据,建立农业行业信息监测子数据库,包括种植业、果业、畜牧、产业化、农业市场、农业科技、农业发展、农业机械、质量监测等资料。 | 套 | 1 | ||
农业大数据系统软件部分合计 | ||||||
3 | 外部服务支持 | |||||
3.1 | 机房托管 | 计算、存储、网络等核心设备托管到IDC机房,8个42U标准机架,按年度计算。 | 采用专业的机房环境及运维服务,确保7*24有人值守。 | 项 | 1 | |
3.2 | 网络链路 | 运营商千兆裸光纤接入,连接省农业厅与IDC机房。 | 采用冗余链路,不同的运营商各提供一条,防止单点失效。 | 条 | 2 | |
外部服务支持合计 | ||||||
4 | 其他配套费用 | |||||
4.1 | 项目管理与施工费 | 项目管理、实施与系统推广费用。 | 项 | 1 | ||
4.2 | 建设监理费 | 系统建设监理费用。 | 项 | 1 | ||
4.3 | 招标代理费 | 系统招标服务费等,中标方承担。 | 项 | 1 | ||
4.4 | 项目其他费用 | 运杂费、培训费、差旅费等项目相关费用及其他不可预见费。 | 项 | 1 | ||
其他配套费用合计 | ||||||
项目总计 |
***遥感业务标准报价 | |||||
工作内容 | 明细 | 单价(元) | 规格 | 数量 | 金额(元) |
遥感数据资源与预处理 | |||||
高分一号 遥感影像数据 | 原始数据(全色2m、 多光谱8m) | 景 | |||
高分一号 遥感数据预处理 | DOM正射影像(2m) | 景 | |||
高分二号 遥感影像数据 | 原始数据(全色1m、 多光谱4m) | 平方公里 | |||
高分二号 遥感数据预处理 | DOM正射影像(1m) | 平方公里 | |||
亚米级 卫片影像数据 | 原始数据(0.5m) | 平方公里 | |||
亚米级 卫片影像数据 | DOM正射影像(0.5m) | 平方公里 | |||
无人机影像 | 无人机影像(亚米级) | 平方公里 | |||
无人机影像处理 | DOM正射影像(亚米级) | 平方公里 | |||
遥感数据资源与预处理汇总价 | |||||
工作内容 | 明细 | 单价(元) | 规格 | 数量 | 金额(元) |
遥感处理作业 | |||||
农业资源审查 | 农作物长势 | 平方公里 | |||
农作物病虫害 | 平方公里 | ||||
农作物受灾面积 | 平方公里 | ||||
农作物估产 | 平方公里 | ||||
遥感处理作业汇总价 | |||||
标准报价 |