最新生态环境大数据平台建设规划设计解决方案-

生态环境大数据平台建设规划设计解决方案1. 整体设计思想*省生态环境大数据平台立足于*省多种生态环境数据；通过多种渠道，采集与生态及环保有关的海量数据；采用目前最前沿的大数据技术（并行计算技术、人工智能技术），对数据等进行挖掘建模和机器学习建模，通过数据挖掘发现隐藏于其后的规律或数据间的关系，充足挖掘这些数据的价值，从而形成能实际应用于民生的新生数据；作为专家及政府的决策根据，辅助政府精细化决策,辅助专家预测将来也许有浮现的环保问题；并能解决现实中真实发生的环保问题；从而改善环境，提高居民生活环境的质量，和百姓生活的福祉。平台建成后，将形成一种完整的基于大数据的生态环境数据智能化收集、智能化核算分析、智能化发布和智能化监管体系，这一平台体系可以把*省生态环境状况，全面、直观地呈现给政府部门和社会公众。同步环保部门可以重点关注核电站周边生态环境实况。通过可测量、可核查的生态环境数据，为*省的生态环境现状评估、趋势预测、潜力分析、目的制定与跟踪，提供决策服务，进而实现对生态环境重点污染源、生态环境动态变化进行有效监管，并为建设生态环境交易市场体系奠定基本。从使用者的角度看，所有的平台数据集中到统一的逻辑平面上来；平台以省、市、县分级别多视角展示生态环境实时信息，以全息,动态的地图形式全方位地呈现给使用者。平台为各类使用者提供不同的观测视角；领导能查看实时汇总信息，核辐射区大气实况；环保工作能查看各类精细报表与指标，并能搜索工作中所需要的信息。呈现方式有：电子大屏幕播放，WEB浏览, 手机APP访问等三种方式。从数据解决的角度看，平台运营后将建成以生态环境数据为中心的开放式数据中心，广泛收集来自气象，农林，海洋,交通，能源, 车联网等第三方数据，同步也给第三方输出数据并分享成果数据；为后续深度学习积累数据样本，将来平台具有很强的自我学习能力。2. 顾客使用场景环保领导大屏查看全局实时信息状况，核核辐射区大气实况,查看汇总报表，指挥环境突发事件解决。环保科学家使用多级分析报告，生成各类分析成果，导入环保知识库，搜索各类数据。环保工作者输入各类数据，根据决策系统认领分发任务。市民订阅环保信息，上传个人采集数据。3. 数据解决场景平台将形成以生态环境数据为中心的开放式数据中心,数据来源有来自环保厅的自有行业数据，广泛收集与环境有关系的第三方数据，定期抓取互联网数据，也接受来自市民提交的数据。如下图所示，数据解决场景为了数据安全，平台提供了数据安全子系统，用于数据安全，数据进入平台有两种方式，一种是直接进入解决中心，另一种是通过数据安全中心加密后进入解决中心，加密后的数据与其他数据在平台里是没有区别的，解决进程在使用数据内容时需先行解密后方可使用。进入平台的数据寄存在数据仓库中。永久寄存的数据就内容来说，分为原始数据，对象数据，构造化数据，成果数据；原始数据是指没进行任何解决的裸数据，对象数据是有属性，能用元数据来标记的数据，构造化数据一般指数据库，成果数据由解决系统来拟定格式，是其他数据经解决后的有实用意义的成果。固然平台也会把数据解决成果输出给顾客，在原始数据拥有者的许可下，成果可以共享。4. 架构设计概要系统采用分层设计方案，如下图所示，系统分为三个层次：应用表达层、数据解决层、并行计算环境层；另有两个子系统:数据接口子系统、运营保障子系统。把与实际业务有关的模块集中在应用表达层，把数据解决有关的放在数据解决层，由并行计算环境层提供海量的存储与大规模计算，数据接口系统作为平台统一的数据来源，及输出接口;运营保障子系统给整个平台提供不间断的运营维护及安全保障。总体构成4.1. 数据接口子系统平台数据办输入与输出功能所有由数据接口子系统来完毕，核心数据由环保部门的监测数据以及从手工导入历史数据构成；第三方采集数据，互联网抓取数据，市民上传数据是重要的补充部分；数据全集必须在内在的逻辑方面形成一种完整有效的数据链，以便人工智能模块进行多维度分析。针对核与辐射的土壤监控，采用数据动态同步方式，数据来源重要来自*辐射监督站开展的年度监测工作，涉及土壤样本的实验分析成果、辐射本底调查数据等。将核电厂周边区域的土壤环境质量进行动态监控。同步，在历史数据挖掘的基本上，研究放射性物质在土壤中的迁移规律。针对核与辐射的土壤监控，采用数据动态同步方式，数据来源重要来自*辐射监督站开展的年度监测工作，涉及土壤样本的实验分析成果、辐射本底调查数据等。将核电厂周边区域的土壤环境质量进行动态监控。同步，在历史数据挖掘的基本上，研究放射性物质在土壤中的迁移规律。4.2. 应用表达层应用表达层通过调用数据解决层的功能来完应用系统的功能，但凡与具体应用无关，可以抽象出来的功能，均在数据解决层实现，各应用系统不用单独开发相应功能。总体上来看应用表达层完毕如下功能:a.实时动态按省市具区域、按类别、按管理功能的数据可视化显示。b.掌握生态环境数据库，实时掌握生态环境的变化。c.区域生态环境信息、公司生态环境信息、工业生产过程生态环境量、能源种类生态环境量、废弃物生态环境量、生态环境汇集等。d.可视化运营监测，全面能耗监测，为宏观分析和决策提供数据分析支撑。e.辐射环境大气监测应用*省核电发展迅猛，在建的宁德核电厂与福清核电厂分别于和投产发电，规划建设的三明快中子反映堆项目已通过可研，目前*省规划建设和在建的核电机组共十几台，这些能源项目的启动和建设，将大大缓和*省电力能源供应紧张的局面，奠定海西大型能源基地的地位。同步，也树立了*省作为核电大省的地位。由于核辐射看不起，摸不着，但却是人民群众密切关注的，这就需要与之相匹配的辐射环境大气自动监测网。将来*省将建成核电厂辐射监测系统、监督性监测系统、国控点、省控点等多种监测平台，提供各类的大气辐射环境在线、离线监测数据，但对于这些多来源的数据如何解决、整合，进而开发有关的数据功能，还需进一步的工作。通过对辐射环境类大气监测数据的大数据挖掘，实现核与辐射数据的有关业务应用。4.3. 数据解决层数据解决层建立在并行计算环境层基本之上，为应用层提供数据计算服务，本层分为两个部分：环保推荐引擎，常规大数据解决；常规大数据解决为上层及推荐引擎的数据记录、数据分析、数据预警、数据挖掘提供支撑平台。环保推荐引擎完毕数据挖掘与专项分析任务，为上层提供鉴定成果。集成多种模型算法，优化核算模型，温室气体排放因子测算, 对排放因子测算和数据质量控制，进行精确性判断。为都市管理者提供现状评估、趋势预测、潜力分析、目的制定分解及跟踪等辅助决策服务。通过成立专家评估委员会，对排放系数的有效性进行分析，特别是对某些强制性指标加以进一步推敲。控制指标涉及排放系数记录信息分类的所有指标。建立公司生态环境价值评估模型, 分析研究重要行生态环境对比研究行业不同规模、不同性质、不同层次的温室气体排放状况，融合生态环境的核算、因素分解分析、模型、峰值预测、情景潜力研究和*省减排途径分析，为低生态环境方略制定提供可量化的决策根据。建立生态环境评价与挖掘平台，自动完毕重要行业基于温室气体排放分析研究报告，为工业源的温室气体排放研究、评估以及将来的控制政策提供支撑支持。重要实现功能如下：a.为实现生态环境交易提供数据决策支撑服务。b.针对环境发展通过大数据建模，对生态环境将来进行预测和预警。c.针对生态环境的决策，根据生态环境基本数据，建立大数据模型，并进行深度分析，得出生态环境配额，生态环境足迹分析等多种专业问题的结论。d.建模，以支持节能减排降生态环境目的的预警调控方案。e.低能耗低排放产业分析。f.为调节优化能源消费构造提供数据支撑等h.气象数据耦合计算所有的大气环境污染，都在在大气环流中弥散传播的。如果要通过监测数据对污染源进行追踪，则需要同步耦合大气扩散数据进行反向的溯源计算。环保气象数据处工功能重要负责接入全省实时气象数据和预报数据，将其解决为可供各个其他应用的基本数据，并提供有关的计算模型进行反向耦合计算。4.4. 并行计算环境层并行计算环境层是大数据平台的核心驱动层，其基本计算能力直接影响上层的运营效率与运营速度。并行计算环境层为上层提供大规模计算与存储服务，并行计算环境层由工作流协调解决系统,并行式计算系统.数据仓库,并行式文献系统构成; 并行计算环境层由一种服务器集群构成，集群规模随着平台的计算需求进行扩大。5. 平台建设核心技术大数据是指一般的软件工具难以捕获、管理和分析的大容量数据,一般以PB来计量(1P=1024T,1T=1024G);其意义不仅仅在于容量之大，更大的意义在于通过对海量数据的互换、整合和分析，发现新的知识，发明新的价值；一般人们用4V特性来描述大数据； Volume(容量) 根据IDC(国际数据公司)的监测记录，全球数据总量已经达到1.8ZB(1ZB等于1万亿GB，1.8ZB也就相称于18亿个1TB移动硬盘的存储量)，而这个数值还在以每两年翻一番的速度增长，估计到全球将总共拥有35ZB的数据量，增长近20倍。 Variety(多样性) 大数据的异构和多样性诸多不同形式（文本、图像、视频、机器数据）无模式或者模式不明显不连贯的语法或语义。 Value(价值) 价值一般也被理解为价值密度，也就是说根据大量的不有关信息进行深度复杂分析，对将来趋势与模式的做出可靠的鉴定，从而发现数据的价值。 Velocity(高速率) 大量的数据需要进行迅速的，实时的解决，才干在指定期间内得到成果；数据的解决措施多以批量化，分布式为重要解决方式。从以上大数据的特性分析可知，我们生态环境的海量数据价值发现的核心前提条件是: 1.大规模的基本运算能力与海量的存储能力。 2. 高效的数据价值提取算法。在分布式/并行式计算系统没有浮现之前，大规模的计算资源只能由超级计算机来提供，这是一种昂贵的资源，把大部分中小团队拒之门外；约云计算技术开始发芽，至前左右随着云计算技术的发展成熟,大规模分布式/并行式计算系统也得到了发展壮大，并迅速成熟起来；分布式/并行式计算系统能把便宜的大批量硬件组合起来，提供一种便宜的大规模运算能力与海量存储能力；因而目前技术发展已能满足第一种前提条件。仅有大规模运算能力还是不够的，使用人工智能技术是解决复杂非线性计算的核心；如：美国超级计算机深蓝，仅使用其强大的计算能力，没有使用人工智能技术的状况下，与围棋大师的较劲中最后还是败下阵来；而使用了深度学习技术的智能象棋程序，在自我学习8年后容易就打败了象棋大师。人工智能的发展历史很长，几乎是和计算机技术一起发展的，但是大部分人工智能算法不能应用于人们实际生活中，直到近年深度学习算法的发展与成熟，深度学习算法被证明在解决大数据时是行之有效的，其成果已经在人们实际生活中起到了的较好的作用，如：苹果的SIRI,微软小冰，多种BI产品，人脸辨认等。因而深度学习算法的成熟是满足第二个核心条件的最佳解决方案之一。6. 平台模块设计整个平台是松耦合的,多模块并行开发；数据接口系统，与大数据解决层及资源层是应用系统的基本，因而在各系统设计开发之初必须优先拟定好各个接口定义，方可各自设计与开发。6.1. 环保平台应用表达层设计应用系统分为平台通用功能模块以及多种专项子系统构成；应用系统通过调用生态环境推荐引擎和其他大数据分析技术来完毕就用系统的功能，不须要单独开发自己的底层数据分析功能。平台可视化功能是通用功能，可觉得各个应用系统所用。7.1.1 通用功能设计7.1.1.1可视化呈现功能可视化呈现，就是把所有的最后成果数据以全息地图方式呈目前使用者面前，其所有的信息均具有地理属性。重要功能如下：a.实