资源预览内容
第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
亲,该文档总共7页全部预览完了,如果喜欢就下载吧!
资源描述
认识大数据(一) 作者: 日期:也谈大数据(一) 记录中的世界2015年9月24日 孙波 今天去听了个讲座,关于大数据和云计算,主讲老师主要围绕大数据的一些基础和应用示例以及数据安全方面,有一点收获,有一点想法,很多老师没有提到的东西,还有些自己对大数据理解已经沉淀很久了,特此写下来。主要是关于大数据的认识。一、大数据的概念 讲座上,老师讲的大数据概念,几乎和百度百科上的一样:大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。然而这样的“大数据”对我们又有什么价值呢?我觉得,我们所提到的大数据,必须是以能从中挖掘出一定价值的,能指导我们现实生活作为前提条件的。 我理解的大数据有两个层面:1、广义的大数据概念。 广义的大数据,就是“人类通过信息化手段将现实世界记录为数据的集合”。或者说,其本质是在人类世界目前的所有信息化系统下,产生的数据集合,这些数据汇集成一个映射现实世界的虚拟信息世界。这个虚拟信息世界的所有数据,即广义大数据,也就是说,广义的大数据有且只有一个。2、狭义的大数据概念 狭义的大数据概念,是指围绕某一对象,以及某一时间范围进行考察,该对象在该段时间内通过各种信息化途径产生的数据的集合,称之为“大数据”。这里引入“对象”的概念,是建立在我前面提出的“大数据必须是有价值的”这一基础上的,要让大数据产生价值,就要有目的性的去挖掘、分析、统计,并为某些对象提供服务,就好像肉对狗有价值,草对羊有价值,考察对象至关重要。二、三个世界 为了进一步阐述我的大数据观点,这里我提出“三个世界”的观点,所谓三个世界,是指“客观世界”、“记录世界”、“认知世界”1、客观世界 “客观世界”指的是唯物主义理论中的世界,它不以人类的认知为界限,不为人类的意识所改变。是一个客观现实,不管人类是否探索到,或者是否了解,是否理解。2、记录世界 “记录世界”可以说是数字化的“客观世界”,是人类在生产、生活过程中对“客观世界”的发现和有意或者无意的信息记录。一定程度上是对“客观世界”的信息化映射。3、认知世界 “认知世界”是指人类对客观世界的认知,从而产生了一个在人类文明中的“世界”,这个世界里包含了人类各个历史阶段各个层次的文明,从地心说到日心说,牛顿定律到相对论等等,也是指人类科学和社会意识形态中所理解的“世界”。“认知世界”是人类试图去探索“客观世界”,去理解“客观世界”的成果。通常“认知世界”是一部分人类专注于对“记录世界”的分析研究和归纳总结后产生的。为了更好的说明这三个世界,我举一个例子。描述1:孙波生活在地球上,地球上经常有火山喷发。描述2:孙波每次打喷嚏都会写进日记。地球上每次火山喷发也都有人类记录。描述3:若干年后,通过这些记录,人们有一个惊人的发现:孙波每打100个喷嚏,就正好会有一座火山喷发,于是科学家推导出这个理论:每当孙波打喷嚏的次数能被100整除,就会发生火山喷发。从此,每当孙波打90个喷嚏的时候,火山周围的村民就会搬迁或者躲到地下。 上面三个描述,描述1就是客观世界,描述2就是记录世界,描述3就是认知世界。虽然例子举得荒诞,但是人类文明就是在这样三个世界中轮转进步的,比如太阳历和月亮历的建立,看云、看日晕、看月晕识天气,等等那些古老的常识,就是通过对客观世界的观察记录,然后再在记录中分析总结,得出结论,人类对这些推导和理论,在一开始往往是知其然而不知其所以然的,新的研究会解答之前的疑问,却会带来新的问题。 事实上,人类科学文明就好比在剥一个由客观现实做成的洋葱,每剥开一层就是科学文明有一次进步,这个洋葱会越剥越小,但是永远剥不到核心,可以一直剥下去。 这个就像儿子问我的问题:“为什们蜻蜓低飞就是要下雨了?”,“因为下雨前气压低湿度大,飞虫翅膀湿了飞不高”;“为什么翅膀湿了就飞不高?”,“因为小水珠比较重!”;“为什么小水珠重?”,“因为水的密度比空气大!”;“为什么水的密度大就重?”,“因为万有引力,质量越大,引力越大!”,“什么是万有引力?”“”。 其实,当年劳动人民看到低飞的蜻蜓就知道要下雨,根本不知道后面这么多为什么。而万有引力也不是问题的终点,至少目前的相对论指出:万有引力的根本是质量对时空的扭曲。而即便是大名鼎鼎的“相对论”,我儿子也能大胆的问上更多个“为什么?”三、记录世界的重要性 很多时候,人类对客观世界进行了记录,然后要在很久之后才能发现其中的规律,产生新的认知理论。因此,记录世界是人类主观意识下,对客观世界的映射,而其中蕴藏的秘密,或许等待着我们去发现。 如实、客观、标准化的记录,并且该记录可以长期保存,准确还原,这样的记录具有最大的价值。四、“大数据”时代为什么现在到来 先让我们回到“大数据”的官方定义,以及它的特性,我们看到,大数据有以下几个特性: 容量(Volume):数据的大小决定所考虑的数据的价值的和潜在的信息; 种类(Variety):数据类型的多样性; 速度(Velocity):指获得数据的速度; 可变性(Variability):妨碍了处理和有效地管理数据的过程。 真实性(Veracity):数据的质量; 复杂性(Complexity):数据量巨大,来源多渠道; 大数据为什么现在到来?因为现在的人类技术让“大数据”有了存在的可能。 记得1997年的时候,我在大学念书,好友汪明写信告诉我,他买了一个4.3G的大脚硬盘,哇!4.3G啊,让我激动不已,那时候还是用10多张1.44M软盘装win95的年代,一张600M光盘里有200多个游戏,就像宝贝一样,我这个计算机专业的人家里,硬盘是540M的,还分了C:D:E:F:4个区,现在人家居然买了4.3G的硬盘。 别的方面,我就不再讲一遍计算机的发展史了,知名的摩尔定律说明了一切。 据我所知,目前的大数据相关概念,其实很早以前就有了,当年我学过一门课程叫做“数据挖掘”。在某些时候,其研究的对象,就类似与目前的“大数据”,只是很多时候,供分析研究的数据仅限于专业领域,其复杂性,多样性和实时性不足,这一方面和“大数据”理论有偏差。 而互联网发展到大约2010年,智能手机把移动数据终端,GPS放到每个人的口袋里,这可以说是一个“大数据”理论的“奇点”。 回到那个我打喷嚏的故事中来,我每次打喷嚏都写在日记中,所以可能有一本包着塑料红书皮的孙波日记在我床头的抽屉里。而每次火山喷发,都有史料记载,然而,不同地方的火山喷发情况却分别独自记录在各地的某些科学家的书本上,有罗马文的,有英文的,有中文的,这些记录都是对现实世界的记录,也共同组成了我理论中的“记录世界”。然而,孙波日记放在我的抽屉里,各地的火山记录也散布各处,这样的情况下,就算一万年,也不会有人发现“孙波每打100个喷嚏,就会有1个火山喷发”。 直到如今,信息化时代到来,各地的地质学家和历史学家把各自的火山喷发数据按照时间索引汇集成册,纂书一本地球火山历史然后发到互联网,同时,我把我的日记放到了QQ空间,再然后,孙波的一个学地理的网上好友无意间发现了这个惊人的规律:孙波每100个喷嚏就会让一座火山喷发。 补充说明,这个“孙波打喷嚏引发火山”理论,如果时间和实践证明这一理论可以指导现实,那么即便现在看似无厘头,但是背后一定有一个还不为人所知的科学。同样,如果之前的依据只是巧合,必然会在时间的考验中被检验,被否定。这是人类文明的发展规律。 如果说无意识的数据整合后,发现了新的规律,叫做“惊人的发现”,那么有意识的去融合多样化的、复杂的、巨大的数据去发现规律,得出总结,这就是“大数据应用”了。五、数据融合是大数据的关键 信息化技术的日新月异,让很多不可能变为可能,催生了很多服务人类的专业应用,比如智能手机、汽车导航、网上购物、远程医疗、或者细化到目前智能手机上的各个APP,这些应用无时无刻都在运作,在它们运作的时候,都附属产生了数据,这些数据基本是标准化的,及时的,真实的。 汽车行驶的坐标、人们购买的物品、你的血压心律、等等都被保存在每个不同应用的数据库中。也就说,目前爆炸式增长的信息系统正在以前所未有的规模和各式各样的方式即时记录着我们的客观世界。如今是“记录世界”大爆炸的年代,“记录世界”就是广义概念的“大数据世界”。 各个应用虽然也能通过各自为政的数据信息中分析统计和数据挖掘,但是价值有限,于是,“大数据”被提了出来。从广义上讲“大数据”已经放在那里了,就看怎么应用了。 “孙波打喷嚏引发火山”的理论,是以时间线为基础,将火山喷发时间和孙波打100的整数倍喷嚏的时间作为融合点,研究分析得出的理论,试想,如果在孙波日记中忘记写日期,那么这个理论也就无从考证了。 所以,在大数据应用实践中,也就是狭义的“大数据”理论中,有一个考察对象的概念,该考察对象的某些属性,应该是融合数据的核心基础。举例来说,如果结合手机定位和淘宝购物两个不同系统的数据分析不同地区的人的购物习惯,那么考察对象就是人,而这两个系统必须有一个融合点,就比方说是身份证号,或者手机号,通过融合点,可以把两块本来不相关的数据融合起来,才能形成有价值的大数据,从而分析出,比如:上海人喜欢买鲜肉月饼,北京人喜欢买甜月饼。这个融合点类似于关系数据库的主键和外键一样,可以把两个数据表联合起来。六、总结陈词 要总结的是怎么做“大数据应用”,为什么要加上“应用”,因为大数据本身已经存在了,且本身也不会自动产生价值,只有人们有意识的去融合数据、挖掘信息、并总结归纳,然后再用于新的领域起到指导作用,才会产生价值,这就是“大数据应用”。 要让大数据价值最大化我认为要做到以下几点1、信息化系统数据规范的统一 虽然在“大数据”名词解释中称大数据是“无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理”,但是让“记录世界”的各项记录标准化,是更加有利于大数据融合的,前面说的,对什么地方的人的购物习惯的大数据分析就是基于身份证号码和手机号码的标准化。2、客观记录尽可能多和真实的数据 比如淘宝系统,或者阳光太仓人才网。在开发设计系统时,用户什么时候下单,求职者什么时候应聘,数据记录中可以精确到日,也能精确到秒,可以保留ip地址信息,也能不保留。但是,如今的信息技术,让记录更加精确的数据的代价变得很小,有些数据,虽然以目前的眼光或者以割裂的方式来看价值不大,但是还是应该尽可能去记录,也就是说,在代价不大的情况下“记录世界”越详细越好,越有利于大数据的应用。3、找到融合点产生新价值 我们知道,画一个坐标系,如果横坐标是时间,纵坐标是速度,记录数据呈现的斜率就是加速度。如果横坐标是时间,纵坐标是路程,那么记录数据呈现的斜率就是速度。类似的二维表在统计学上经常被使用,其实就是两组数据的有机融合,产生了一个对我们有价值的信息。在人力资源方面,比如学历+薪酬,年龄+工伤概率,籍贯+离职率,等等大数据融合,都能产
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号