资源预览内容
第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
第5页 / 共6页
第6页 / 共6页
亲,该文档总共6页全部预览完了,如果喜欢就下载吧!
资源描述
大数据及其特点(1)胡经国一、大数据定义据了解,目前大数据这一概念尚无大家公认的统一定义。下面仅介绍关于 大数据定义的一些常见表述,供读者参考。1、表述1大数据(Big Data )是指一个数据集,它的尺寸大到已经无法由传统的数据 库软件工具去采集、存储、管理和分析。Big Data referes to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. MGI May, 2011大数据是指一个数据集,它的尺寸的增长已经让现有的数据库管理工具相 形见绌,这些困难包括:数据采集、存储、搜索、分享、分析和可视化。Big data are datasets that grow so large that they become awkward to work with using on-hard database management tools. Difficulties include capture, storage, search, sharing, analytics, and visualizing. Wikipedia2、表述2大数据是指需要用新的处理模式处理才能使其具有更强的决策力、洞察发 现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上 看,大数据是指无法使用传统流程或工具处理或分析的信息。它定义了那些超 出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。3、表述3大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合 理时间内达到掘取、管理、处理、并整理成为帮助企业经营决策达到更积极目 的的资讯。4、表述4美国咨询公司麦肯锡给出的大数据定义:大数据是指其大小超出常规数据 库工具的采集、存储、管理和分析能力的数据集。由于传统数据库有效工作的数据上限一般为1010 0TB ;因而10100TB 通常成为大数据的“门槛”。无独有偶, IDC (国际数据公司)在给大数据做定义时,也把大数据的 “门槛”设在100TB。其实,这种方法未必科学。不管怎样,有一个简单明晰 的数值来指导对大数据的判断总是好事。5、表述5维基百科给出的大数据定义:所谓大数据在当今的互联网业界是指这样一 种现象:一个网络公司日常运营所生成和积累的用户网络行为数据“增长如此之 快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、 存储、搜索、共享、分析和可视化等方面。”这些数据量是如此之大,已经不能 用我们以所熟知的多少 G 和多少 T 为单位来衡量,而要以 P、E 或 Z 为计量单 位来衡量,所以称之为大数据。6、表述6国际数据公司(IDC)是从大数据的4V特点来定义的,即:海量的数据规 模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据 类型(Variety)、巨大的数据价值(Value)。7、表述7大数据是指以多元形式、从许多来源搜集而来的往往具有实时性的庞大数 据组。在企业对企业销售的情况下,这些数据可能来源于社交网络、电子商务 网站、顾客来访纪录,还有许多其他来源。这些数据并非公司顾客关系管理数 据库的常态数据组。8、表述8大数据是指所涉及的数据量规模巨大到无法通过人工、在合理时间内达到 掘取、管理、处理、并整理成为人类所能解读的信息。大数据的特征,除了巨 大、快速、多样多变之外,没有其他。因此,大数据本质上还是数据。9、表述9故名思意,大数据便是数量巨大,类型众多,结构复杂的数据集合。数据 具有较小的价值;而数据集合因为数量众多,量变引起质变,所以其价值无可 估量。10、表述10大数据是指所有数据的集合,具有4V特点,即:数据量大(Volume)、 数据类型多样(Variety )、生成速度快(Velocity )、蕴含巨大价值 (Value )o二、大数据到底有多大据报道,有记者就大数据有关问题对有关专家进行了访谈。现将其访谈录 介绍如下,供读者参考。记者:对于大数据有一个形象的说法:现在即使是一个孩子也可以把一个 小小的存储器放入书包,随身携带 TB 级的数据去学校上课,甚至把整个人类 文明背上都不是问题。经过大量数据的训练和装备,未来的电子产品或者机器 可以成为“大有裨益的终身数据伴侣:它可以预测你是想要一包方便面还是一颗 感冒药;你想去旅游还是选择最不堵车的路线去看球赛;甚至还能以你的名义 饱蘸激情投入工作。大数据这个概念,看似从字面就能理解;但是确实以前没 有这么火过。首先,我们想知道的是,大数据到底有多大?专家:互联网搜索、电子商务交易平台和微博等社交网站所产生的各种数 据内容,经常被用来证明大数据之大。其实,在传统产业和我们的生活中,大 数据比比皆是。以北京市交通智能化分析平台为例,它的数据源是路网摄像头 /传感器、地 面公交、轨道交通、出租车以及省际客运、旅游、化学危险品运输、停车、租 车等运输行业等。4 万辆浮动车每天产生 2000 万条记录;交通卡刷卡记录每天 1900 万条;手机定位数据每天 1800 万条;出租车运营数据每天 100 万条;高 速 ETC(Electronic Toll Collection ,(不停车)电子收费(系统)数据每天 50万条这些信息,从数据体量和速度上,都达到了大数据的规模。发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之 未做、前人所不能做的机会。这也正是大数据最主要的特证。比如,交通状况与其它领域的数据都存在较强的关联性。研究发现,可以 从供水系统数据中发现,晨洗的高峰时间加上一个偏移量,通常是4045分 钟,这就是交通早高峰时间。同样,可以从电网数据中,统计出傍晚办公楼集 中关灯的时间加上偏移量来估计出晚上的堵车时间。国外的研究甚至发现了交 通事故率与睡眠质量的关联,以及与社交网络情感波动的相关性。记者:IT业界所指的数据诞生不过60多年。而一直到个人电脑普及以 前,由于存储、计算和分析工具的技术和成本限制,因而许多自然界和人类社 会值得记录的信息,并未形成数据。大数据到底有没有一个 “门槛”?关于大数 据的一些定义准确吗?专家:国际数据统计机构(IDC)对全世界每年创建和复制的信息的体量 做了估计和预测:2011年为1.8ZB, 2012年为2.8ZB。按照每两年翻一番的速 度,2020年将达到40ZB。这个数据怎么算出来的呢? IDC秘而不宣。1.8ZB是 什么概念?它相当于4500亿张DVD,或6500万年的高清视频,或1130亿台 装满数据的iPad。如果把这些iPad覆盖到足球场并往上堆叠,其高度可达到 10.3 公里,比珠穆朗玛峰还高。思科公司也有一个类似的预测: 2016 年数据移 动的总量达到1.3ZB。其实,所有这些数据加起来都不如谷歌的前CEO施密特 的下述说法有感染力:从人类文明曙光到 2003 年数以万年计的时间长河里,人 类一共产生了 5EB (天知道他是怎么算出来的),而到2010年每两天人类就能 产生 5EB 的数据。这类数据的预测对于存储和网络企业的投资者来说无疑能提升信心;但是 对其他人来说没有太大意义。他们更关心的是个体行业、企业和个人数据的状 况。美国咨询公司麦肯锡对大数据的定义就是从个体数据集的大体量入手的: 大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存 储、管理和分析。传统数据库有效工作的数据上限,一般来说为1010 0TB; 因此,10100TB通常就成为大数据的“门槛”。无独有偶,IDC在给大数据 做定义时,也把其“门槛”设在100TB。其实,这种方法未必科学。不管怎样, 有一个简单明晰的数值来指导企业对大数据的判断总是好事。三、大数据的4V特点1、大数据 4V 特点解读(1)大数据的4V特点是指大数据在 Volume (大量)、Variety (多样)、 Velocity (高速)、Value (价值)这4个方面(层面)的特点。、Volume (大量)Volume (大量)是指大数据的体量(规模、容量或尺寸)巨大,从TB级 别跃升到PB级别。二进制信息最小基本单位为 Bit (比特) ,按顺序其所有单位为: Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。其中,1 Byte (字节)=8bit其它按照进率 1024(=210)来计算,即:1KB (Kilobyte,千字节)=1024Bytes=1024B1MB (Megabyte,兆字节,简称兆)=1024KB1GB (Gigabyte,吉字节)=1024MB1TB (Terabyte,太字节)=1024GB1PB (Petabyte,拍字节)=1024TB1EB (Exabyte,艾字节)=1024PB1ZB (Zettabyte,泽字节)=1024EB1YB (Yottabyte,尧字节)=1024ZB1BB( Brontobyte) =1024YB1NB=1024BB1DB=1024NB、Variety (多样)Variety (多样)是指大数据类型繁多,如网络日志、视频、图片、地理位 置信息等等。、Velocity (高速)Velocity (高速)是指大数据处理速度快,要求满足1秒定律。所谓1秒定 律,或称秒级定律,是指对大数据处理速度有一定要求,一般要求在秒级时间 范围内给出分析结果,时间太长就失去价值了。这个速度要求是大数据处理技 术和传统数据挖掘技术之间的最大区别。、Value (价值)Value (价值)是指大数据价值密度低。以视频为例,在连续不间断视频监 控过程中可能有用的数据仅仅只有一两秒。2、大数据 4V 特点解读(2)虽然对大数据的特点有不同说法,但是业界一般认为,大数据具有 4V 特 点,即:大数据在Volume (容量)、Variety (种类)、Velocity (速度)和最 重要的Value (价值)这4个方面(层面)的特点。、Volume (容量)Volume (容量)是指大数据巨大的数据量与数据完整性。IT业界所指的数 据诞生不过 60 多年。而一直到个人电脑普及之前,由于存储、计算和分析工具 的技术和成本限制,许多自然界和人类社会值得记录的信号并未形成数据。几 十年前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出 信号的行业,但是那时 90%以上采用的是存储模拟信号,难以通过计算设备和 软件进行直接分析。拥有大量资金和人才的政府和企业,也只能把少量最关键 的信号,进行抽取、转换、装载到数据库中。尽管业界对达到怎样的数量级才算是大数据并无定论,但是在很多行业的 应用场景里,数据集本身的大小并不是最重要的,而是否具有完整性才是最重 要的。、Variety (种类)Variety (种类)意味着要在海量、种类繁多的数据之间发现其内在关联。 在互联网时代,各种设备通过网络连成了一个整体。进入以互动为特征的 Web 2.0 时代,个人计算机用户不仅可以通过网络获取信息,而且已成为信息的制造 者和传播者。在这个阶段,不仅是数据量开始爆炸式增长,数据种类也开始变 得繁多。这必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关 系的那些数据之间的关联性,把似乎没有用的数据变成有用的信息,以支持我 们做出正确的判断。、Velocity (速度)Velocity (速度)可以理解为更快地满足实时性需求。数据的实时化需求正 越来越清晰和迫切。对普通人而
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号