资源预览内容
第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
亲,该文档总共7页全部预览完了,如果喜欢就下载吧!
资源描述
维克托专场:大数据时代下的投资蓝海维克托专场:大数据时代下的投资蓝海 主持人季小军:主持人季小军:欢迎各位来到“大数据时代下的投资蓝海”录制现场,说到 2013年一个热词“大数据” ,这也是这些年关注度急剧升高的关键词。可能很多人都会有这样一 个印象,在我们身边会发生这样那样的事情,我们很难讲这里面有什么样的因果关系、逻辑 关系,因为用我们已有的知识很难解释这样的现象,但是这些事情的确在发生,我们似乎看 到其中一些关联性, 我们又无法去解释它为什么在发生。 那其实有一个作者他写了这样一本 书,告诉大家这一切的发生都是有原因的,这就叫大数据时代 。而且大数据时代更在改 变我们这个年代在重新开启一个新的时代,在改变着我们生活、工作和思维方式,就是这本 书大数据时代的作者维克托先生,下面有请维克托先生为我们发表演讲,有请。 维克托:维克托:这些照片到最后就会变成我们现在所看的电影,这样高画质的品质就是我们现在的大数据。 我们现在看看什么是小数据跟大数据。 现在我们收取数据是非常困难的一件事情, 所以 让我们想想在医学方面,医生在看病人的时候就是一个例子。最终病人得以治愈,就是根据 医生的经验, 有可能医生觉得这个办法能在这个病人身上实施, 但不一定在另外一个病人身 上有效。而我们现在努力地在得到最新的数据。这就是小数据所产生的效应,所以在这个世 界上我们尽量地有可能收集更多的资料来去确保我们的实施。 我们现在就是用这些小的数据, 能够为我们的生活产生更大的收益。 所以我们现在要重新去想现在所有的数据到底能做些什 么,我们在努力地让这些数据为我们服务。 这三种,第一个就是更多。更多的意思就是让我们能够收集更多的数据。现在我们可以 收集基本上所有的数据。 那么这儿有这样一个样本, 你要问一下你的问题, 你要问一下自己到底需要问一些什么 样的问题,也就是大家想一下,在选择这个样本的时候,到底是不是随机的选择,还是代表 整个人群的,或者代表整个人口?所以你需要事先知道所有的东西,了解所有的数据。如果 你有了这个数据, 你就有了回答问题的前提, 有了这个数据, 有的时候你可以改变这个问题, 你也可以进一步根据你自己的能力,当你收集数据之后就能很好的应对问题、回答问题,根 据很好的方式回答问题。 所以大数据另外的问题也就是数量的规模。 如果我们说到数据方面, 是代表着我们的欲望和态度,我们有了数据,能让我们了解大致的方向。 我们可以看到从大的一直到小的,我们就能找到。从微观的角度来说,我们可以获得更 多关于在微观层面更多的洞察, 这两个元素会导致关于第三个质量方面的问题。 我认为这是 最重要的方面。这也就是说,我们要从过去的方式上进行转换,我们不是去问为什么,在很 多情况下,在大数据领域当中我们可以问一下到底是什么,而不是为什么,我们要问一下什 么是最好的。我认为这种相关性,能对我们提供服务的时候进行很好的选择。特别在 Inter 网上,等一下我还会解释一下关于网上很多所谓的翻译,他们并不会告诉你到底是为什么, 而是到底是什么。 我觉得人通过因果关系了解很多关系, 人们从脑子本身希望找到原因是什 么, 虽然有的时候这个原因并不能给到你多少启示, 但人们还总是希望找到一个根源、 原因、 接口。当我长大的时候,我的母亲在冬天总是告诉我要记得戴帽子和手套,否则你会着凉。 但是我不戴手套和帽子也不会着凉。 那么着凉的话是病毒的问题, 跟你戴不戴手套和帽子没 有关系。我认为说到手套和感冒之间是一种人们心理的相信,事实上没有因果的关系,不要认为戴了手套和帽子就一定不会感冒。 可以想一下当我去到一个新的餐馆, 那个时候我第二天就生病了, 那时候我自然想到可 能在这个餐馆里面吃饭了,所以导致我生病。虽然从统计学角度来说,非常有可能,也就是 可能跟人握手有细菌, 但我的脑子马上告诉我产生一种自然的和因果的关系来解释这个信息。 有诺贝尔经济学家说我们的脑子想得太快, 那如果有了大数据, 就可以让我们的脑子慢下来。 我可以不用告诉为什么,而只是回答是什么就可以了,什么足够好,这样就足够好了。 另外,机器翻译。差不多五十年以前,美国国防部那个时候花了巨资,那个时候请科学 家来研发程序,把俄语翻译成英语,上世纪中央情报局的监听手段是非常老的监听手段,那 个时候有很多来自俄文资料,他们迫切需要把这个翻译成英文,那个时候没有很好的译员, 而是需要机器把俄语翻译成英文。 那个时候制订了250条规则, 把250条规则放在机器里面, 那个时候就搞出这样一套电脑, 那个电脑好像不是能把俄文翻译成英文, 但花了上千万之后, 科学家必须放弃,因为是不成功的。因为这个语言比设定 250 条规则复杂得多,那个时候看 来机器翻译是不行的。 到了上世纪 80 年代后期,有一家公司叫 IBM,IBM 想出这个点子,要使用官方翻译,比 如说加拿大有两种语言,英语和法语,他们那个时候从法语到英语特别好,特别是加拿大国 会开会的时候, IBM 想出一个什么点子?他们怎么做?不需要了解一般语言的规则, 而是 IBM 可以做一些统计方面的工作。他们看一下,到底哪些词、哪些话是通常用英语翻译成法语, 这是纯粹的统计方面的科学。这是一种机器翻译,后来 IBM 做得非常成功,他们试图来改进 这个算法,当然这是机器做不到。 后来 IBM 差不多二十年之后, 我们可以看到有一家小公司, 那时候叫谷歌又想到了一个 点子。他没有改变这个算法,但是他依靠互联网做统计方面的工作。那个时候谷歌所面临的 巨资并不是一百万,而是数十亿的数量级的巨资被用在电脑里,让谷歌做很好的技术,结果 谷歌现在做出很好的谷歌翻译这样的软件。 通过谷歌这个机器翻译, 现在可以进行很多语言 的破译。因为谷歌也并不需要知道为什么一个词要翻译成另外的词,它只知道翻译什么,所 以电脑根本不知道到底为什么翻译, 也就是电脑不需要了解为什么要翻, 而是只知道翻了什 么就可以了,电脑也不知道本身的意义。我认为这个足够好。 当我上了亚马逊,我用谷歌翻译,因为很多评论都是中国的,我获得很多内容,看到很 多内容。这种机器是大数据应用非常好的体现,谷歌所使用的信息量是海量的,他们使用的 数据有的时候是非常混乱的、模糊的数据,而不是非常精算,背后有很多详细的算法,可能 一开始里面有高质量的,也有一些质量很差的东西。此外,他们做得很多东西不仅仅只是具 体的了解它的意义是什么,可能只有更多的梳理。 对于这些大数据的分析, 可能对于机器翻译而言是有帮助的, 可能对于其它的互联网服 务业是一样。但其实这并不是完全如此,如果你这样认为,我想说就是错误的。那对大数据 潜在的应用,它的一个范围要更大、更广。实际上,这种情况也适合“Home”的概念。这是 一个早产的婴儿,我们说是非常小的,我们说一个早产的婴儿非常非常虚弱,对于早产儿而 言,他们的特点是非常脆弱,他可能很容易受到感染。一旦他受到感染之后,一般情况下我 们是需要给他们用药、上药,来阻止这种感染的发生,有太多早产儿都在他们刚出生或者更 早的时候去世。像多伦多大学一个研究机构,卡罗琳教授有一个想法,这个想法是使用大数 据,这样的话,他们就会有专门的传感器,这个传感器和新生儿放在一起,用来测量 1200 个点的测试,这是对一个新生儿,里面有所有跟婴儿关键的指标都得到精密的测量,然后会 进行大数据的分析。 可能并不一定知道他们到底一定需要寻找什么, 但可能试着寻找一些模 范、模式,寻找一些征兆来帮助他们显示这样的感染。同样他们会找到非常重要的 24 小时 监控,能够在他的症状表现出来之前 24 小时能有一个预警,他们就取得了一个巨大突破。 因为如果我们知道了这个感染即将发生,那么就可能提前用药、提早用药,这样就可能拯救婴儿的生命。在这里我觉得也是最重要的一点。可以说,一些最好的预测专家或者说是像水 晶球,其实是要 24 小时以后的感染,在之前我们要尽早找到重要的指标,这些小朋友的重 要的指标体征是平稳是最好的消息,其实代表着最好的预测,所有的医生也都会同意的。可 能医生考虑到只要他的体征稳定、血压稳定,他的不同的血的透样都比较好,那这个小朋友 就有救了,但对早产儿而言,有的突然稳定,其实代表着问题的征兆,在 24 小时之后可能 受到感染。 因此对于早产儿和普通儿不一样, 因此我们需要这样的数据能提供一些内部的变 化,而外在肉眼是看不出来的,不是告诉你为什么,而是告诉你可能在一个感染后面潜在的 问题, 可能只能告诉你一些发生了什么, 但是这些发生什么的信息治沙能够让我们的医生有 机会去干预。这也是大数据应用非常重要的精髓点,它使用的数据量是海量的,多得多,而 且使用大数据带来的数据, 而且使用本身数据并不是非常好, 而且他也需要非常好的协助关 注,显示出的是什么,而并不是我们要了解为什么。 如果我做一个总结,我想说对大数据而言,这意味着我们数据获得的量是最大的,而且 这个巨大的海量其实也代表着一种新的质变, 这种新的质变或者质感驱动是有越来越不同的 相关性,3D、三维能定义好大数据,能创造新的价值。我们现在也正期待和大家进行互动问 答,以上就是我的演讲,非常感谢大家的倾听。 主持人:主持人:非常感谢您。再一点掌声,谢谢大家。 对大数据的分析可能也就是在 24 小时之前有这样一个分析,你昨天的时候,我预测你 24 小时之后,有人会问你问题,有一个问答。这是一个小玩笑。 观众:维克托先生,你觉得在未来大数据行业会驱动什么样的一种巨大的革命,你可以谈得 具体一点,对我们人或者说什么样的行业会受到大数据推动所发生剧变? 维克托:首先非常感谢你。几乎所有的行业都会发生重新的塑造,会被再塑造,大数据会塑 造几乎所有的行业, 因为我们看到决策的方法获得极大的提振或改进。 可能有一些行业我们 之前也没有想到,这些行业也会发生一些重塑和巨大的剧变,我可以简单来分享两个例子, 可能之前提到医疗保险,对于这样的行业我们大家觉得非常熟悉,非常重要,只要我们思考 一下,我们就会觉得在当前、当下我们来服药,这个药的开发可能不一定针对我们个体,可 能针对人类平均的普通老百姓或者一群人。如果我们服下一个药丸它可能的剂量要么过多, 要么太少,因为我们的个体不代表平均数,我们的个体是有差异的。 但是我们可能还没有像这样一个药的存在, 因为我们缺乏数据。 一旦我们能够捕获个人 的那些基因,包括新陈代谢那些个体的体征,个体的一些具体的人体运作的数据之后,那么 我们的医生就能够根据你个人来进行克制化、订制化的医疗或者治疗方案。因此,它的药效 会好得很多, 而且成本会更低, 成本更低的同时还能够来提升每个人的健康会有巨大的提升。 我们在书里面也会写到这些内容。 大家也都知道史蒂夫乔布斯的故事,实际上他的癌症非常严重,但他得了癌症之后, 他要比同类得癌症的人活得时间长得多, 他有什么?他有 DNA 排序的信息, 这使得他有订制 化、个体化的专门服务的治疗。另外还会发生剧变,就是教育业会发生剧变,会重塑,会发 生彻底改变。 因为我们今天当下所做的有关教育的决策, 主要还是基于零数据或者非常有限 的数据,学校里的老师可能随便选了一本书,数学书也好、算术书也好就拿来教学,但什么 是最好的数学书呢,我们不知道,因为背后没有数据支撑。比如这一班、这一年级的人我们 不知道什么数学书是最好的,我们也不知道,对于老师什么是最好,我们也不知道,因为没 有数据到位。这里很多问题是学生所理解不了,或者比较难的难题,这个书里有什么样的章 节是我们学生不了解的,这也是源于数据的匮乏,但这种情况都会发生变革。 其实我也是从第一手了解了这些消息, 为什么呢?因为当你们买我们这本 大数据时代 的书,我们从电子阅读器上,亚马逊上的,可以在上面划句子和信息,这些划下来的句子可以反馈到亚马逊,他知道你划下哪些信息和段落。我想说五大最被大家所关注的句子,这其 中是亚马逊告诉我的,这也都是有关作者的,会反馈给我的,就哪些话是读者所关注的,哪 些句子是最受大家所欢迎和追捧的。可能我一句
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号