• [主持人马京晶]:感谢4位专家!也感谢大家的参与,特别感谢贵阳政府的热情招待,谢谢大家!我们这次的论坛到此结束![18:00]
  • [东软集团先行产品研发事业部总经理赵立军]:大数据应用为王,是应用驱动的,最后感谢组委会,感谢大家![18:00]
  • [美国甲骨文公司高级技术总监李珈]:企业级大数据,就用企业的方法来做。另外我想补充一点是在今天的大数据时代做个好人吧。[17:59]
  • [邓白氏公司高级副总裁兼首席数据学家Mr.Anthony Scriffignano,Ph.D.]:每天学一点,每天教一点。[17:59]
  • [电子科技大学大数据研究中心主任周涛]:数据决胜未来。[17:58]
  • [主持人马京晶]:非常感谢几位专家非常精彩的解读,今天我们这个论坛信息量非常大,据我观察在座的各位还都不是机器人,所以我估计要记下来还是比较困难的。我想了一个办法,我们最后结束的时候,我们希望各位专家用一句话来总结一下你的主要观点。[17:58]
  • [邓白氏公司高级副总裁兼首席数据学家Mr.Anthony Scriffignano,Ph.D.]:很多国家法律都是在发展变化当中,现在国家非常关注监管信息,对信息进行立法,隐私保护是一个问题,知识产权保护是另外一个关注的问题,还有公司隐私的保护,以及在全世界我们有被遗忘的权利,还有尽职调查,你要做很多尽职调查保护这些数据,另外国家通过法律要求你,如果你的信息损失了,要通知某些人,全世界都在进行立法工作,不仅仅是中国,另外我们必须要记住几点,其中一点是很难去定义数据,因为数据在不断变化过程中,尤其是非结构性的数据,85%我们所创造的数据都是非结构化的,也就是说我们不可能这些数据内部有什么含义,所以最大的风险就是那些我们不能够控制的数据,因为我们无法描述它,这是一个循环性的问题。其答案在哪呢?有很多糟糕的行为,有不良行为的企业,我们如何去惩罚它。如果你进入一个酒店,这个酒店把你的枕头放在左边,你可以跟这个酒店说你不用按照我的意愿来放枕头,我们希望能够保护隐私。昨天我做了这个事情,并意味着我永远把枕头放在左边,昨天我喝咖啡,并不意味着我今天也要喝咖啡,所以不要替我做决定,我要自己做决定,我们不需要等待法律出台,要做负责任的个体和企业,我们不能等政府立法来保护我们,我们必须要改变我们的行为,要做负责任的大数据行为。[17:58]
  • [电子科技大学大数据研究中心主任周涛]:第一是谈到隐私,你在个人数据隐私方面要想安全,唯一的途径是平凡,最多你也就被用于商业用途。
      第二是咱们个人是没有能力保护自己隐私的。凡是这方面的所有努力都归于失败,不管是应用还是厂商采集数据是非常野蛮的,哪怕打了勾,它也先采集进来再说,我们既然面对这个现状就要搞清楚哪些东西是真的不能被别人知道的,比如你的裸照,千万不能放上去,这是很危险的,我们是平凡的人可以放,如果你是明星就不行。我自己也做网络安全,在我心目中看来普通人的手机和电脑是对我是闯开的,我为什么不看你的电脑,是因为有那么多的电脑,我不知道看谁的电脑好。真正的秘密还是保存在不是互联网的地方。
      第三是我们一定要有办法能够去做两件事情,就是企业要存我们非常隐私的数据要有一个资质,很多时候我们没有资质或者内部流程管理造成你的信息泄漏。如果企业非法使用你的隐私数据获取利益,我们一定要用行业或者立法的办法消灭它,但要消灭它也是技术,用技术的手段对每个泄漏追根溯源。
    [17:57]
  • [提问6]:我想从普通消费者的身份问几个问题。我相信一个新的技术包括大数据会给普通消费者带来方便,会使我们生活变得更好。我消费了很多东西以后,感觉我的消费习惯好像会共享一样,好多商家打电话,发邮件,换句话,在大数据带来方便的同时不可避免地给我带来一些麻烦。我想如何能避免?比如有相关法律或者相关的技术避免这些的发生,避免把我们的消费数据共享。[17:57]
  • [邓白氏公司高级副总裁兼首席数据学家Mr.Anthony Scriffignano,Ph.D.]:有的时候最简单的问题就是最复杂的问题。我是一个数字科学家,并不是一个政治科学家,我是作为一个数字科学家来回答您的问题,给您三个不同的看法来回答。首先是黑屋的问题,这个问题非常重要。如果你找一个屋子,找顶级的专家放到这个黑屋当中,关于这个问题的所有信息都在这个房子里面,这个房子里面就变成了关于这个问题最好的地方。随着时间的推移,这个话题会不断地发展,屋内的专家只能对屋外有不完美的理解,因为只有人通过门跟他沟通才能了解,这就是黑屋问题。你必须要打开窗口,让一些信息流进来,必须要考虑清楚这个房间里面发生什么事情,让外部世界对这个房子产生影响,为什么我们要关门,要把专家放在这个屋子里面,这是有原因的。
      第二个模型就是我们有时候必须要谨慎假设,你所看到的信息是另外一个版本包含的真实,如果我说中文,大家可能会笑我。当你到其他国家的时候,你其他国家的文章,比如说你到其他国家读这些文章,我们看到的文章内容可能是不一样的。你用当地的语言所得到的信息就会更多一些,这并不是翻译问题,而是解释的问题。所以我建议你们所获得的信息都是对于事情发展的不完美的解释。我们有责任要做一个好的信息消费者,要质疑所获得的信息。比如有一个事件发生了,警察要求大家调整自己的道路信息,我知道这是一个很糟糕的车祸,所以警察要我们调整路线,这是不是全面的故事,可能不是,因为我不在那里,可能不是事情的全貌,首先我要意识到有黑屋问题,另外就是用你的经验、常识来质疑到底你获得的信息是否可信。
      第三点是我应该认识到信息永远是不完美的,最重要的一点是我们要在这个不完美的信息之上作出最好的决定,不可能有这样的一个时点,我们获得了所有的信息,让我们能够完美到达。
    [17:56]
  • [电子科技大学大数据研究中心主任周涛]:这个问题您既然在这么公开的场合让我很惊讶,我的回答只能点到为止,不管我们是从人身、财产还是从获取信息,你都提到一个很基本的问题,就是平等、自由、民主的问题,很多人认为这三者最好同时到来,实际上不是的。它们之间有相互、制约的关系。自由、平等、民主谁更好,我在这个场合不好说,但是都很重要。
      第一点我想提的是互联网信息化最终的目标肯定是推动更大程度的自由和民主,这是一定的。从这个角度来讲互联网、大数据本身,就像我们说的电子商务是为了压缩一些流程,使得你的生产到消费的流程被压缩了,信息大数据也是使得你发生产生数据的基本点到最终决策的流程被压缩了,所以整体来说会更扁平,更透明,往后走一定是向着我们更容易获取更多信息来发展。
      从国家层面来讲,中国面对着在很多信息获取方面的制约,很多东西要么拿不到,要么过虑过一次给到你,这些制约到底是为了制约中国产业界的精英、思想界的精英,还是制约什么样的人,首先要分辨这个问题。民主为什么在很多国家大家比较担心它,因为它的政治经济生态和领导结构不一定适应这样的民主,也是因为很多时候人民群众大众比一些观点所引导,而这种引导不一定是好的,换句话说绝对的民主也不一定是好的,因为大众容易被引导,所以我们要想清楚我们做这些信息,主要的对象是要屏蔽掉一些大众,回过头来作为技术的思想家或者企业家,比如我怎么看BBC,怎么看一些我本来不应该看到的东西,我有技术手段,我想您也有自己的技术手段,所以我想当我们需要用一定的技术门槛才能看到这些东西的时候,国家依然达到了他设计这些门槛所要屏蔽的人,但企业家和我们依然可以看到国家不想要我们看的书和信息,看到这些东西也不影响我对这个社会整体发展趋势的判断。谢谢!
    [17:56]
  • [提问5]:4位专家的演讲让我这位非专业人士感到非常兴奋,我想问一个非专业的问题,我是因为中国大数据产业峰会第一次来到这个美丽的城市贵阳,在我入住万丽酒店的房间里面,酒店有一张告知书说由于特殊原因,酒店的客人没有办法登录这些国际网站和社交媒体。这里面有一些社交媒体或者网站,其实刚才副市长也提到了,这些公司是整个大数据社会的领导者,虽然我们不知道他们干嘛的,因为我们在中国也无法用他们。我的问题在于由于这样的挑战,对于中国的企业也好、政府也好、人才也好,以及普通民众也好,它会产生什么样的影响,这种影响如果持续下去,你们预见到的是什么的?由于渠道的不畅通,你们怎样弥补中国这块的信息的缺失,一方面是中国这端,另一方面是中国以外的一端。[17:55]
  • [电子科技大学大数据研究中心主任周涛]:传说中在所有的猴子里面有一小部分从树上走下来慢慢就变成了人,对于那些没有从树上走下来的猴子,现在想起来肯定是很后悔的,因为人成了世界的主宰,我们建了楼房,把猴子赶出去,猴子越来越少,站在更大的尺度上看我们,人比猴子更智能,我们人创造了相对论,猴子恐怕不同。我们目前又站在了这样的阶段,通过生物技术可以形成新的物种,我们通过新的技术可以创造新的机器,随着计算能力的飞速上升,会不会有一些机制使得它演化出一些为我们所不能控制、不能掌控的东西,它也能学到我们不具备的东西,它不一定有情绪,但它能够可持续发展下去,甚至可以创造,它就是一个新的物种,讨论这些问题,不能简单地以人为中心或乐观或者悲观的态度,即使某一天我们在这个历史场合中我们也变成了猴子,这就意味着有一个新的物种更接近于我们幻想的神的形态,让我们的子孙后代去面对这件事情,也许不是一件很悲伤的事。[17:54]
  • [邓白氏公司高级副总裁兼首席数据学家Mr.Anthony Scriffignano,Ph.D.]:谢谢你的问题,有这样一个理论,是关于智能的理论,其中讲到我们认为机器会说服我们,它就有智能,但机器永远不会是人,你可以打电话,很快你就会意识到,和你进行沟通的并不是一个人,而是一个机器,所以我们觉得它不够智能,因为发现它是机器,有的时候我们能够创造出更加跟踪我们的机器,可能这些机器认为是智能的,但有些学者会说等一等,唯一的机器智能就是你教会这些机器学到了智能,人的发展还是在持续进行的,我的很多算法都是基于这个理论,我觉得人类还是有希望的,因为机器还有算法只能取代我们所做的那些无聊的事情,让我们能够做一些更加具有创意的事情,所以我觉得有希望我们所教的这些人才可以帮助我们解决新的问题,我们今天可能还没有想象到这些问题的存在,因为我们太忙了,我相信这就是人的希望所在,我相信我们有一天起来不会像机器人汇报,这是不可能的。[17:54]
  • [提问4]:首先非常感谢几位专家刚才做了非常精彩的演讲,我本来有一个问题想问Mr.Anthony Scriffignano,Ph.D.先生的,结果他事先回答了一下,可能很多工作被机器人所取代,这个问题我还是想听听你们几位的看法,因为是否大数据会加速人类的物化过程?毕竟在整个人类社会发展进程当中,人们对于智力的增长以及对于信息的了解,本身就在改变人类自身对于社会和资源的认识、利用程度,我们今天有了大数据的环境,我并不是说今天贵州所采用的大数据战略,因为这离我们所谈的事情还差很远,我们现在要看到的是未来的发展对于人的需要到底是什么样子,也可以说现在每个人是一个部分,他所了解的信息是一小部分的碎片,在将来只有人会犯错的时候又该怎么办,我们在这个过程中是控制这样的过程还是加速这样的过程,我们可以选择这样的过程还是说现在已经没有办法停止我们的脚步,只能加速奔向这样的过程。[17:53]
  • [东软集团先行产品研发事业部总经理]:我站在企业角度,刚才谈到大数据人才的问题,数据人才的紧缺,包括数据人才在我国每年的缺口,从我自身的感受来看,下面有做产品研发的团队,原来做JAVA开发,现在做大数据研发,没过多长时间很多猎头的电话就打过来了,现在大数据人才的紧缺情况是非常严重的。从我们的角度来看企业会从高校和学校联合培养,比如职业性开发人员的培养,我们会有一些培训案例,根据我们在一些行业里做的大数据分析情况,我们把数据脱敏以后拿出一些场景来,跟一些机构或者跟一些学校联合做培养计划,使得我们围绕大数据处理让他们快速成长起来,也使得我们这个行业和我们自己的产品团队希望能够保留下来。这是我们自己的私心也好或者我们对行业的贡献也好,这是我们现在的做法。[17:53]
  • [邓白氏公司高级副总裁兼首席数据学家Mr.Anthony Scriffignano,Ph.D.]:我非常喜欢您的回答,我想补充一点。最近大数据研究了统计的概率,你的工作被机器人代替的程度有多大,我不会思考,因为我太老了,所以机器人不会取代我了。我读了这个报告,有很多发现非常有意思,有些数字我记不得了,有4%的可能性,就是律师的工作可能会被计算机取代,同时这个报告还告诉我们,40%的可能性法官的工作会被机器人所取代。数据告诉我们,机器学习会达成一个结论,但这个结论可能是非理性的,我们必须要用头脑来决定这个结论是不是合理的。[17:52]
  • [电子科技大学大数据研究中心主任周涛]:咱们需要培养大数据人才是多层次的,不仅是顶尖人才,还有可以协助的人才。一年大叔据人才缺口是100万—200多万,其中大部分都是数据运维人才。这两方面的培养理念是不一样的。
      对于顶尖的人才,我们的培养第一块是抓他的理念性问题,比如说在本科的时候我们需要他完全地有继续学习概念,完全有统计学的东西,这两个是我们在理念上最重要的,一个来自数学,一个来自计算机,学到精髓。现在很多技术人员没办法用继续学习来考虑问题。我和很多企业家打过交道,我很难向一个大企业或者政府首脑说这个是黑匣子,但这是很重要的。很多人会犯这个错误,他不能分辨一个东西是不是准确的。有了这些之后大家继续在硕士、博士,还可以继续提高。
      另外一方面,现在的数学科学和行业结合很紧密,所以我们希望一个好的人除了在本科的时候学本专业,对于社会科学,经济学、管理学、社会学、社会心理学行业最重要的几本书也阅读过,这样的话他不会把自己限制死。
      大家忽略掉绝大部分的需求不是顶尖人才,尤其是在中国,数据挖掘、数据管理,职业培训就可以做到,用数学博士做不到这个效果。我们尝试3—6个月就可以培养一个很普通的,什么都没有学过的,可以很好做数据挖掘、数据运维。所以大量培养继续的职业人才也是很重要的。
    [17:48]
  • [邓白氏公司高级副总裁兼首席数据学家Mr.Anthony Scriffignano,Ph.D.]:我是多个学术委员会的成员,我关注您问题的第二部分。关于需要什么样的技能,我们关注的是几个事情,首先人才需要对大数据有一个基本的了解,他们理解数据,理解如何进行思考。
      我们经常会问这样的问题,并不是问他们在学校当中学了这些问题,而是看一下他们从学到的东西从如何解决现实的问题,我们会问他语言的不确定性以及如何理解形象等等。   我所期待的并不是没有学,而是学生告诉我,我告诉你我能利用我学到的东西解决什么,我希望你有批判思考的方式。
      第二点非常重要,而且更为重要,那就是必须要有谦虚的态度。没有人什么事都知道,这个行业在快速发展、变化,有开源软件,有很多的代码可以进行打包,还有视觉化的软件,很容易去生产出一些令人震惊的产品,我所选的候选人首先要提问,然后再回答这个问题,我所选择的候选人能够问清楚这个问题是什么,然后解决这个问题。
      第三点是这个人可以教,因为我的个人理念是我们每天都应该学一些东西,教一些东西,我所找的团队成员可以教我,同时我也可以教他,通过这种方法我们可以在大数据时代生存下去,互相学习。
    [17:47]
  • [提问3]:今天感谢4位非常精彩的分享,今天是一个难得的机会,既有产业的又有学界的,又有外来的嘉宾,对于一个公司来讲,对于一个城市和地区来讲要发展一个产业特别重要的一点是人才问题,我的问题是关于人才,比如从产业角度来看,我们现在需要什么人才,有什么问题?从学校角度来讲现在为大数据行业培养人才有什么举措,与此同时给美国来的嘉宾另外一个问题是从美国培养大数据、云计算人才的角度,有没有什么经验可以分享的?[17:46]
  • [电子科技大学大数据研究中心主任周涛]:第二个心态是如果做大数据的事情,尤其深入到企业内部做深度改造,你对他要像一个合伙人一样,什么样的事情是能够成功的呢?有两面,第一你不是一个甲方,如果你觉得是一个甲方,采购的是一个打包好的服务,最好就像一个巧克力,你能打开就吃。第二是对方和你谈的时候,如果他给你描述的是既成的、好的、具有普适性的东西,你也要注意。最重要的是他对问题感兴趣,不是对销售感问题,当你跟他讲问题的时候他也很兴趣,你就有机会了。如果他只执著于你的商务,你就要注意了。[17:46]
  • [电子科技大学大数据研究中心主任周涛]:作为一个用户或者不懂太多技术的企业家想在大数据的企业,第一个心态是我们有很多公司打着大数据的旗号,可能用一些非大数据的产品,所以大家首先要做好一个心态,就是要准备好上当受骗,上当受骗是非常常见的一件事情,而且很多时候我们之所以能够学习,既包括工作,也包括爱情、生活,都是源于一次一次的错误和上当受骗,既然你不懂技术,又要做大数据,你当然有可能是要上当受骗的,所以大家要想法,我们可能有一些策略,但是一定要做好心理准备的。[17:46]
  • [邓白氏公司高级副总裁兼首席数据学家Mr.Anthony Scriffignano,Ph.D.]:我想回答一下,我想看一下我的同事是否有所补充。我该怎么做呢?我的做法是当你和供应商进行沟通的时候,如果他们给你介绍了这样一个工具,而不问你的业务问题,那就不是一个很好的供应商。如果他们说我相信能够解决您的所有问题,这是一个很好的供应商。如果他们说我现在和你沟通,我知道所有的信息,并不是说我回去才能解决你的问题,这就不是一个很好的供应商,你们进行销售沟通的时候要看一看沟通的是不是业务问题,如果就你的业务问题进行沟通,可以他邀请过来。[17:45]
  • [主持人马京晶]:非常感谢我还有一个非常相关的问题,我们现在不是没有好的大数据公司,而是大数据公司太多了,特别多大数据公司,比如说国内的、国际的、大的、小的,还有历史非常长的,很多时候我们这些企业级或者使用者会比较疑惑,到底应该选择哪个公司来帮助我们,而且这些用户又不理解技术里面的奥妙,各位专家有没有什么建议?[17:45]
  • [美国甲骨文公司高级技术总监李珈]:我的理解是看我们其他企业走过来的路径,在中国最早用ERP的企业是华为和美的,在90年代末就开始用,以我们现在企业的情况,整个流水和发展是非常快的,但如果说有了这样的IT系统应该会上你更上一个台阶,基础的ERP我认为还是要做的,你的大数据平台可以从别的角度上开始去搭建,可以考虑使用云的方式,让整个效率来得更快,不用再经过之前走的私有方式再走到共有的方式,直接考虑现在比较成熟的云方式,低成本搭建你的新IT系统。我的建议是这样的。[17:44]
  • [提问2]:我是来自黑龙江哈尔滨市的,我们是一个传统的商业地产开发商,每年营收在3个亿左右,我们之前也没有做企业的ERP,没有电商平台,但我们的商贸流通大概每年有40亿的流水,既然我们企业慢了一拍,现在又有云计算、大数据,我们怎么样搭建这个平台,谢谢![17:44]
  • [邓白氏公司高级副总裁兼首席数据学家Mr.Anthony Scriffignano,Ph.D.]:在每一个发言之前我们都会有一个技术问题,我们知道有些信息是拿不到的,我们可以使用大数据,就这些大数据进行分析。
      另外一种说法是要等一等,我们要发现哪些数据能够帮助我们回答现有的问题,能够有意义的进行回答。
      另外就是大数据的方法,还有一个是不是大数据的方法,我们知道不可能把所有的信息都拿到,小的公司所提供的信息是有限的,而大的公司提供的信息更多一些。新的公司信息就会少一些,所以我们面临的挑战是如何能够理解我们所提供的答案,可能是在缺乏数据的情况下作出的答案,我们要估计一下,我们损失的这部分数据对我们答案的影响,而不是忽视对我们答案的影响。我们要作出这种估计,要进行敏感度的分析,看看数据给我们带来的影响。
      我们可以使用技术来学习、发现我们所缺失的信息或者可以使用的信息,比如深入学习、回归式的发现,这些技术都能够帮助我们找到我们损失的信息。
    [17:43]
  • [提问1]:首先感谢在座所有专家的精彩演讲,我有一个问题想问一下Mr.Anthony Scriffignano,Ph.D.,关于大数据应用,您说过当我们做大数据分析的时候不仅仅考虑已有的数据,还有没有的数据,您怎么分析您无法得到的数据,然后放到您的分析里面?[17:42]
  • [主持人马京晶]:非常感谢周涛教授非常精彩而且生动的演讲。
      下面是我们最后一个环节,是提问环节,和4位专家互动的一个环节,4位专家将坐在台上,大家有什么问题可以举手提问,刚才周涛教授的演讲没有讲完,如果您想问他也可以。大家如果有问题可以举手提问。
    [17:41]
  • [电子科技大学大数据研究中心主任周涛]:最后由于时间关系,我不能展开讲了。我们在很努力做一件事情。既然外部化了这些数据是有用的,我们希望把这些数据集中起来。但数据的集中不是简单的数据堆积,也不是大家想象的我能够打通ID,一套新的顶层设计就可以,它还在于很多美妙的事情。比如说我们怎么样能够真正降低技术的门槛,能够让整个大数据应用做得更好。我们怎么样输出一些数据挖掘的能力,我们做了是把190多个数据挖掘的算法包括机器学习的算法做成可视化、拖拉拽的程序,它可以用你们各种熟悉的东西,这个系统的好处在于我们希望让每个企业都有大量数据的时候,靠自己的工程师、自己的人员就能够比较容易地实现数据变现。
      我们在富士康做它的物料加工检测,我们培训他们自己的人员用这个平台,用集成学习的方法。与此同时我们还要看中的是我们怎么样去汇聚人才。现在我们举办了很多比赛,每场比赛奖金是5万-10万人民币,往往可以来四五千人来参赛,我们现在汇聚了相当多的人。未来我们还会在上面放一些非常原创的内容,主要针对数据科学家和数据工程师的短视频、论文等等,是原创型的。
      美国有一个KAGGE做大数据的比赛,包括我们对比天池,天池这次做百万比赛的时候,他们一般一百万甚至更高奖金的比赛大概能吸引7000支队伍,我们希望它不是一个商业化的机构,希望它能变成所有爱好者的乐园,他成长、交友、闲扯,还能帮助企业解决问题。
      最重要的是怎么样金融化,怎么样建设市场,怎么样版权控制,非常抱歉,由于时间关系,来不及讲,以后有机会再跟大家分享。最后谢谢大家!
    [17:41]
  • [电子科技大学大数据研究中心主任周涛]:第一个原因是因为成绩好才能入党。
      第二是当你入党之后感受到了共产党的召唤,你的学习、工作更有激情,于是就会做得更好。所以我们在分析这个问题,我们首先看什么呢?我们先看党员是怎么洗澡的,我们肯定不能看到他具体的图像,但是在我们学校里面,我们因为洗澡要放卡,你是什么时间点开始洗澡,很多数据看起来断断续续,因为学生很省,放点热水,先把头发打湿,然后再开水。当我们有这些数据之后,发现所有的党员,所有洗澡人的里面有42%都是集中在晚上9点以后,而非党员这个数字颠倒过程,这个数字只有24%,差别是很大的。我们又看了一个数据,看党员是不是更有自律,更有控制力?
      我们在成都的冬天,我们看20天有多少次你能爬起来吃早餐,我们发现党员能吃15顿多,非党员只能吃8顿,这又有差异。这个东西对我启发很大,因为在那段时间英国BBC电台在讲中国的老师到英国上课,强调的是我们需要有多么的有序,而英国强调的是自由探索,的确我们需要向英国、美国学自由探索。但我们想有序对人长期的发展有没有正面的价值,我们发现有正面的价值,我们找了5个参数来综合性度量一个人的有序,包括洗澡、洗衣服、进出图书馆、吃早餐等等,这与努力程度是相关的。比如学了多少课,去教学楼打水的次数等等。我们发现努力程度和一个学生最终的成绩,包括在校生四年读完课的所有平均成绩,也包括毕业三年后每年的薪水,努力程度的关联是0.55%,但有序的关联是0.48%,还是可以的,所以有序还是挺重要的,我们虽然作为非党员还是有东西可以向党员学习的。
    [17:41]
  • [电子科技大学大数据研究中心主任周涛]:如何去找有社会交际障碍的人?比如我有一个死党或者女朋友,我们走在学校里面要干一件什么事呢?比如我去吃饭,我和女朋友排队就会有前后脚刷卡。你和你女朋友可能口味不一样,所以你排不同的队或者保持有一个女朋友,你必须要请客,很多男生一直都只有男朋友,没有女朋友。在我们学校有非常多的机会让你用一卡通,比如图书馆,情侣之间进图书馆只有两个门,要么就是同一个门同时进,要么就是前后脚进,进图书馆是必须要用一卡通的,我们有很多场景。我们通过这些数据分析,仅仅用前后脚刷卡这些数据就能很好地甄别哪些人是你最紧密的朋友、闺蜜、你的情人,哪些人是你一般的朋友,哪些人是陌生人。我们发现了800多个在电子科大最孤独的人,在这里面出现严重精神病问题的人是17%,比平均水平高19倍。剩下的83%,不是说他们没有问题,是我们要密切地监督他们,看看他们会不会有问题,因为大学可能和你们想象的不太一样,我们是一个半监护单位,对恶性传染病、精神病、心理问题、意识形态问题,我们是监护人,你们看这些问题,防止学生走上极端,甚至自杀。
      我们还做了一些事情,举个例子,比如我看在座很多来自海外,你们也知道中国共产党,我自己不是党员,我发现在电子科大的所有党员的平均成绩要比非党员高4分多,总成绩只有100分,他高4分,是不得了的事情,我想知道到底是什么原因,党员有什么古怪之处,可能也两个原因。
    [17:37]
  • [电子科技大学大数据研究中心主任周涛]:在座的很多企业家作过一些数据分析的尝试,比如我们经常用一维的时间序列拆分几十个主屏,我们把销售时间序列,用空间重构的办法把它重构到二十多的高维空间。我讲这个例子是想说明第一大数据不是人机结合,是想清楚了告诉计算机怎么做,千万不要觉得我随时调整参数。因为是近200万的pos机,不是一个简单的咨询。第二是大数据确实是需要深度分析的,它不完全等同于以前简单的Excel等等,这需要深度分析,这是希望大家能学到的。
      大数据真正有趣的事情还不仅如此,它的美妙之处,首先让大家感到很美丽的地方,很性感的地方在于它外部化。当我们遇到一个问题的时候,我们可以用表面上看起来风马牛不相及的数据解决业务中遇到的问题,或者把我的数据拿出去解决采访的问题,最典型的例子就是谷歌。用它的搜索关健词来预测传染病、预测流行、电价等等,搜索关健词是它已有的数据,但它解决的这些问题好像和这些数据没有关系。实际上它用的模型非常简单。
      我给大家举一些我们做过的例子,今天穿的是电子科技大学的衣服,所有讲课的记录、借书的记录等等都会记录下来。回到问题本身,在整个电子科大我们一共有378个一卡通的点,一个食堂可能就二三十个刷卡点,有了这些数据我们做什么样好玩的事情呢?第一件事情是我们用它来解决学生的心理问题,电子科大2014年是340的人,2015年的数据还没有完全知道,这是从华西和第四人民医院真正患了精神疾病治疗过的学生,除了有一小部分器质性的,很多都是精神问题,包括抑郁症、狂躁、早期精神病分裂,早期精神病分裂这种严重的病我们都有十几例,我们希望能够用大数据的办法找出一些潜在的有严重心理问题的人,怎么找呢?整个电子科大,包括我们到心理疾控中心去咨询,被判断为属于精神问题的人,大概是0.91%,这些病人超过2/3,我们看所有的症候有同一个症候就是社会交际障碍。
    [17:37]
  • [电子科技大学大数据研究中心主任周涛]:第二步,我们看看每个行业在一天24小时的销售里面有没有独特的特征,左边是所有的百货商店,所有的桑拿按摩洗浴中心,对百货商店而言,因为有7-11这些店,所以它一天24小时都在销售,但这些可以忽略不计。下午的小高峰来源于周末的购物,晚上九、十点掉下来,这和一个人一天的生活规律有关。
      这边是桑拿按摩洗浴中心,白天基本不开业,12点以后开始有点生意,但它一天80%的销售都集中在晚上10点到凌晨1点半,我们会发现有些店,比如这家店号称自己是百货商店,但是你看它的形态,它是很像一个桑拿按摩KTV洗浴中心,这是东莞的一个KTV,可能还有更好的生意,但它说是自己是百货商店,从这种意义来讲我们就可以找出哪些是套用。
      当你有接近200万Pos机刷卡记录的时候,你是不是用肉眼来看?其实不用,我们可以用分布做抽样,我就用这个做标准分布,每次抽1000个点,平均每个小时里面落几十个点,有些密度比较高的,落一两百个点,这种情况下得到的10万个分布,如果这个pos机的分布形态都隔分布远,这就是一个异常点,因为一个MMC码要对它的分布做聚类,有几个据类中心同时操作这个事,你隔每个聚类中心很远这就有异常了。这样检测出来我是完全自动化的,不需要用人手来做,计算机可以做完,这样我们可以达到62%的检测。
      这样还会有一些抓不到或者误抓,比如加油站,也都是六七点起来了,晚上九、十点下去了,这也是一个人的作息时间,现在加油站油价在降价,在之前油价过出现五连涨,在油价上涨的前一天,中国人会拼命加满油,在我们的销售中相当于有5根长钉,我们抓了700多家没有一家抓错。在座的同事又问,对于有些行业,比如儿童节、除夕生意好,有些可能是鬼节生意才好,有些行业下大雨的时候生意特别好,是不是我必须要对每个行业都理解,其实也不需要。那是因为很多事情我们之所以看起来很复杂,我们看它的维度很低,一般人都会以为高纬度的东西很复杂。其实不然,最复杂的就是二三四五这些维度,如果大家对理论物理了解就知道。一切我们做量子统计里面,比如平均场这些东西,你在四维及四维以上的空间可以做假设,但以下是做不了的。你在三维以上的活动,概率的不会出现自交点,不会破坏同配的这种性质。
    [17:37]
  • [电子科技大学大数据研究中心主任周涛]:我们分三步走。
      第一步,看销售量有没有异常,比如报刊报亭,一般而言一般的日销量是1千几百,而且有报刊报亭的POS机的一般都在北京。我们会发现在有的报亭里面日销量最高的11万8千多块钱,这是异常,它的日销量跟行业POS机相比不一样。这是比较好监测出来的。但是它容易错杀。因为对与世隔绝行业而言这种做法不合理。
      比如说零售商店,好多外国的朋友不知道有没有到贵州比较偏僻的农村去看。农村有一栋小楼2、3层,在一楼卖一些小商品,他也有POS机机,但是有时候一天也不刷一下。如果我们走到一些好的金融中心,到北京中国大饭店附近,你会看到一个包主流款就是20多万。女孩子去屈臣氏,300多平方米的屈臣氏只有两台POS机,在生意非常好的时候一天一个店可以卖到接近10万,我们会发现仅仅是百货商店这样一个MMC卖,它的销售可以从几块钱、几十块钱一天一直到几万、几十万,甚至上百万,从这个角度来讲这个方法就失效了。
    [17:36]
  • [电子科技大学大数据研究中心主任周涛]:我开始给大家举一些比较简单的例子,我认为大数据创新模式的发展是有章可循的。大数据创新的1.0,最简单是讲更深度的分析,面对大量的的数据我们怎么样做分析。但是它的基本思想依然是在业务本身中产生大量数据,然后我分析这些数据,来优化我的业务,我给大家举一个非常简单的例子,这个例子看起来非常简单,我们在做MCC套用,这是和中国银联合作,我们拿到持续4年多,接近200万的Pos机不到200亿的交易刷卡记录,POS机刷卡,每个POS机都有主营业务号,它标注POS机的主营业务,不同的主营业务有不同的费率,刷100可能有1、2毛钱交给央行。如果是百货商店只需要交7毛7,如果是报刊可能是交5毛钱。
      在这种情况下有些商家希望通过套用其他的非主营业务的MCC来获利。虽然这个钱看起来少,但每个月的钱加上起来是很大的。我在洗浴中心还小百货,说小百货是主营业务,这是MCC非法套用。这种现象非常普遍,中间确立有利可图。
      我们怎么发现这些MCC套用?我们先做一个非常友好的假设,大部分甚至绝大部分商家是合法的,如果说绝大部分都不合法,那我们就会把合法的列出来。
    [17:36]
  • [电子科技大学大数据研究中心主任周涛]:我们目前还没有一套完整的方法论可以使得我们自动化的从这些不同形式中挖掘价值,这就带来了第二个挑战,怎么样处理非结构数据,发现价值,甚至把它变成某种结构化的形态。
      第三个大的变化是数据关联发生了变化,以前绝大部分数据都是一个个孤岛,淘宝知道我买了什么东西,线下的医疗机构知道我有什么病等等,但是没有人知道买过这些东西的人曾经犯过什么罪,我们有的通过政府数据的开放,比如信用中国,有的通过资本的运作,比如腾讯入主了京东等等,这些资本政策的变化,使得我们开始有变化去掌握一个人、一个产品、一个地方,方方面面不同的东西,最后会给我们带来新的挑战,同时带来新的价值。
      我们面对的第三个大的问题是怎么样在个人安全隐私可控的条件下,或者在整个数据安全隐私可控情况下实现数据1+1远大于2的价值。大数据会给我们带来很多新的机会,我们认为大数据不是一个简单的技术,而是一种理念变化。它实际上是我们通过对多元异构,把海量数据深度分析能获得的一切颠覆性变化的总和,不管大到一个国家还是小到一个科研机构,存储分析数据的能力都会成为我们未来的核心战略。
    [17:36]
  • [电子科技大学大数据研究中心主任周涛]:大家好!非常高兴分享我对大数据的看法,我选了两个例子。我们走到现在所谓大数据时代的门口,大数据这个词是过热了,其实从某种意义上讲媒体、资本对它的关注度超过了我们产业所创造的价值,在这个过热的时代我们需要分辨的是到底哪些是大数据真正创造的价值,哪些不是。
      我们走到今天大的趋势只有三个,数据总量在爆炸式增长,走到淘宝上10亿单品,我们不知道自己该选择什么。刚才几位嘉宾都选择了一些非常好的应用,比如信息过载的问题,这是大数据面对的第一个问题,怎么样帮助一个普通人在他自己分别、甄别数据能力有限的情况下,帮助他做到所喜欢的东西,既可能是一本书,一个商品,也可能是一个理财产品。
      第二个大的趋势是数据的形态发生了巨大的变化,以前我们善于处理的数据都是结构化的数据,譬如在座的企业家要管理一个员工的时候,我们有一张大表,我们知道他什么年龄,毕业于什么学校等等,用非常简单的商用软件就可以得到一些简单的统计结果。比如大家用决策书等各种方法就能知道不同性别、不同专业背景、不同年龄、不同毕业院校是否适合这个岗位。我们甚至做一些短期的预测哪些人能够升职,哪些人会离职。2015年87%新增的数据都是非结构化的数据,本身文本、语音、人与人之间的社交网络,手机之间的空间轨迹,仅仅通过一个人的手机轨迹分析,可以非常准确地甄别出这个人是不是一个同性恋,我也可以很准确地告诉大家这个人到底消费能力是怎样的。
    [17:34]
  • [主持人马京晶]:非常感谢李珈总监的分享!下一个演讲也是我们的闭幕演讲,是来自周涛教授,周涛教授是电子科技大学大数据研究中心主任、《大数据时代》中文译者。[17:25]
  • [美国甲骨文公司高级技术总监李珈]:最后一点我想提的是我们看到现在更多的趋势是利用云跟大数据的合力,把你今天的大数据平台搬到云上面。同时利用云上的机器学习、邓白氏的信息共享在运营平台当中的一些共享。在营销中的共享都是可以看到的,我们更多提供的是大数据的云上服务,有大数据准备云。你的数据怎么放上去,怎么做清洗,还有对大数据的展现,之前有一个例子是中超怎么样能够通过大数据分析,帮他分析出来如何战胜竞争对手,大家如果有兴趣可以看一下大数据公众号里面,里面就有这些案例和展示。
      这是宝洁的例子,宝洁把它整个大数据应用平台放到了了公有云,这点上对于我们今天国内的客户来讲,公有云可能还是在一个尝试阶段。但是对于美国来讲,大家可能也看到这样一个新闻,美国政府已经说了,它要在所有的洲当中关闭一半的数据中心,为什么?是因为利用率的问题,有不少企业在考虑,比如GE就在考虑把它的应用往云上做迁移,我们看到宝洁把它的大数据平台挪上去之后有非常多的数据源在很短时间当中帮它做到这样一个实现,就是在云上面进行大数据分析非常好的一个趋势。
      案例确实非常多,从政府、公安、警局、制造业、金融、电信都有非常多的成熟案例,并且我们在北京也有一个大数据演示中心,如果大家有兴趣可以去我们北京的演示中心看到更多的案例。
      最后如何创新,要把企业级大数据用好,一个是传统数据的整合,另外一个是传统企业里面人员的技能,包括更新的技术,互相之间的整合,比如我们现在讲的比较流行的Hadoop等技术,怎么样能够在旧技术跟新技术进行融合,用一些比较成熟的技术帮助企业进行快速创新。所以融合、简化、安全和集成应该来讲是我们认为在今天的企业级大数据当中最重要的一个部分。
      我的演讲就到这里,谢谢大家!
    [17:25]
  • [美国甲骨文公司高级技术总监李珈]:另外一个例子是来自于Airbus,它也是非常有意思的例子,你的飞行体验和飞机从生产出来到你测试完成,这个过程中要经过非常复杂的测试,每个飞机里面有大概超过6千个传感器,每个传感器收集的频率是不一样的,基本上是微妙级的速度进行收集,在这样庞大的数据量当中有300个数据分析员对它进行实时分析,它用了locic(谐音)等技术。在飞行专业如果把大数据用好对整个企业竞争力的提升是有非常帮助的。   下面是Airbus的订单数据。
      同时在大行当中怎么样应用大数据帮你进行精准营销。有一个客户进到你的营业厅的时候,今天的营业厅要拿卡去刷一下,然后给你一张排队纸,给你的这张排队纸上面有一些推荐。它会写上我们现在有什么样的理财产品,你可能会对什么样的信息感兴趣。这个信息是后端通过大数据分析作出一个完整的闭环之后出来的。   当一个客户来了之后后台系统作出分析,它就会把纸打印出来,放在推销纸上,拿给客户,同时不是给了它就完了,它还会记录客户进入柜台办业务的时候有没有对这些理财产品感兴趣,感兴趣之后柜台的后方人员会在系统当中打一个标志,表示这个推荐是不是一个成功的推荐,同时会对大厅的经理产生一些应用。这是我们看到在大数据方面走的比较好的几个大型企业的应用案例。
    这是Forrester的报告,Oracle在比较领先的位置上,在整个市场上面,在策略上面,让用户实现快速变现企业价值方面有好处。这是Big Data SQL访问所有数据,通过传统的SQL语言就把数据找回来了,这是对市场上所有企业技能的再利用。整个解决方案的图相对比较完整,我就不一一给大家看了。
    [17:24]
  • [美国甲骨文公司高级技术总监李珈]:企业采用大数据面临的挑战包括全数据的管理,一方面我们要把各种各样的数据源放进来,关注新数,融合全数据。在芝加哥的警局,之前做BI和W分析的时候,他们发现在贩毒领域上和它的一些侵犯儿童的领域上,拿它的数据时跟它的结果不匹配,有时候用数据探索的技术发现有一个地方,你抓了犯人之后,他会告诉你是在哪个地方进行毒品交易的,结果他们发现是在他们经常停警车的调查,他们发现调查属于灯下黑。他们在警车过来的时候一停下来就去巡逻了,一停下来就是一个小时的时间,这个时候是最安全的时候,很多犯罪是发生在这样的地方,如果不是通过数据探索的软件是很难去找到这样一个大安的。另外开发和分析、安全遵从和管理都会造成企业级应用的差异性。
      企业级大数据最佳实践来自全数据架构管理,最上面是实时流数据的管理。比如有一个人通过一个商场,他的目标是穿过去,星巴克、71这样的公司做了非常多流数据的管理。第二层是所谓的传统数据进来之后跟新数据的融合,你做到数据工厂、数据仓储、流数据,把它整合起来一起对它进行更多的多样数据分析。最下面这层是探索和发现,在你并没有这个模型的情况下,我怎么样知道数据里面隐含的东西,这也是今天不少客户做的大数据实践发现的实验室当中看到的东西。
      这是西班牙Caixa的例子,它的核心数据都是放在主机里面,跟今天中国的四大行情况是一样的,但整个运维成本是相对比较高的。它需要把这些数据拿下来之后,原来是放在数据库里面对它进行相关分析,但慢慢的它发现如果缺少了社交媒体这块,对于你的商品定价、客户体验等等就会有一个很大的缺失,他们专门成立了一个数据实验室,在里面应用了一些数据实验方面的技术,把它的客户对它的情感度分析做了一个比较精细的描述,我们把它邀请到Oracle,其中就包括了Caixa。
    [17:24]
  • [美国甲骨文公司高级技术总监李珈]:大家看到企业级客户的特点,因为你不完全可能从零开始,原来结构化的数据对你来说是非常重要的。比如航空公司的例子,它从微博、微信、社交媒体拿到了这些数据,但这些数据需要跟核心CRM里面的信息和订票系统里面的信息互相之间去比对,因为当有一个客户对你做了投诉之后,你要判断出来这个客户对我的重要性有多少。
      1个常旅客会影响37个旅客,如果他对我是一个非常重要的旅客,他的影响力非常大的情况下,我就需要这样的技术,非常短的能够在你的微博、微信,我要用一个技术非常短地把他们同时抓出来,这样才能达到非常好的应用。这也是今天企业级应用当中非常重要的一个特点。
      大家看到企业级的应用与已有技术的结合,你的开发运维人员相对来讲是比较有限的,我们经常讲看谷歌和facebook做分布式技术、区块链等等,非常好的技术,最大的限制还是在人员层面上,所以你拥有了人才就会有一个最好的技术。大家看到你的开发和运维人员,你的技能都是非常重要的,有系统的整合,还有整体拥有成本。反而在新的互联网公司当中,可能对于开源技术的使用和大量人才的储备,新的技术可能对他们来讲,这样一些技术用起来会更加顺手。
    [17:24]
  • [美国甲骨文公司高级技术总监李珈]:首先我们从探索和挖掘当中去进行模式的识别,再往后我们进入了一个实时探索、实时决策的通道,实时决策再往上我们看到更多的是进入云的生态服务。所以大家之前应该看到过,Oracle在去年年底跟腾讯公司宣布了我们在云上面的合作,所以Oracle的云平台从IaaS、SaaS、PaaS、销售和营销云等都有在上面进行部署,这并不是离我们非常远的事情。   有一个很有趣的例子,是路透社的,它是成立比较久的大型金融企业。它收集了100多个国家的财政信息,包括经济指数等等,拿过来之后为它50万的客户,包括不同国家的提供基金、信托、债券各方面的分析。它最出名的两个分析一个是心理指数分析,另外一个是新闻分析。之前它的数据源来自于比较多的新闻媒体和它的科技期刊,它的期刊数都是几十万的,它每七天更新一次。在几年前它发现这个事情不太对了,因为他看到了互联网和社交媒体的发展,信息的传播速度快,而且在网上当决策人在不同渠道拿到这些信息的时候会很大程度上影响你的判断力,从而让你得出来有关财经指数的不同结论,他们搭建了互联网资讯和互联网新闻分析大数据平台,这个数据的数据源来自于5万个新闻网站和400万社交媒体渠道,它把这些信息收集过来之后,搭建了大数据平台,进行了相关的汇总分析,它也有自己的专业应用模型,前端有SAP应用的财务信息,不同国家的新闻信息,社交媒体信息,拿过来之后进行,搭建了大数据平台,进行了相关的汇总分析,它也有自己的专业应用模型。前端有SAP应用的财务信息,不同国家的新闻信息,社交媒体信息,拿过来之后进行情感度的分析。   大家可能也都有听到,比如我们要为某件事情做舆情分析,我们之前做的舆情分析更多是在中文媒体上做的。如果你把外媒加上,不同国家语言分词的习惯,语义分析里需要做的一些技术,门槛还是比较高的。所以在这个领域上,在路透社做的应用中得到了一个很好的实验,它通过这样的模式可以结合结构化的模型做它金融学的模型,作为多维度衡量的标准,同时全面评估它的市场情绪。   讲到这里,我们看到大数据的分析其实在企业级和在普通的互联网企业还是有一个很大差异性的,因为Oracle一直都是在企业级的客户当中做很多的分析,大家可能也知道就像咱们国家一些比较大型的电信、金融、政府、企业,非常多的和Oracle之间有长期的合作,我经常跟总部的人讲如果你们要看大型的应用,超过500个T、1000个T的,你们就到中国来,因为我们的数据库非常大,这也是我们能看到在中国的投入和在中国的企业级大数据方面,这是Oracle比较多经验的一个重要原因。[17:21]
  • [美国甲骨文公司高级技术总监李珈]:还想跟大家分享的是我们在金融行业看到的场景,在反欺诈,整个人的国民信用这块有非常多的案例在做。所以我们看到其实大数据在中国已经进入了高速发展期,我想说的是从2015年、2016年现在的高速发展,往后我们看到的是大数据即服务,在云上把大数据平台内嵌上去。另外就是通过大数据机器学习平台,可以把一个数据中心或者说一个单位里面所有的机器表现拿过来做分析。还有一类是在电信行业里面机器做外呼实时决策的能力,它可以通过你的外呼,大家都知道呼叫中心都是有成本的,如果外呼的量比较大,意味着我在做一个市场活动的时候成本就会比较高。他们通过了这样一个机器自学习的软件、大数据平台,能够帮它做到我只要打10%的电话就能够定位到76%的客户愿意接收我这样一个外呼服务,这方面的应用我们看到现在已经非常多的进入到今天的企业当中。   助力企业的业务战略转型,还是以客户为中心。但以客户为中心周围有几个大的圈是围绕着它的,尤其对制造行业来讲,智能制造、中国制造,这周围还有几个维度去分析它,我们看交互式的运用、客户真实的体验,大家应该记得去年年底看到海尔冰箱交互第一台自己在网上定义的冰箱下线新闻,在这样一个过程当中我们看到用户的体验,它的交互其实对最后怎么样提升企业竞争力来说已经起到了一个非常重要的作用。[17:21]
  • [美国甲骨文公司高级技术总监李珈]:还有一个例子是另外一个移动公司的案例,在大数据来讲,如果要想让它运行得比较顺利,很多时候都有权和责之间的关联。昨天我有听内部的一些论坛在讲,其中有一个市在讲,他们在一个比较高的级别上成立的大数据应用办公室,能够让每条线的部门跟他的配合做的比较好。我讲的这个移动企业特别有意思,他们在整个省级成立了大数据实验室,跨越了他各个不同产品线,包括核心业务收支等等都整合起来,让他有一个比较高的起点,把整个企业里面各种各样的数据都进行整合,做了这些之外,还有更多的外部数据拿过来,做了一些跨数据应用。比如旅游数据、航空公司、金融、电力、交通的数据,这些都能让我们看到一个跨行业的数据应用会有非常多好的成功案例。当时在他们省里面有一个非常出名的岛,那个岛一到旅游旺季就有非常多人,他们能够预测到,并且采取相应的措施。
      讲到大数据对政府与企业应用的情况有蛮多的差异性,我这里举的重点是政府和企业应用,大家看到电商我并没有把它放在一个比较高的级别。我们在金融、教育、医疗、航空、制造、汽车各个不同领域大数据的应用是非常多的,拿国民卫生健康署的例子来讲,去年我们正好有一个机会带着中国考察团去英国健康署有这样一个沟通,他们用比较好的大数据技术搭建基于英国国民健康的应用。有一个特别有意思的例子是牙科医生的分析,他们每年政府拨给他们的经费是有限的,如果有更多人进行镶牙服务,意味着其他投入就比较低。他们经过分析之后发现10%的合约里面有推荐一半人去做了镶牙,他还发现34%的合约里面大概推荐了90%的人去镶牙,仅仅这一项发现就能够让他把过渡推荐的医疗模式做了一个很大的改善,做了一些调整,同时针对一些不同医院、不同医生给病人开的药当中有互相的参照性,如果有一些冲突的药就很容易检测出来,这又是大数据非常好的应用。
      我们跟国内非常多的肿瘤医院,包括一些基因公司也在做类似的大数据分析,因为基因几十对的数据当中稍微匹配差错就会造成大的结果,这是我们正在做的事情。
    [17:21]
  • [美国甲骨文公司高级技术总监李珈]:我跟大家描述一下例子,这个故事是我们一个客户在航空公司做的实践,需要有一个创新部门做一些新的手机上的APP应用。当他做这些APP应用的时候,他就想我的客户最关心哪些应用,并且感兴趣,他有大量的微博、微信、CRM、订票等各方面的数据,把这些数据拿过来以后进行整合,我们有蛮好的工具非常直观,可以让我们的业务用户直接连上去之后能够看到这是对我们的企业在某类行为模式上的情感度分析。
      他从容易在里面发现出来有一个年龄层的女性可能是30-40岁,她们在对机场的反馈意见当中吐槽最多的是出行方式,比如打黑车、堵车,不容易打到车的反馈,他想到如果有一个拼车功能,能够让我应用的模式更加好。所以在拼车过程中他还在想怎么样定义司机的属性,提供什么样的拼车服务,同时让会员通过积分进行兑换,他还会跟公司后台负责RM的客户经理沟通,怎么样避免大的营销成本。如果每个客户都给他发一个短信其实成本是很高的,他在后端再次用了大数据、数据挖掘手段,把精准客户找出来,也是一个非常好的全数据应用案例。
      再往后我们看到的是大数据创新和跨界融合应用,更多会涉及到Big Data as a service。在这点上,大家能够看到一些比较大型的大数据探索应用天生就会有一些比较好的起点,比较好的土壤能够让我们的客户在上面拿到更好的在市场、销售方面的应用。
    [17:21]
  • [美国甲骨文公司高级技术总监李珈]:第二类是来自于机器生成传感器数据,这就非常多了,大家可以理解,比如很多制造业机器上面的传感器,比如磕头机,他们会产生很多大数据。另外我们在飞机飞行过程当中有飞行的数据,所以大家很容易理解为什么马航走了以后,还有很多人说其实有很多人知道它在什么地方。还有就是Web上的日志,机器上的仪表带来的信息,还有很大的数据中心。我们更多的思路是在云上建立这样一个庞大的大数据平台,通过机器学习的方式,他会自动知道数据中心的哪些机器在比较平滑的运行过程中,它在两个星期某一天的夜里可能由于峰值的原因导致某些应用出现了性能上的瓶颈,现在已经能够精确定义到某些机器在历史中曾经出现过的事情,或者它能够知道在过去的某段时间我的应用最终用户的感受,端到端的感受,这些都是今天的大数据平台、大数据云能够实现的。
      社交数据方面,比如日本软银,大家知道软银也算是日本蛮大的电信公司,它在过去几年对它的社交媒体数据、微博数据、推特等社交媒体信息非常关注。他们的老总孙正义是我们公司的一位老总的老朋友,他说每天要看公司支持的舆论率,他每天都要看微信、微博上的信息,他拿过来之后能够分析企业的支持率。如果支持率小于49%,他认为这是一个很严重的问题,需要相关部门进行分析。还有基于图像、地理位置、手机话音信息,他能够在过去五年当中利用大数据的技术分析他跟他的竞争对手之间的网络布局上的差异,从而优化他的网络,让它在过去三年达到了日本第一名的模式。
      国内的例子也非常多,大数据在企业应该有三种应用阶段,基本上蛮多企业还是在一个比较基础的大数据应用阶段。从之前的商业智能和数据仓储发展起来,有一部分基础大数据应用,我们把快速需要检测的东西做出来了,比如我们在银行做的反欺诈的查询,把主机上的数据抓出来之后,基于Hadoop NoSQL数关系型数据库来做。另外就是全数据、流数据等大数据在行业中的应用,所谓全数据包含的面非常广,应用领域不光包括数仓的模型,更多考虑的是在数据实验室,对你未知的一些东西,我有很大量的数据,但是不知道里面有什么样的规律,所以探索就显得非常重要。
    [17:21]
  • [美国甲骨文公司高级技术总监李珈]:我叫李珈,我是来自甲骨文公司,在Oracle大概有十几年的时间,今天站在这里说实在话我是非常真心的开心,因为我是贵阳人,贵阳也是我的家乡。所以刚才我有听到副市长在讲,在今天的数博会上贵阳拿到了七项第一。我也希望经过我们今天的演讲,能把我们好的技术和案例带到贵阳,希望这些好的技术和案例能给家乡带来有用的价值。
      我的题目是《融合创新——洞察企业大数据价值》。今天大数据的含义是非常广泛的,对Oracle来讲更多讲的是企业级的大数据,所谓企业级的大数据更多的是传统企业级的大数据,包括三大类,大家看到的定义是来自于Oracle在企业级白皮书中的定义,有关传统企业的数据,包括传统的CRM等传统业务上的数据,这是第一类,即传统结构化的数据。
    [17:20]
  • [主持人马京晶]:我们非常感谢赵立军先生的分享!下一位讲者是来自美国甲骨文公司高级技术总监李珈女士。[17:20]