- [人民网贵州频道]:各位网友,今天下午的论坛直播到此结束,谢谢网友的围观。欢迎继续关注人民网对数博会其他论坛的直播。[18:41]
- [主持人]:谢谢潘秘书长,从全球化的视角对数据安全和个人隐私保护做的介绍。今天下午九位专题演讲嘉宾,给我们对于今天的主题,数据安全与个人隐私保护,从国家立法的角度,从阿里巴巴数据安全的成熟度模型往行业标准方面的努力,从医疗、物流和滴滴出行这样的行业应用场景,然后又从数据整个在互联网业务方面的数据泄露的产业链和数据匿名化的技术方面,最后又从韩国的大数据发展的情况介绍和全球化的数据安全运行的视角,涵盖这么多的方面的阐述。我们这个主题,可以说今天下午是一场思想的饕餮之宴,这个话题是大数据应用的一个基石。今天大数据时代的挑战:数据安全与个人隐私保护论坛下半场成功结束,谢谢大家![18:40]
- [潘永花]:最后这一块,就是地下黑产的问题,这个问题不仅仅是国内的问题,未来会成为一个国际性的问题。现在很多黑客他们其实都是公开贩卖,不只是贩卖数据,甚至贩卖黑客的技术,比如说我帮你去盗一个账号是多少钱,帮你盗一个企业的账号是多少钱,这都是有标准的报价的,然后在这一块我觉得也是对咱们整体的行业的影响也是非常负面的。而且有的黑客他也是属于,举一个例子,就是“盗亦有道”,人家也是有职业修养的,就是说我多少钱要办多少钱的事儿,重视就是说自己在黑客圈里的声誉,从国家,从政府,从企业的角度,都要联手一块把这个市场给治理好,这也是一个非常明显的问题。这就是我今天跟大家分享的一些内容,谢谢各位![18:36]
- [潘永花]:第四个趋势,基于大数据技术的监控、检测和响应三者联动会成为整个安全界一个最主要的方向。这个从利用大数据技术来保障整个的网络和系统安全的角度来说,实际上是我们看到伴随着这种数据流动,传统的防控机制变得效果越来越弱,因为数据越来越多的走出了我们的边界,走向了全球,所以这块我们认为未来可能像基于大数据的监控、检测和响应联动会是一个主要的方向。我也用到了一个Gartner的数据,现在的投资从10%到2020年就会增长到60%。而且还有一个就是说像现在人工智能,机器学习这些相关技术的一个发展,也使得我们基于大数据技术的这样一个威胁情报安全分析的技术,也是成为越来越主要的一个方向。[18:35]
- [潘永花]:第三个趋势,新型支付的手段,使得我们相关的钱财的,或者是说信用卡的一些数据就容易产生泄露。因为像现在我们越来越多的人使用移动支付,现在随着比如说现在甚至也有刷脸支付,还有NFC这样的模式的支付,多种的新型支付手段,其实在使得我们更方便的同时,带来了安全威胁其实也是变得越来越大了。从这块来说,这些肯定会有越来越多恶意的人士会通过他来找到相应的一些数据泄露的漏洞。[18:33]
- [潘永花]:第二个趋势,我们是觉得物联网的安全将会变得越来越重要。其实我曾经看到过一篇文章,就是说可能在未来的某一天,你身上有可能就戴上四五十个传感器,就是量化自我,成为一个越来越重要的一个趋势,量化自我的同时,我们本身数据的安全就变得越来越重要。另外就是说工业互联网的发展,也使得互联网变得无所不在。所以我们也是认为关于物联网的安全,也需要国家开始制定一些指导方针,或者是策略来推动这方面的一些安全政策的制定。[18:32]
- [潘永花]:后面跟大家讲一下,从我们的角度来看,未来的五个趋势。第一个趋势,我是觉得其实今天周老师已经给大家也做了详细的解读,像个人数据保护和跨境数据流动的规则和法规的实践备受关注。因为这两个相关的法律都是最近刚刚发布的,一个是欧盟的一般数据保护法律,这个条例被号称为说是历史上最严的关于个人数据保护的一个条例,但是实践之后会有什么样的效果,这个是非常关注的。第二,就是说最新的《欧美隐私盾牌》协定,用于商业目的的个人数据,从欧洲传到美国后,享受欧盟境内同样的数据保护标准,这一点其实是为什么会出这个《欧美隐私盾牌》协定,其实核心还是因为欧盟和美国之间的,他们之间的这种国和国之间的贸易,占美国对外贸易的比例太高了,这个贸易的比例大概是50%以上,欧盟之间开始建立了欧盟的隐私盾的协定,但是对于我们国家来说,我们可能现在关于个人数据保护这方面的法规,相对来说还是比较零散的。这一块如何能够向国外学习,也是对于我们大数据整个的产业来说都是非常有价值的一个事情。[18:32]
- [潘永花]:这是从政府的角度,因为我要分享全球的数据安全,就可以看美国的政府是怎么来关注网络和数据安全的,他们不只是政府本身就成立了这样的一个网络威胁和轻薄整合的一个中心,因为这个中心本身也会利用大数据的一些技术进行情报的一个收集、分析,然后同时他也发布了他们的网络安全的战略,也通过了相应的法规,来鼓励企业,来分享更多的关于计算机攻击的一些信息,其实我是觉得对于我们国家的政府来说,在这一块也可以进行一些尝试和创新。[18:30]
- [潘永花]:这个我是看到拿中国和其他的国家做了一个对比,整个的信息安全的投入也可以看我们中国其实比其他的发达国家差得还是比较远的。这个比例是属于信息安全的投入,占总体的IT投入的一个比例。这个是大概2014年的一个数据。中国其实也就1%左右。而美国和日本都是4%、6%这样的一个方面。这就使得我们可能在数据安全方面的投入还是需要大幅度的加强。[18:30]
- [潘永花]:第三是运营商的数据了,英国的宽带服务提供商TalkTalk丢了400万的隐私数据。下面这个是政府的数据,其实在我们国内也是有这样的一些事情发生的。政府的数据是美国的人事局是丢了2000多万历史的员工,包括现有员工的一些信息。像医疗行业也是2015年的,丢了8000万的这样一个相关的个人隐私的数据,底下这个也是很有意思。这家公司应该理解成是一个黑客公司,但是他自己结果就被黑了,被黑了之后他很多交易的信息,包括他怎么拿到的这些数据等等,这些都曝光到了天下。这些事情让我们看到其实全球的这种数据泄露的事件,其实和我们国内也是一样的,都面临着非常非常大的数据安全的一个挑战。[18:29]
- [潘永花]:第二个案子,就是去年8月份,最大的一个婚外情的网站,丢了实际的用户数据,这个用户数据所导致的结果,使得很多国外的名人曝光于天下,其中一个人因这个事情而自杀。所以这种事情让人感觉到非常的可怕。[18:28]
- [潘永花]:另外一个就是82%的情况下,黑客他几分钟就把你这个平台系统攻陷了,其中3%的数据泄露事件能够非常快的被发现。剩下的很多实际上都是需要花几周的时间才能够被发现,有的甚至可能上个月之后才能够被发现。第五点,发现的特点是说我记得以前有一段时间,零日漏洞还是非常火的,在安全领域,不管从分析、产业的角度都在讲这个事情,实际的情况是数据泄露的原因,因为用零日漏洞不是那么频繁,大部分是利用已经发布的漏洞,这也说明了我们大部分用户并没有说进行,针对自己的系统进行打补丁这样的一些行为,这也是反映了全球的一个状况。后面对一些具体的事件进行了一个分类,这个分类也是表现出来整个的这个数据泄露,可能从以前主要是针对像互联网企业,逐渐进入到了很多传统的大型的行业之中。比如说第一个例子是刚刚发生的,是在日本,实际上是国际上的一个犯罪的组织,是通过南非盗用了一批信用卡的信息,然后进行了伪造信用卡,又攻击了日本的ATM机,实际上从他们那儿窃了超过1300万美金这样价值的货币,而整个过程也是非常短的,耗时两个多小时,这个案子现在还没有完全破,还没有正式的宣布。[18:27]
- [潘永花]:这是来自于另外一个2016年Verizon,其中提到89%的数据泄露事件的动机,都是由于经济的利益,或者是间谍的监测,这两者中绝大多数是来自于经济利益的驱动。第二个数据是18%,18%的数据泄露事件主要原因实际上是人的情况,很多实际上是因为员工所犯的一些错误使得攻击有机可乘。另外一个就是63%,这个数据还是很令人惊讶的,就是63%的这样数据泄露,实际上是由于我们用的这个口令的问题,因为现在大部分还是采用原来密码这样相应保护的方式。因为我们用的口令是弱口令,或者是说默认的口令等等。这种实际上导致了我们数据泄露的发生。[18:26]
- [潘永花]:这是我们从全球看,刚才潘老师也有提到,没有详细的做解读。这是2015年最新的一个报告,从全球来看,数据泄密的事故数,在2015年是1673起,根据这个报告来说,我也是感觉这个可能调查的不一定很全面,但是比较有代表性的是说它涉及到了数据记录数是7亿多,最核心是因为它是58%是来自于外部攻击,也就是说,其实外部,像黑客这样的一些角色,还是对于数据泄密起到了最关键的作用。还有一个就是说关于个人的这种信息泄露,成为了一个最主要的一个数据泄露的元素。它整个的个人的身份的信息,就占到了超过53%,而其中关于行业这块,我也仔细分析了那个报告,行业这一块,排到第一位的是政府行业,政府行业大概占20%左右,排到第二位的是医疗行业,所以这两块也是比较拥有我们个人身份数据相对来说非常准确,相对来说很完整的两个行业了。[18:24]
- [潘永花]:从数据安全角度来说,在互联网世界,我们会讲到《三体》,有不少人都看过这本书,实际上里面提到一个升维和降维的概念,怎么理解升维和降维呢?数据安全的这种升维其实我们可以理解到因为数据在新的数据宇宙的世界里面,它的流动性、开放性在变得越来越强,而这种强的过程,也体现了数据的外部性,数据的外部性就使得,比如说我是一个企业,我是一个个人,我的数据安全可能就不能只从自己的角度出发,可能要站到一个非常全局的方向考虑,比如说可能要站到企业之外,站到整个产业、行业,甚至国家的角度去考虑这个数据安全的问题,这个实际上在我们思考上还是要更升维,什么叫降维呢?降维是我们在看,客观在数据安全领域,我们所收集的这样的,在整个数据世界里面,我们所收集的数据,或者说我们来利用大数据进行安全技术的升级的时候,实际上来自的这种数据会越来越多的实际上是非结构化数据,或者是半结构化数据,这些数据怎么能够来在我安全的策略,或者这种威胁情报的分析中能够体现出来,这个时候可能就要进行规范化、标准化、结构化,甚至是说才能加入到我们安全的策略和标准之中。所以我就认为其实是从数据安全的角度,我们在行动上可能还是要进行降维,就是更细的来去分析这种数据的价值。[18:23]
- [潘永花]:中国会扮演一个什么样的角色呢?中国的占比会从2014年大概12%到13%,到2020年我们会占到18%,从量的角度来说,我们肯定是毫无疑问会成为整个数据宇宙最大的一个国家,其实从现在的角度来说,我们对于数据的利用率、数据价值的发掘还是非常有限的。这个也是我们需要向很多国际或者是国外进行学习的一个地方。[18:21]
- [潘永花]:这张图是用到了IDC调研的结果,我觉得这个也还是蛮有代表性的。到2020年的时候,整个全球数据量将会达到44ZB,44ZB。2010年的时候才进入到ZB时代,2010年到2020年一共十年的时间,实际上翻了接近4倍,说明数据化的趋势,虚拟+物理世界,然后融合的这样的趋势,越来越明显。其中真正的增长是来自于哪里?我们的同事讲到了,潘老师讲到,其实是云、网、端,这三块其实都在不断的产生着数据,最关键的还是来自于增长非常高的,还是物联网的一个到来。因为这个也是看到在2020年的时候,可能会有300亿物联网连接的设备,这些设备所产生的数据,可能是会是使得我们能够达到这么高的一个数据量的一个标准。[18:20]
- [潘永花]:首先其实我先讲一下阿里的一个关于DT的理念,这个可能和之前讲到有一些不太一样,就是说之前我们看到,今天我在之前还听了施恩伯格(音译)的一句话,他说AI和算法,离开了数据是完全没有用的,我非常认同这种观点。其实今年3月份人机大战,它所反映的,虽然表面显示的是人和机器之间的战争,实际上核心还是DT时代到来的一个更明显的一个标志,为什么这么说呢?其实我们也找到了20年深蓝人机大战的例子,我们认为那个时候主要依靠的肯定还是以硬件主机的计算能力为核心,当时用的算法也是这种穷举的算法,谈不到大数据的技术。到了今天DT时代,其实最关键的还是是基于大数据的这样的人工智能的算法的出现,再加上成千上万台的服务器连接的云平台,支撑了我们DT时代的到来,这也是一个标志性的东西。其实我们在看,在DT时代到来的时候,数据发生了什么样的一个变化呢?我们是觉得其实在IT时代更多的应该是原子的比特化,就可以理解成实际上是物理世界如何形成一个虚拟化的一个过程,实际上在到了DT时代,我们也看到越来越多的数据元素,在加入到这个原子中,比如说像物联网这样的一些例子,后面这一页是更容易理解的,我们是认为,其实过去这种物理化的世界,数据在现在成为了一个核心,在物理数据化的过程,实际上是形成虚拟世界,现在在新的物理世界中,实际上是虚拟世界和物理世界融为一体的标志,像新的技术,物联网、机器人,甚至人工计算、3D打印一些新的技术,使得我们虚拟世界和物理世界在融为一体。也就是DT到来的趋势越来越明显。[18:15]
- [潘永花]:谢谢。我在阿里研究院主要负责大数据和云计算相关的一些研究和政策,说实话,真正的针对数据安全领域,也是在学习的过程中,我们在这方面的研究也刚刚起步。所以有一些讲的不一定特别合适的地方,也希望大家批评指正。[18:12]
- [主持人]:非常感谢李会长对韩国在大数据产业上面相关技术做的介绍,在两个礼拜之前,在上海举办了一个科技国际论坛里面,也碰到了两位韩国的专家,他们也介绍到韩国确实是在大数据的技术方面做了很多的布局,从顶层的芯片技术,到中层的互联网、物联网,再到顶层的人工智能等方面做了很多的布局。韩国5000万人,贵州有3500万人,我们应该做什么,我们应该尊敬他们,学习,我们听完了韩国故事之后,我们下面再请出最后一位演讲嘉宾,阿里数据经济研究中心潘永花秘书长,来给我们介绍一下全球的数据保护的趋势,及其预见![18:10]
- [人民网贵州频道]:韩国大数据学会副会长李荣祥演讲词略。[18:02]
- [主持人]:非常感谢李丹枫的精彩演讲,以及其对于隐私保护前沿技术的分享,尤其佩服其学术严谨性。中国国内大数据,数据安全和知识的介绍,接下来很荣幸请到韩国大数据学会副会长李荣祥。主题:韩国大数据的发展以及基于面向未来的处理方法。[18:01]
- [李丹枫]:首先隐私已经受到挑战,已经毋庸置疑,第二比较关键的一点,隐私的保护实际上是从数据的属性已经变成了计算的属性,我们有很多新的技术提供了解决方案,大部分是在实验阶段。隐私跟数据价值的发掘是在矛盾中不断的成长起来的。谢谢大家![17:57]
- [李丹枫]:另外是同态加密,昨天上半场艾瑞的郝总他提到了解决方案,他在中间提了一句同态加密,我今天稍微讲一下同态加密,同态加密什么意思呢?就是说我直接在加密的文件上进行计算,这个文件根本就不解密,这样你就没有机会看到我这个文件是什么。举一个例子,有一个编码,把这个Holle编成一个字符串,把Wrod编成一个字符串,我可以把它连起来,我连起来的结果上,解码就能够得到Holle、Wrod,这就是同态加密的一个原则,就是说我在加密的这个东西上进行了一个操作和我在解密进行操作得到的结果是一个,这个属性是非常特殊的属性,很多加密的算法是不能达到这个属性的。[17:56]
- [李丹枫]:我刚才谈了这些案例,这些解决方案,现在没有一个是成熟的方案,可能只能解决一些问题,一些场景。第一,叫差分隐私,这是什么意思呢?如果我一个数据,我给你一个数据,你只能拿到一些统计级别的信息,比如说这个表,我有这个姓名跟疾病,这个姓名,大家如果说对美国美剧比较感兴趣的,这是美国一个电视剧的五个人,这个人是不是有肝炎,把所有五个人肝炎的值加起来,减去四个人的肝炎,我就知道他是不是有肝炎,尽管我没有权利读每一条信息。这个差分隐私是做什么呢?就是说我做一件事情,就是在我的查询结果上加上一些噪声,这底下有一个图,每一个小云彩,就是一个我在原来这个数据级上做了修改的,你可以理解成做了结果修改的一个数据产生的结果,如果我有一个结果,落在这个地方,我现在按照这种分布,这个结果有可能是从D3、D4、D2,或者D5出来的,我没法知道它具体是从哪一个数据级出来的,这样的话,我不知道对于D3、D4、D5来说,如果里面有一些个体不同,我不能因为这个结果推出任何个体来。这就是一个差分隐私的一个方法,理论方法。当然了实践上怎么用,这个有很多理论,就是说你这个噪声要加多大,跟这个表的属性有关系。[17:53]
- [李丹枫]:还有一个比较恐怖的例子,这是用4个时空的点做一个客人的识别,这个是MIT和波士顿的一个学校,他们用15个月,150万人的手机位置的信息,只包含位置和时间,这个手机给一个ID,你在什么点,什么时间在哪一个点上,就这个信息。这个信息画在图上是什么样呢?是一个轨迹图。他们发现我只要用4个时间和空间的点,我就可以识别95%的人。这个跟什么去比一下比较合适呢?指纹识别用的比较多了,这个轨迹我可以认为是指纹,指纹识别现在需要12个点,这个轨迹的识别只需要4个点。所以说就是这种信息,我都可以定位到人。当然了,他们做了这个研究以后,所有的信息都可以认为是跟个人识别有关的信息,我们需要对待这个信息的处理不能跟原来一样,另外我拿到这些信息,我从这些数据里能够得到的好处比我这些信息能够给我们带来的威胁要大得多。虽然说我们有这个风险,我们还是要继续做研究的,他是做研究的人,他不希望人家不给他这个数据。[17:51]
- [李丹枫]:他们看了一下,如果说我测量两个用户,就是在Netflix的数据里面,我测量两个数据,它的相似性,这个是0.8,超过0.8相似度的几乎就没有,如果相似度很高的人,其实占的比例非常非常少。如果在这种情况下,他们说如果我能够拿到辅助的信息,这个辅助的信息在这里面就是AMDB,在这个辅助的信息帮助下,我所有的敏感信息都可以变成身份识别的信息,就是刚才我说100万个用户,其实没有任何区分,我的姓名、年龄、性别,跟我看了哪个电影,在隐私层面来说,在现在这个大数据计算能力又很强的时代来说,其实没有什么太大的区别了。只是说有的东西你可能比较容易识别,有的东西需要费点力气去识别。[17:50]
- [李丹枫]:何两个人,我有一个一百万的维度,我们两个人基本上不可能完全都对应上,没有任何两个人在这一百万个维度上对应上,就说明这是我唯一的识别符,如果找到这一百万个维度里面重要的几个维度,我就可以把这个人识别出来。所以他做的这件事儿,就是用这个方法做出来的。尤其是对于不流行的电影,如果说我要拿一个《星球大战》,可能没有什么用,但是我要拿着一个特别小众的电影,可能就那么几个人看,这个对电影在这个地方有一个评级,这几个人对电影也有评级,他们的相关性就非常非常强了。所以不流行的电影,这是让我们做数据挖掘的,做文本挖掘的都知道,经常用的词,基本上对文本的分类没有什么太大的意义,但是一些特殊的词就很有意义,这个实际上是同样的道理。[17:49]
- [李丹枫]:这也是一个有名的案例,在搜索很早期的时候。AOL非常非常大,然后他是希望说我有很多很多搜索数据,我要公布出来,帮助学术界,他就公布了两亿的搜索记录,三个月的,他帮助学术界提高研究的水平,他所有的用户名都被一个ID取代了。不过AOL是有用户名的,当时你是要注册的,拨号上网的,需要注册的,它每一个用户名都被一个ID取代了,同一个用户,同一个ID,可以把搜索都连起来。有一个著名的人,是4417749,他在被公布出来的第二天,它就被识别出来是哪个人了,第一个搜索词,有一个马的手指头,第二个搜索词60岁单身的男的,还有我要找给我弄花园的人,在这个地区,大家可能都知道,这个人就是在这个地区,另外一些好多其他的东西,如果我的狗在任何地方尿尿怎么办?这样的搜索词,有上百个。我记得当时文章是一个记者,就把她认出来了,就是这个女的,这个事件实际上给AOL造成了很不好的影响。也是引发了在学术界跟工业界对于这个数据,怎么使用,包括法学界,这个数据安全怎么解决,很大的争论,最后大家没有特别好的解决办法。[17:48]
- [李丹枫]:有一个人,当时他还是学生,做了一件事。他怎么做的呢?在美国你要想投票,你都可以注册成选民,那么你注册成选民这个信息,实际上是一个公开的信息,对马萨诸塞州,你花20美元你就可以买到这个州内所有选民的注册信息,这个选民的注册信息实际上包含了你的所有识别的信息。他做的一件事儿,最后看起来相当容易,他发现如果我用生日找,跟这个州长同样生日的,在这个注册的人里面,因为他知道州长肯定是注册选民,毫无疑问,他就发现说,跟你同样的人生日的只有6个人,OK,原来我不知道这个记录一共有多少人,现在缩减到6个人。第二,这6个人里面有三个还是女的,再把邮政编码加上去,我就找到你了。这是在美国非常著名的一个案例。他进而就因为这件事情,投入到这个隐私保护的研究,他后来成为哈佛的教授。所以说有些信息出来以后,比如说邮政编码,并不是我们所谓的跟身份、跟个人的身份识别信息相关的,但是实际上你跟一些其他信息结合起来,它就变成了相关信息。[17:40]
- [李丹枫]:这是90年代的非常著名的一个破解案例。美国的马萨诸塞州,它的州长说帮助大家医疗做研究,他说我要做贡献,把所有公务员的医疗季度要公布出来,让大家做研究,这是马萨诸塞州的州长,他说我保护了隐私,我把所有可以识别的标志都给去掉了。[17:38]
- [李丹枫]:这个匿名化还有一个小的分支,叫k-匿名化,我在一个数据库,数据表里,任何一个准标识至少要有K次出现。左边的标是原始的表,第一列是说种族,第二列可以理解为邮政编码,第三个是得了什么病,看了左边的这个表,如果说把种族跟邮编联系起来,发现这个组合可能它只对应了一次,只出现了一次,那这样是不符合安全准则的,所以我要做什么?我这里做了两件事,第一件:Asian跟Afram合在了一起,保证这两个准标识在表格中出现了三次,这个合规了,另外把787开头的,有些邮编把后面的两位给隐了,保证我用邮编跟种族里在表格中出现三次,这叫“3—匿名化”,在这里我可以说一下方法的来源。[17:34]
- [李丹枫]:准标识可以通过数据确定一个人,或者是半确定一个人,比如说姓名、电话,另外的属性,直接翻译是敏感属性。这是大家不愿意把敏感信息跟标识联系起来的,比如说我有什么病,我不愿意让人家知道,但是医院把这信息共享出去,那怎么办?我把姓名直接删掉,我把电话号码加个密,现在很安全了,得病的信息跟一个人根本是联系不上,所以把信息放上去给大家用,一点问题都没有。这个就是传统的匿名化。[17:34]
- [李丹枫]:什么是匿名化?很多公司包括刚才滴滴的凌总也提到,我有很多数据,我认为这些数据很有用,我想把这些数据公开,但我又不想隐私安全的问题。那怎么办呢?很简单,传统的做法就是匿名化,可以把这个数据每一列分成两种类型,第一种叫准标识,这都是我自己直接翻译过来的,所以大家如果跟行业的术语不大一样,请原谅我,因为隐私方面我也是新手。[17:32]
- [李丹枫]:非常荣幸今天来这里跟大家分享。我学习了一阵子,今天分享的内容基本上是我学习的心得。刚才周教授提到美国隐私保护问题,其实美国是很看重的,我最近一直在学习一些材料,美国专门有一个给总统负责的科学委员会,他们在几个月前写了白皮书,我读了白皮书一部分,启发很多,后来再上网搜索了一下,找了一些有意思的案例,今天来分享一下。[17:32]
- [主持人]:谢谢凌总对滴滴出行在数据保护层面各种努力做的分享,这里凌总提到了一个很有意思的话题,就是说作为滴滴出行一个公司来讲,把数据分享给政府,分享给监管机构,其实也是需要有法律的风险支持的,这一点希望后面法律界的人士一起推动这件事情,个人的数据,如果再分享给学术机构的,那么采取一定的匿名化的措施,关于匿名化,请李丹枫给我们进行更详细的介绍。主题是隐私保护的技术与策略。[17:30]
- [凌亢]:我刚才说了,滴滴非常严格的遵守法律法规,我们成立了安全的部门,这个安全部门,一个就是内部的数据管理。第二,滴滴那么大数据使用量的一个公司,也是经常会受到一些网络上的一些攻击,我们和我们的合作伙伴一起安全的管理的平台,形成了强大的防护功能,来抵御大规模的攻击。去年就发生过一起,但是大家应该有这样的感觉,滴滴使用的服务率还是非常非常高的,在我的印象当中,去年被人攻击过一次,十几分钟,防范掉了以后,没有出现过不能服务的用户。第三,数据应用,建立数据分类的管理,从数据安全角度制定使用管理保护的机制,明确禁止一些数据跨境的一些流动。我们公司也和国家的一些司法机关也好,和高校、研究所、安全企业,有广泛的一些合作,这个合作不是把我们的用户信息拿出去分享合作,是对这个系统怎么防范。当然我们会拿一些脱敏的数据和一些研究的机构做一些研究,是一些脱敏的数据。我的分享就到这里,感谢大家,谢谢![17:29]
- [凌亢]:滴滴掌握的用户交通出行的信息,包括姓名、实时的位置、手机号码、真实出行的轨迹、单位的地址、家庭住址,这个都应当受到保护。只有国家司法机关在得到了授权,我们公司才会把这个信息分享给国家的权力机构,其他的,无论是商业的机构也好,什么机构也好,我们觉得这个都需要非常谨慎的,就是不能给。一些国家机关也要履行一定法律的手续以后,才能把个案的,需要调查的数据进行一个分享。因为这个东西太重要了,你单位的信息,你住什么地方,都在这个出行的平台上,所以我们一贯要保证这样的数据安全和个人的隐私。第二,我们滴滴公司也呼吁国家能尽早的立法。到底哪些数据给政府的监管部门或者给比如说消费者保护协会,哪些数据能给到什么尺度,通过立法来确定。[17:28]
- [凌亢]:第三,对一些在日常过程当中,确实也曝露出一些,比如说有一些司机,有一些乘客,司机因为服务不好,给司机提供了差评,某些司机就会给骚扰乘客,就像淘宝的网店,买东西给了他一个差评,经常有人寄什么很不好的东西,或者骚扰他,在我们滴滴的平台上也发生过这样的事情。那么我们现在也有一整套的,包括从技术上,技术上我们现在正在做这个技术的测试实验,司机打给顾客的电话,看不到乘客真实的一个电话。第二,一旦发生这样的东西,我们通过法律的手段,像这种恶意的骚扰乘客的司机,不允许他成为滴滴快车的司机。[17:26]
- [凌亢]:第二,我们和公安机关有一个密切的联系,前面物流的公司也说了,公安部也在我们滴滴公司要建立一个警务站,我们同全国各个地的公安机关合作,因为有些案子的调查,我们也配合公安机关,通过大数据的方式,也抓住了很多的犯罪的嫌疑人,当然这个我们是有一套很严格的规定,根据公安部的规定,执行的规章制度来保证个人隐私的一个安全。[17:25]
- [凌亢]:现在滴滴已经覆盖了全国400多个城市,是全球最大的一站式出行平台,回到这个主题,就是数据安全和保护个人的隐私,像滴滴这样一个互联网的公司,拥有那么大量用户的信息和数据,所以我们公司是非常重视这个数据安全的保护,我们专门成立有一个部门,是安全部,专门来负责所有数据的信息。第一个我们要建立一些,内部有很多的规章流程,因为我们整个滴滴有5000多名员工,那么多数据,势必有运营的人员,有技术的人员,有各个方面的人员,各个不同的层次,不同的人员应该对这个数据有不同的权限。我管你上海的专车司机的,我只能看到上海的数据;我是全国的预控,我能看到全国跟它相关的数据。我们有一套严密管理的流程来对这个数据进行分级,来进行管理不同的人有不同的权利进行看,虽然滴滴也是一个比较年轻的一个公司,但是随着互联网技术的发展,随着业务的发展,我们也逐步建立起来了这样一套安全系统。[17:24]
- [凌亢]:我们现在还做的一个,除了分享车、专车,现在还做了一个拼坐,或者是拼车,现在滴滴的快车,在北京,我们同一个,最长的订单,可以拼五个人,就是一个人上去,一个人下去,最多一趟可以拼五个人,也就是说我们这个拼车的形态在目前,在国内得到了很高的应用率,目前滴滴一天使用拼车的人,有150多万单。我们整个滴滴所有一天的服务量大概是1200万到1300万,也就是超过10%的用户都非常乐意接受这个拼车的服务。因为价格便宜,同时对整个社会来说一个是价格便宜了,降低出行成本,第二,更加环保了,第三,减少车辆的拥堵,我前面说了,减少车辆交通的拥堵也是我们的一个使命。[17:22]
- [凌亢]:你把你的车给分享出来,其实是把你的技能也是分享出来,我们觉得这是一个解决交通问题的办法,其他的我把司机搞多一点,出租车搞多一点,不是解决的办法,会造成新的社会的一些矛盾。滴滴也是一个大数据的公司,我们掌握了很多人的,3亿多的客户端的用户,这么多,有非常大的数据,为什么呢?我们主要是通过三个方法来展示滴滴的大数据的一些优势。主要是需求的预测,人的调度和动态的调价,需求的预测,我们通过大数据能知道哪一个地方,比如说北京的国贸,在几点到几点,它的用车的需求量比较大,这个就是通过以往的数据能够预测出来。第二,智能调度,这个地方缺车,我们会事先告诉无论出租车也好,专车司机,可以事先的跑到那边去接单,那边的需求会比较大。第三,动态调价,我们这个滴滴APP上,你在高峰的时候,根据滴滴学的原理,在高峰的时候,价格会比普通低峰的时候,有的时候价格会高一倍,这个是用经济的手段来调节供需的矛盾,但是经济原理的背后是通过大数据,因为你一定要掌握这个大数据,你不掌握这个大数据,你就不能精确的来预测出到底什么价格,什么时候,投放多少运力能满足需求[17:21]
- [凌亢]:从经济学的角度来说,在传统交通模式下,供需的模式,出行供需的模式,就是上下高峰的时候,这个需求特别旺盛,在传统出租车行业中,上班高峰的时候你想使用个人的点对点的轿车的服务,很大的概率上你是享受不到的。那么在低峰的时候,这是凌晨的时候,大部分人都不会出来了,大家都在家里,或者中午的时候大家出来的概率比较小,在这个低峰的时候,就会造成专职的出租车司机收入的会下降,接不到单。我们滴滴主要的模式,或者说思想,就是用昨天总理在主题演讲上着重提出的共享经济,也就是分享经济。总体昨天也说了共享跟分享其实是一个概念。[17:19]
- [凌亢]:非常感谢组委会给了我们滴滴这样一个机会,向大家分享一下智能出行和数据安全的保护,滴滴大家都了解,基本上在座的每一个参会的人都应该使用过滴滴,滴滴的目标主要是想解决城市交通拥堵的问题和打车难的问题,整个城市交通的资源是非常有限的,电动车、自行车的出行成本是很低的,第二是巴士和地铁稍微高一点,出租车还行,私家车是出行的综合成本相对来说非常高的,自己要养车,如果你要找专职司机给你开,你还要雇一个人,当你自己开车,其他的事情什么都不能做,成本是比较高的。[17:17]
- [主持人]:感谢潘博士对于互联网业务整个数据泄露链条的分析,并且提出了阿里现在可以对外面提供的一种防控的服务巨安全,希望各位有机会尝试使用巨安全,下面有请滴滴的副总裁凌亢先生介绍数据安全和数据防护。[17:14]
- [潘爱民]:最后讲到在云端的大数据风控里,这跟业务风险是相对应的,业务面临的风险一定是在这场景里,比如说跟帐号登陆相关联,交易的时候,或者是在有些论坛或者是社交场合里发消息所面临的风险,这些风险可以在一个风控引擎里完成。这是一个场景,我们对这些场景有策略和规则,再进到大数据风控引擎里,这是数据+运营结合,运营是要调这些规则,或者是可以自动化,也可以半自动化,基本上是这样的状况。最后就是对于每一个场景里都会给出风险和最终识别或者是识别的结果,或者是一些决策,如果说有风险,那可能是有一些处置决策。好,我汇报到此结束,谢谢。[17:13]
- [潘爱民]:数据防爬,这对真正的互联网业务非常重要,你放出来的这些数据,比如说你订火车票或者是做其他事,假如有的人把你的信息全部都爬了,你能提供的信息都给你爬走了,人家很可能侵犯您的隐私。这是非常重要的,我们平时说的信息泄露都是指敏感信息,有的信息可能不敏感,但一旦集合起来以后,可能是会有巨大的价值。所以数据防爬的原理也是非常重要的一点。还有是防止机器行为,用机器行为刷接口,刷接口是有很多的目的,有可能是破解本身的逻辑,也有可能通过这个接口,渗入到后端系统里。这是需要在链路上做好的,这是通常业务方不太会关心那么多,但这在链路上非常重要的,这是阿里做安全防控的举措。[17:11]
- [潘爱民]:所以这是检测、防护、监控,检测方面是漏洞,在应用的漏洞也是比较重要的,很容易被盗取。这方面我只提一下,移动APP全流程防护,从设计到开发到测试,再到上线,移动APP在端上的安全性,这里面有可能面对更多的风险,尽可能全流程,在前期的时候就能够做好。我再讲一下链路安全,刚才说的是端的安全。从端上到链路上,互联网本身是开放的网络,在这里数据如果说数据全部都在客户端上,有可能被破解或者被泄露,另外比较重要的是在链路上接入进入到服务云端的时候,在这时候,除了要做好保密,做好签名,签名主要是为了防篡改,一个是权限管理,因为端出去以后,是不可控的,这不像以前在浏览器里,只要重新发布一下,APP发出去不可控,所以在链路里是要有一个管理的能力。这是需要通过后端来做到的。[17:10]
- [潘爱民]:在端上的防护也是非常重要,特别是核心代码,有的时候也会变成一个竞争力。另外一个要有坚固,一旦在端上的应用发不出去时候,一定是要有监控的能力,或者说需要监控到您的资料有没有被恶意应用,或者是把应用仿冒,到最后就是破坏你自己软件的生意。比如说对支付宝就是一个很严重的风险,因为像支付宝应用在有些市场上有些是假冒的,有时候用户是不知道,一打开一输入密码,然后密码就会被盗走了,这是有风险的。[17:09]