主办:四川省县域经济学会          主管:四川省发展和改革委员会          业务指导:四川省社会科学院
《当代县域经济》杂志官方网站
用户名:
密码:
专题
县域金融
县域企业
乡村振兴
健康四川
工会先锋
乡村文艺
绿色低碳
大数据隐私保护迫在眉睫

时间: 2017-08-04  来源:四川县域经济网
北京邮电大学教授、博士导师、公共大数据国家重点实验室主任杨义先
  大数据既造福人类,又暴露隐私。
  大数据时代,你就是《皇帝的新衣》里的主角,赤裸裸的百十来斤肉,说过什么话,它知道;做过什么事,它知道;有什么爱好,它知道;生过什么病,它知道;家住哪里,它知道;你的亲朋好友都有谁,它也知道……反正,你自己知道的,它几乎都知道,或者说它都能够知道,至少可以说它迟早会知道。
  甚至,连你自己都不知道的事情,大数据也可能知道。比如,它能够发现你的许多潜意识习惯:集体照相时你喜欢站哪里,跨门槛时喜欢先迈左脚还是右脚,你喜欢与什么样的人打交道,你的性格特点都有什么,哪位朋友与你的观点不相同等等。
  今后将要发生的事情,大数据还是有可能知道。比如,根据你“吃得多、动得少”的信息,它就能推测出你可能会“三高”;当你与许多人都在独立地购买感冒药时,大数据就知道流感即将爆发。其实,大数据已经成功地预测了包括世界杯比赛结果、多次股票的波动、物价趋势、用户行为、交通情况等等事件。而这里的“你”并非仅仅指个人,包括但不限于你的家庭,你的单位,你的民族,甚至你的国家等。
  至于这些你知道的、不知道的或今后才知道的隐私信息,如将会瞬间把你塑造成英雄还是狗熊,那么,谁都不知道,只有天知道。
  第一个例子,是第一位世界级大妈,一部狗血韩剧的主人翁,名叫朴槿惠。她本来好好地当着总统,正引导大韩民族实现“韩国梦”,民众支持率也高达33%。可是,当她那能够拦截中国导弹的萨德导弹还未部署妥当时,自己已被来自网络的导弹击中,身败名裂。
  剧情第一幕是这样的:在那遥远的小山村,一个三本大学——梨花女子大学走后门破格录取了一位富二代学生:姓郑,名维罗。于是,蝴蝶的翅膀就轻轻一扇。几位抗议者不经意间通过网络对这位富二代进行了“人肉”,于是,不得了啰!原来,郑同学的老爸竟然曾是朴总统担任议员时的秘书长;秘书长的前妻乃朴大总统的闺蜜;闺蜜的老爸曾被认为是总统的“导师”兼“精神世界的夫妻”。一时间,大家目瞪口呆了。
  虽然,开后门的校长已经辞职,但第二幕还是如期上演了。打了鸡血的网友们这下可来劲儿了,又是挖又是刨,既用筛又用镐,经过一番地毯式的上下求索,又有重大发现!连处级干部都不是的闺蜜,竟然曾提前收到并修改过至少44份总统演讲稿,这无疑于严重破坏国家纲纪。
  后来,韩剧终于达到了高潮:总统向全体国民致歉,大检察厅宣布设立特别检察组,总统府秘书长、民政首席秘书、宣传首席秘书等8名核心幕僚辞职,总统府被紧急改组,闺蜜被检方以“亲信干政”火速逮捕,十余万人冒严寒上街游行了,“朴槿惠下台”的怒吼声响彻云霄。终于,朴大妈撑不住了,宣布辞职。
  你看,大数据隐私的威力不小,它引起的狂风暴雨,确实不亚于太平洋对岸那轻轻一扇的蝴蝶翅膀。
  知道了大数据隐私的上述无穷杀伤力后,你也许就会追问,到底什么是大数据?
  大数据,就是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
  根据麦肯锡所说,大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
  还有更多的权威专家们,总结了大数据的若干其它特性,比如,容量的超大性,种类的多样性,获取的快速性,管理的可变性,质量的真实性,渠道来源的复杂性,价值提取的重复性等等。
  形象地说,所谓大数据,就是由许多千奇百怪的数据,杂乱无章地堆积在一起的东西。比如,你主动在网上说的话、发的微博微信、存的照片、收发的电子邮件、留下的诸如上网纪录等行动痕迹等,都是大数据的组成部分。在不知道的情况下,你被采集了众多信息,比如,被马路摄像头获取的视频、手机定位系统留下的路线图、在各种情况下被录下的语音、驾车时的GPS信号、电子病历档案、公交刷卡记录等,也都是大数据的组成部分。还有,各种传感器设备自动采集的有关温度、湿度、速度等万物信息,仍然还是大数据的组成部分。
  总之,每个人、每种通信和控制类设备,无论它是软件还是硬件,其实都是大数据之源。甚至,像本拉登那样完全与世隔绝,不对外流露任何蛛丝马迹的人,也在为大数据提供信息。因为,一个大活人不对外提供信息,这本身就是一条重要的信息,说明此人必定有超级秘密。
  无论你是否喜欢,大数据它就在那里;无论主动还是被动,你都在为大数据做贡献。大数据是人类的必然!
  大数据它利用了一种“大数据挖掘”的技术,采用了诸如神经网络、遗传算法、决策树方法、粗糙集方法、覆盖正例排斥反例方法、统计分析方法、模糊集方法等高大上的方法。大数据挖掘的过程,可以分为数据收集、数据集成、数据规约、数据清理、数据变换、挖掘分析、模式评估、知识表示等八大步骤。如果你已能把所有这些方法和步骤搞清楚了的话,那么,恭喜你,你已成为大数据博士了!可惜,一般人根本不关心这些“阳春白雪”,所以,还是让我们请出“下里巴人”来吧。
  大数据产业,可能将是世界上最挣钱的产业。无论从工作原理、原料结构,还是从利润率等方面来看,能够与大数据产业相比拟的,也许只有另一个,从来就不被重视的产业——垃圾处理和废品回收。
  废品回收和大数据处理几乎如出一辙:废品收购和垃圾收集,可算做是数据收集;将废品和垃圾送往集中处理工场,算是数据集成;将废品和垃圾初步分类,算是数据规约;将废品和垃圾适当清洁和整理,算是数据清理;将破沙发拆成木、铁、皮等原料,算是数据变换;认真分析如何将这些原料卖个好价值,算是数据挖掘;不断总结经验,选择并固定上下游卖家和买家,算是模式评估。
  在垃圾处理和废品回收专家们眼里,根本就不屑一顾,因为他们有适应性更强、效果更好的方法。若不信,请用遗传算法去处理一下垃圾看看,保准一筹莫展。若你非要追问垃圾专家的挖掘方法是什么,对不起,祖传秘方只传后代,并且传男不传女。
  再说原料结构。与大数据的异构特性一样,生活垃圾、工作垃圾、建筑垃圾、可回收垃圾和不可回收垃圾等,无论从外形、质地,还是从内涵等方面来看,也都是完全不同的。与大数据一样,垃圾的数量也很多,产生的速度也很快,处理起来也很困难。
  如果非要在垃圾和大数据之间找出本质差别的话,那么,只能说垃圾是由原子组成的,处理一次后,就没得处理了;而大数据是由电子组成的,可以反复处理,反复利用。
  最后看利润率。确实有人曾在纽约路边的垃圾袋里,一分钱不花就捡到了价值百万美元的,墨西哥著名画家鲁菲诺·塔马约的代表作《三人行》。而从废品中掏出宝贝,更是家常便饭。即使不考虑这些天上掉下来的馅饼,就算将收购的易拉罐转手卖掉,也胜过铝矿利润率;将旧家具拆成木材和皮料,其利润率也远远高于木材商和皮货商。
  总之,只要垃圾专家们愿意认真分捡,那么,他们的利润率可以超过任何相关行业。与垃圾专家一样,大数据专家也能将数据(废品)中挖掘出的旅客出行规律卖给航空公司,将某群体的消费习惯卖给百货商店,将网络舆情卖给相关的需求方等等,总之,大数据专家完全可以“一菜多吃”,反复卖钱,不断冶金,而且一次更比一次赚钱,时间越久,价值越大。
  大数据挖掘,从正面来说,是创造价值;从负面来说,就是泄露隐私了!
  大数据隐私是如何被泄露的呢?大数据隐私的发现和保护,其实很简单,如果还不明白,我来分解一下经典的“人肉搜索”。
   一大群网友,出于某种约定的目的,比如,搞臭某人或美化某人,充分利用自己的一切资源渠道,尽可能多地收集当事人或物的所有信息,包括但不限于网络搜索得到的信息(这是主流)、道听途说的信息、线下知道的信息、各种猜测的信息等等;然后,将这些信息按照自己的目的精练成新信息,反馈到网上与其同志们分享。这就完成了第一次“人肉迭代”。
  接着,大家又在第一次“人肉迭代”的基础上,互相取经,再接再厉,交叉重复进行信息的收集、加工、整理等工作,于是,便诞生了第二批“人肉迭代”。如此循环往复,经过多次不懈迭代后,当事人或物的画像就跃然纸上了。如果构成满意画像的素材已经坐实,至少主体是事实,那么,“人肉搜索”就成功了。
  朴大妈就是“人肉”的牺牲品!可以断定,只要参与“人肉搜索”的网友足够多,时间足够长,毅力足够强,那么,任何人,那怕你是圣贤也经不起考验,都能够被最终描述成恶魔或败类。
  此时,网友被电脑所替代;网友们收集的信息被数据库中的海量异构数据所替代;网友寻找各种人物关联的技巧被相应的智能算法替代;网友们相互借鉴、彼此启发的做法被各种同步运算所替代。各次迭代过程仍然照例进行,只不过机器的迭代次数更多,速度更快而已,每次迭代其实就是机器的一次学习过程;网友们的最终得满意“画像”,被暂时的挖掘结果所替代,因为,对大数据挖掘来说,永远没有尽头,结果会越来越精准,智慧程度会越来越高,用户只需根据自己的标准,随时选择满意的结果就行了。
  当然,除了相似性外,“人肉”与大数据挖掘肯定也有许多重大的区别,比如,机器不会累,它们收集的数据会更多、更快,数据的渠道来源会更广泛,总之,网友的“人肉”,最终将输给机器的大数据挖掘。
  自互联网诞生以后,人们都不遗余力地将若干碎片信息永远留在网上;其中,每个碎片虽然都完全无害,可谁也不曾意识到,至少没有刻意去关注,当众多无害碎片融合起来,竟然后患无穷!
  不过,大家也没必要过于担心,因为,在人类历史上,类似的被动局面已经出现过不止一次了,而且每次最终都会有惊无险地顺利过关;比如,天花病毒突然爆发引发恐慌后,人类便很快将其彻底消灭。其实,只要已经意识到出了问题,人类都一定能够想办法,直到圆满解决。
  历史上,隐私保护与隐私挖掘之间是这样的:
  人类通过对隐私的挖掘,在获得空前好处的同时,又产生了更多需要保护的隐私。于是,又不得不再回过头来,认真研究如何保护这些隐私。当隐私积累得越来越多时,挖掘它们就会变得越来越有利可图,于是,新一轮的“魔高一尺道高一丈”又开始了。如果以时间长度为标准来判断的话,那么,人类在自身隐私保护方面整体处于优势地位,因为,在网络大数据挖掘之前,隐私泄露好像并不是一个突出的问题。
  如何进行隐私保护呢?杨教授说,如果单靠技术,显然无能为力,甚至会越保护就越泄露,因此,必须多管齐下。比如,从法律上,禁止以“人肉”为目的的大数据挖掘行为;增加网民的被遗忘权等法律条款——网民有权要求相关网络删除与自己直接相关的信息碎片。从管理角度,也可以采取措施,对一些恶意的大数据行为进行发现、监督和管控。
  另外,在必要的时候,还需要重塑隐私概念,因为,毕竟隐私本身就是一个与时间、地点、民族、宗教、文化等有关的东西,在某种意义上也是一种约定俗成的东西,从来就没有过永恒不变的隐私,特别是当某种东西已经不可保密时,无论如何它也不该再被看成是隐私了;就像非洲某些部落妇女的乳房,至今仍然不是隐私一样。
县域金融更多>>
中国银行四川省分行:筑梦天府向未来[详细]
县域企业更多>>
学会企业发展工作委员会调研内江县域经济高质量发展[详细]
乡村振兴更多>>
四川乐至黑山羊的“进阶之路”[详细]
健康四川更多>>
资阳雁江:让百姓在家门口有“医靠”[详细]
友情链接:
学    会
学    术
资    讯
专    题
图片
视频
网站申明
版权所有:四川省县域经济学会
蜀ICP备10025149号-1
备案号:川新备15-000061
联系我们
地址:四川省成都市锦江区督院街70号
电话:(028) 87323971,87323979,86605683
E-mail:Scxianyu@163.com
QQ:476320177
邮编:610016