欢迎您,远方的朋友!

这里是Link Memos网站,如果您想访问Mohan同学的个人网站,请访问https://mohan.hu

2013年5月27日星期一

谷歌街景侵犯WIFI隐私情况调查分析

中研普华报道:谷歌街景之前在进行拍摄时也采集了沿街通过无线网络传输的未加密WIFI数据信息,这使谷歌遭 到美国多州检察部门的调查。目前谷歌已同意向美国37个州支付700万美元赔偿金,和解这一持续已久的法律调查纠纷。以下是谷歌街景侵犯WIFI隐私事件 使其支付700万美元赔偿金的10大原因。

1、谷歌在街景拍摄时确实获得了WIFI信息。谷歌进行街景拍摄时充分利用了数据记录技术,但这使得谷歌在获取街景图像的同时也获得了未加密WIFI 网络敏感信息。

2、谷歌将街景侵犯WIFI隐私归咎于“流氓工程师”。谷歌称其并非有意收集无线网络上的信息,称是谷歌一位“流氓工程师”找到了一种收集信息的 途径而使谷歌遭遇侵犯WIFI隐私事件。不过不幸的是,谷歌称并未及时抓到这位“流氓工程师”。

3、谷歌街景侵犯WIFI隐私持续已久,涉及侵犯隐私的信息量浩大。相关法律文件显示,谷歌街景收集个人信息的时间为2008年至2010年。这些个人信 息包括数百万电邮、企业信息机及其它个人敏感信息,使谷歌解释工作量巨大。

4、700万美元赔偿金看起来像是一笔“小额施舍”。虽然谷歌的技术能够收集各种信息,但该公司仅赔偿700万美元,这似乎仅是一笔“小额施舍”。毕竟谷歌能够收集一些用户家庭网络里的最隐私信息,对这位搜索巨人来说这笔罚款根本无足轻重。

5、谷歌获得了敏感信息。关于谷歌街景侵犯WIFI隐私最重要的一点可能就是“谷歌获得了什么信息”。从谷歌公布的信息来看,谷歌获得了包括WiFi 网络账号到电邮、密码在内的各种信息,不过截止目前这些信息并未被用来对付受害者。

6、谷歌是与很多个州达成的和解协议,赔偿金总额仅为700万美元。截止发稿时,已与谷歌达成和解协议的州有37个,这应该能为街景侵犯WIFI隐私 事件画上句号,因为这些州就是宣称隐私信息被谷歌收集的州。

7、谷歌将发起一场无线网络安全教育运动。虽然谷歌被迫承认犯错并且同意支付赔偿金,但谷歌有另一个要求,即谷歌要发起一场网络安全教育运动 ,告诉公众如何保护无线网络以避免遭遇有害入侵。

8、谷歌已“毁坏”数据。既然谷歌已承认存在一个问题,并且律师已介入,很明显谷歌已“毁坏”了所收集的这些数据。谷歌已承诺不会保留任何信 息,并且将确保这些信息不被恢复。

9、谷歌不会“对抗”政府。谷歌曾在一个声明中表示这次谷歌存在错误,谷歌很快会加强自身体系以解决这一问题。

10、谷歌街景不会改变。在这次谷歌侵犯WIFI隐私事件中,谷歌街景本身并不是一个目标。之前有消息称谷歌在收集用户信息时,有人认为谷歌街景 会成为这起事件的牺牲品,但直到现在谷歌街景仍然开放,也仍然是谷歌服务的一个关键组成部分。

Google Glass 未上市先遇阻

Google将推出的可穿戴设备Google Glass无疑是目前最受瞩目的科技产品之一,然而还未上市,它便面临着多方质疑。法院、政治人物、隐私倡导人士、监管者、执法部门及科技公司,就技术在 各行各业应用的界限再次展开了争论。在质疑声中最普遍的就是隐私问题。在《纽约时报》近期的一篇文章中,我们可以看到Google所处的现况。

配图来源:dribbble

原文如下:

Google将推出的Google Glass是款可穿戴设备,用户可以用其上网、拍摄照片和视频,但人们质疑它会分散注意力、颠覆人际关系并剥夺隐私。

旧金山——Google推出的可穿戴设备是iPad和iPhone之后,最受期待的一款宛如魔法的电子产品。这款产品在未来数月里还不会出售。

然而阻力现在就已经出现了。

这款设备叫做GoogleGlass。用户可以使用这种Glass式设备上网、拍照、拍摄短视频。西雅图的一家酒吧已经未雨绸缪地禁止佩戴该装置。拉斯维加斯的大部分区域,也不会欢迎佩戴者。西弗吉尼亚州的立法者试图将开车时佩戴该设备规定为非法行为。

专门研究隐私问题的洛杉矶律师Timothy Toohey称:“这才只是开始,Google Glass会引发相当大的争议。”

随着个人技术越来越便捷、越来越不易被人察觉,Google Glass也正在引发疑问,如这种装置是否会分散司机的注意力、颠覆人际关系,尤其是,是否会剥夺人们在公共场合仅剩的一点点隐私。

Google Glass没有镜片只有镜架,右耳处装有一个微小的计算机。Google称该设备“天衣无缝,十分强大”。它可以记录从看到明星,到遇到坏脾气售货员的任何一次偶遇,并在转眼间向数百万人广播。

洛杉矶布哈尔特•內莫事务所(Buchalter Nemer)的律师Karen L. Stevenson说:“现在看来,我们都会变成狗仔队,也都会变成狗仔队的目标。”

Google强调,Google Glass还是一款研发中的产品,目前仅面向2000名开发人员发放了测试版本。Google亲自挑选的8000名“探索者”很快也将会获得一副。

Google Glass也采取一些防范措施,使它不那么容易侵扰别人,包括必须讲话或触摸才能启动,拍摄照片和视频的时候则必须直视对方。

Google的女发言人Courtney Hohne表示:“我们正在非常认真地思考Google Glass的设计,因为新技术总是会提出新问题。”

然而,开发人员已经破解了Google Glass的限制。上周,一名开发人员在技术圈内掀起了一阵小小的波澜,此人开发的程序消除了手势和语音指令的要求。要想照相,眨下眼即可。

西 雅图的一家休闲酒吧“五点咖啡”(The 5 Point Cafe)似乎率先明令禁止Google Glass入内。一方面,这是个非常成功的宣传噱头,获得了全世界的瞩目,不过店主Dave Meinert表示,这里也有严肃的一面。他说,这家酒吧“算是个私人场所”。

西弗吉尼亚的立法者可不是在开玩笑。该州去年禁止开车时发短信,但允许使用免提装置,这为Google Glass留下一个漏洞。这项法案出台时间太晚,没能在州议会最近一个会期结束前获得广泛支持,但该法案的发起人表示,他可能会再试一次。

在拉斯维加斯,Caesars Entertainment的发言人提到,电脑和录音录像设备不允许进入赌场。他说:“我们不会允许人们戴着Google Glass赌博、观看表演。”

Louis Brandeis和Samuel Warren在1890年提出了一个著名的言论:“‘在内室附耳所说的,将要在房上被人宣扬’这句预言,可能会被很多机械装置转变成现实。”

Google即将推出这款设备之际,法院、政治人物、隐私倡导人士、监管者、执法部门及科技公司,就技术在各行各业应用的界限再次展开了争论。

参 议院司法委员会(Senate Judiciar Committee)上个月进行表决,要求执法部门不能仅靠一张传票就查阅电子邮件,而必须获得搜查令。美国联邦调查局使用模仿手机基站的装置追踪罪犯, 这种行为在亚利桑那州的一起案件中受到了挑战。加州的一所地区法院最近裁决,社交媒体上的私人信息在没有搜查令的情况下应受到保护。

乔治•华盛顿大学(George Washington University)社交媒体专家Bradley Shear表示:“Google Glass对隐私权和第一修正案之间的权衡是一次考验。”

Google在隐私权问题上一直处于风口浪尖。它从2004年开始提供免费的邮件服务,通过根据邮件内容推出的广告获利。曾有20多个隐私保护组织提出抗议。人们要求监管部门调查这种行为是否违反了监听法。

无论是好事还是坏事,人们已经对这个想法习以为常,抗议的声音很快就消失了。Gmail现在拥有逾4.25亿用户。最近,Google未经授权在街景(Street View)制图项目过程中收集数据,促使十几个国家的政府开展调查。

像很多硅谷的公司一样,Google认为在侵入性技术面前,人们没什么可以隐瞒的。

时任Google首席执行官的Eric Schmidt在2009年表示:“如果你有一些不想让任何人知道的事情,也许你当初就不应该做这样的事情。”

GoogleGlass 是Google努力在搜索服务以外进行多样化发展的重要一步,可能也是非常赚钱的一步。据分析公司Piper Jaffray估计,可穿戴技术及另一项重要创意——无人驾驶汽车——最终可能会为Google带5000亿美元(约合3.08万亿元人民币)的收入。据 预测公司IHS估计,从短期来看,以Google Glass为主的智能设备的出货量将会达到660万。

可穿戴设备的开拓者、Google Glass团队技术顾问Thad Starner认为,对Google Glass破坏性的担忧被夸大了。

Starner表示,“反社交的人能够通过该技术做一些反社交的事情,但多数人是希望能维持社交往来的。”他还说他和同事已经对Glass式的设备做了多年的试验,“我实在想不出这里面能有什么不好的事情发生。”

(责编/翟方庆)

文章来源:NYT

互联网为何让人上瘾

人类总是不由自主寻求不可预知的回报,在网上闲逛就是如此。 
人类总是不由自主寻求不可预知的回报,在网上闲逛就是如此。

“看一眼Facebook用不了一分钟。”

每天都会有人说这种话,但很快,他们便会花上好几个小时看视频、发评论、搜新闻。

如果你也是这样,也别太难过了:专家说,鉴于互联网的构建模式,这种行为是很自然的。

人类的大脑构成使之总是不由自主地寻求不可预知的“回报”,在网上闲逛就属于这种情况。而由于互联网早已无处不在,而且没有边界,导致人们丧失了时间观念,很难用意志力克服这种诱惑。

“网瘾与药物上瘾不同,但它也很难抗拒,很有诱惑力,很容易让人分心。”英国谢菲尔德大学认知科学家汤姆·斯塔福德(Tom Stafford)说。

邮件来了

人类是社交动物,因此,人们自然喜欢通过电子邮件和互联网获取社交信息。

从奖励结构来看,电子邮件和社交媒体与赌场里的转盘一样:多数都没有用,可一旦中了,就会赚得盆满钵满。具体到互联网,“中了”指的是看到引人入胜的消息或触动心灵的邮件。这种瞬间的满足感足以加强互联网的吸引力。

互联网的这种不可预知的回报很像是伊万·巴普洛夫(Ivan Pavlov)著名的“条件反射”实验:每次给狗喂食前都摇一下铃,最终,即使没有食物,单凭摇铃也能让狗分泌唾液。

假以时日,人们会将各种各样的信号(例如IM软件或Facebook主页上的提示音)与生理行为挂钩:每当出现这样的信号,便会释放令大脑愉悦的化学物质。斯塔福德称,人们会因此而反复寻求社交活动。

或战或逃反应

专门研究互联网所产生的生理效应的琳达·斯通(Linda Stone)说,阅读邮件或上网冲浪还会激发人类的“或战或逃反应”。

斯通发现,大约有80%的人在查看电子邮件或盯着屏幕时,会出现呼吸暂停或心跳减慢。她将这种现象称作“电子邮件窒息”。

网上经常有很多需要作出回应的重要内容——例如,老板给出的工作安排或好友发布的有趣照片——所以人们期待这些内容时,便会在看屏幕时屏住呼吸。

但屏住呼吸其实是一种生理反应,以便为潜在的威胁和惊喜做好准备。斯通表示,不断激活这种生理反应对健康有害。

没有限制

斯塔福德表示,互联网容易上瘾的另外一个原因是没有限制。

有些人开始可能只是为了研究一点东西,但随后不经意访问了维基百科,然后又转而开始了解Depeche Mode乐队的情况。

研究表明,意志力与肌肉相似:既可以绷紧,也会“筋疲力尽”。

由于互联网始终“开启”,所以就需要随时绷紧意志的“肌肉”,从而令一个人丧失自我控制力。

“你永远抗拒不了诱惑。”斯塔福德说。

建立边界

如果希望摆脱对互联网的依赖,可以尝试几个技巧。

可以通过一些专门的工具限制上网冲浪的时间,从而重新夺回对时间的控制权。另外一种方法则是预先规划。例如,只给某项工作分配20分钟时间,或是在某项工作完成后,才允许上网冲浪5分钟。

“技术都是为了侵蚀结构,但实际上,从心理学上讲,我们需要更多的结构,这便会产生矛盾。”斯塔福德说。

本文编译自scientificamerican

(书聿)

《自律宣言》反对Cookie滥用

4月8日,中国互联网协会在京召开《网络营销与互联网用户数据保护自律宣言》签约仪式,发布国内首份《网络营销与互联网用户数据保护自律宣言》。中国互联网协会高新民副理事长、卢卫秘书长、石现升副秘书长等出席会议。

图:中国互联网协会常务副秘书长高新民发表致辞

当前,随着移动终端的普及、移动互联网的蓬勃发展和大数据时代来临,网络营销的发展进入新的阶段,基于网民行为数据分析开展精准营销成为新的发 展方向,但过程中出现了个别企业恶意收集用户信息、损害用户权益的不规范行为,影响了行业的健康发展。为保护互联网用户合法权益,进一步规范网络营销服务 及互联网用户数据研究业务,中国互联网协会组织相关从业企业共同研究起草了《网络营销与互联网用户数据保护自律宣言》。

图:中国互联网协会秘书长卢卫作总结发言

《自律宣言》本着维护网络营销及互联网行业健康、有序、和谐发展的原则,从遵守法律法规、尊重保护知识产权、尊重用户知情权和选择权、收集和使 用用户信息的原则、尊重用户上网体验、保护用户上网安全、维护用户合法权益、健全用户信息安全保护制度、接受社会监督、推动网络营销标准化进程等方面对网 络营销服务及互联网数据企业的行为规则进行了约定,对于督促相关企业主动加强自律,提升服务水平,改善用户体验,保护用户合法权益,推动网络营销和互联网 用户数据研究业务规范、健康、和谐发展具有重要意义。

中国互联网协会副理事长、中国互联网协会网络营销工作委员会主任委员高新民在致辞中指出,《自律宣言》要真正发挥积极作用,不仅要在实践中严格 执行,而且要在实践中不断完善,把行为规则的红线划得更清楚,以适应行业不断变化发展的需要,真正成为网络营销从业者的有效参照和行动指南,为建设网络营 销及互联网行业的健康发展环境贡献力量。

中国互联网协会卢卫秘书长在总结讲话中强调,签约单位必须遵照合法、正当、必要的原则,从技术与制度两方面落实《自律宣言》,做到“规范使用、 妥善保管、严格保密、确保安全”;希望签约单位能够从文化建设与道德建设的角度,认识到推动网络营销诚信守法公平发展的重要意义,加强员工培训与教育,保 障用户个人信息安全。

 

 

图:中国互联网协会领导与签字企业嘉宾合影

奇虎360、DCCI、互动通、西岸奥美、传漾网络、品友互动、亿玛在线、云联广告、博雅立方、易传媒、随视传媒、悠易互通、缔元信、派择网 络、映盛中国、MediaV 、北京百分点、电众数码、中国软件行业协会过程改进分会、易介华通、北龙中网、窝窝团、北纬通信、唯一伟业、宜搜科技、宝库在线、银率网、搜房网、畅捷科 技及网秦天下等来自网络营销服务和互联网用户数据研究服务领域的30家企业与机构现场签署了《网络营销与互联网用户数据保护自律宣言》

2013年5月26日星期日

大数据时代的“恐怖片”

今天是Siri,明天也许就是一辆会说话的轿车。将来,人们或许可以直接经过大脑控制生活中的所有事情。一个眼神或者一个念头,智能电子设备就能安排好你需要的一切……这些假设的情节,就出现在英国迷你剧《黑镜》当中,在荒诞、讽刺的故事中,以黑镜子来隐喻当前高科技、智能化充斥人们生活后可能带来的后果。

然而,面对不断创新的高科技和随之带来的海量数据信息,布鲁克开始质疑:“迷恋科技,最终会把我们引向何方?”影片中的“黑镜子”代表的是电视机、显示器以及智能手机上发着冷光的屏幕。事实上,正如近年来频发的数据隐私泄露事件,这些“黑镜子”们如今正在墙上、在书桌上、在手掌中监视着我们日常生活的一举一动。如果有一天,你在网上或是其他用户那里发现了自己的通话记录或者看到自己的行踪,那么罪魁祸首很有可能就是此前被你装入智能手机的某一款时下热门APP。无论是手机还是平板电脑,或者其他设备,面对海量的高科技产品,用户往往在使用的过程中已经不知不觉地丧失了对这些智能设备的硬件控制权限,从而使自己“赤裸裸”地暴露在这个“大数据”时代下。

正如IBM技术创新全球副总裁Bernard S.Meyerson博士所说,我们现在正处在数据的新时代,我们可以收集和分析大量数据,我们把它称为“大数据”时代。在这个“大数据”时代中,一个庞大的信息世界就流动在我们的指尖之上。通过对这些数据的收集和分析,人们对这个世界的掌控力可以变得越来越强。

从此,人们不用再把时间浪费在毫无意义的交通堵塞上。通过在城市多处设置的传感器,我们能随时掌握在某个地方有多少辆汽车,车速是多少。有了这些数据就可以建立起模型进行分析,从而指导人们确定出行计划,避免拥堵。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。此外,数据收集和分析工具还能够帮助银行设立最佳网点,确定最好的网点位置,帮助这个银行更好地运作业务,推动业务的成长。我们的世界已经变得数字化,在这个数字鸿沟逐渐消失的时代,人们开始通过数字实现无缝连接,掌控未来。

但对绝大多数人来说,数字化时代带来的改变更多是介于欢乐和不安之间。人们喜欢科技,对应用工具柔情低语,从所有新奇的应用中攫取欢乐,就像瘾君子,每天不停地查看手机,时刻关注社交应用上的“新鲜事”。临睡前最后一件事、睡醒起床第一件事,都从刷牙、洗脸变成了打开手机查邮件。商务白领们因为职业所迫臣服于智能电子产品,他们的工作几乎变成24小时待命,工作入侵家庭远比家庭琐事打扰工作的时候要多。

如今,年轻的“数字一代”渐渐占领办公室,智能产品变得越发智能。英国通信管理机构Ofcom做过一个调查,结果非常惊人。在20岁以下人群中,有60%承认他们对智能设备“高度成瘾”,在成年人群体中这个数字达到了37%。智能电子产品将逐渐握住人类生活的命脉。此后,究竟是我们在掌控世界,还是智能设备掌控了我们?试想一下,苹果的Siri系统成了你的私人秘书,一个电子合成的虚拟教练负责督促你去健身房,一个具有自进化功能的智能“医生”负责帮你看病,你必须遵从它的“医嘱”来调养身体……

未来5年恐怖的“大数据”时代,珍惜你的快递单

1.无论SNS还是淘宝都越来越恐怖,至少我这么认为,淘宝时光机有兴趣的可以去玩玩,他居然准确的通过我的购物分析出了我的爱好,甚至分析出了我女朋友的名字,甚至知道我从上到下从内裤到袜子的SIZE,太可怕了。
接着,你还可以去玩玩腾讯的QQ圈子,仅仅是利用你QQ里的备注姓名,他几乎找到了和我相关的所有人。又或者是人人,改版无非也是想把手头的数据量show出来。
再比如,手机上各个应用, 没事就问你是否能提取数据,是否能用GPS,是否能帮助反馈软件提供数据,这都是在吸你的数据,吸你的消费行为,吸你的喜好,吸你的行为惯性。
----
2.互联网曾经最牛逼的是点击率,因为点击率可以卖广告。现在点击率当然依旧重要和牛逼,但是SNS,社交工具的发达让你我之间的关系,你我的爱好,你我的数据更加重要。
马云把淘宝最得力的干将调去做首席数据官,让人为之一颤!大数据这个词或许是云时代的一个节点,或许是昙花一现,也或许是未来。
还是举例子比较靠谱:
前几天,有报道说,废弃的快递单被当做商品销售。前几天,有报道说,有变态根据捡到的快递单分析出了某个女性的作息和生活规律,最后X杀。
为什么?
因为你的这些快递单上暴露了你的数据!最关键那些数据==你的行为。就好像假如我知道了你的生日,手机号码,加个算法,估计黑客5分钟就破解了你的几乎所有密码一样。我们行为的类同化太严重了。
再比如,淘宝最近很多1元包邮秒杀!请问卖家如何赚钱?
方法1:1元卖掉1000个,他销量增加,于是排到前面了,此时涨价, 他20元卖掉1000个,赚回本。
方法2:1元卖掉1000个,然后销量增加,涨价,接着20元卖掉了500个,取消前1000个订单,退款而已,赚后1000个单子。
方法3:1元卖掉1000个,然后统统退款取消订单,然后将这1000个人的收货地址、手机信息打包卖给数据收集商人。
---

害怕了吗?是的,这个时代我们隐私越来越少,因为智能化能分析出我们的行为,依据就是那些弥漫在我们日常生活中必不可少的手机,平板,淘宝,电脑,应用,微博。。。
3.或许以后会有一部电影或者小说,也会有若干公司从事这种数据收集、分析、转化的工作吧。
目前有大量数据的公司,举几个例子:
a.淘宝,有你的地址,有你的size of bra,哪天你发了财,马云亲自送货上门一件维多利亚的秘密,请不要惊讶。
b.人人,有你的关系网,几乎都是实名制,有你5年前,还是屌丝样儿的照片。甚至,我女朋友通过它知道我昨天晚上几点钟睡觉的。怎么卖出去这比数据,人人网好好琢磨琢磨
c.微博,有你的关系网,虽然不是很密切,有你的爱好,你的追星,你的人生观,你的绝大多数行为心理,甚至你做的那些资料详尽到不能再详尽的测试,以及你什么时候在什么地方发了微博,吃了火锅。
d.百度,应该是数据最多的,不过,可惜的是大多数人用百度,都不登录,这让百度抓了瞎,这才出了一堆好用的东西,想让你登录留个爪子印,比如百度网盘很不错哦。
e.其他B2C,比如京东,京东销量大,不赚钱,但是流量和数据也很恐怖,以后定向想你推送你喜欢的东西的广告,或者做做游戏,卖卖电子书,没准有一天真上市赚钱了。
f.UCweb,有你的登录地点,有你的登录时间,知道你什么时候会闲的蛋疼的掏出手机打开个新浪或者上个人人。
。。。
还有很多
----
不知道未来如何,这或许只是一个现象,但是应该会产生一些产业和销售上的变化,就像人类从地毯式轰炸到激光制导,精准的投放至少是广告行业已经发生蛮久的事情了吧。

大数据的使用和滥用

当我们开始新的一年,我们承诺一个转变,从专注于大数据的意义和技术到他所能提供的有用的、有价值的业务应用程序。确实是一个及时的举措,希望:我们开始听到更少的用Twitter数据流进行广告优化,更多的用潜在应用程序来提高人们的生活或环境。甚至更希望人们能开始认识到危险性当他们从与我们紧密相连的网络揭示或搜集私人信息的时候。
互联网是与所有都同步的,通过互联网我能找到上个星期在纽约时代周刊上刊登的两篇文章。第一篇是Peter Jaret在1月14号发表的描述怎样将病人履历从潦草的医生笔记(为什么他们写的这么简单?)转录和数字化,匿名存储于网络, 能够统计挖掘发现以前未知的副作用和处方药之间的相互作用,这是清楚的有用的、有价值的工作。第二篇文章是由Gina Kolata晚三天发表的,关一个遗传学研究专家是多么容易的从1000个匿名基因组计划数据库,一个商业的家谱网站,以及google中通过相关公开资料鉴定出五个人和他的家人们。科拉塔引用艾米L.麦圭尔(休斯顿贝勒医学院的一名律师和伦理学家):“通过幻想,你可以充分保护个人隐私或数据匿名不再处于一个可持续发展的位置。” 潜在的遗传数据被用于医学研究,效果良好,但是,他们这些人可能出现的结果可定义为保险公司,政府或其他有关各方基于他们的一次私人的基因组而产生负面影响?
这种情况的发生 - 有许多 - 应该深刻的描述为我们这些参与业务的大数据和分析。这里有医生,科学家和律师 - 覆盖包括逻辑学,伦理学和法律 - 那些看出他能改善人类生存条件的强大分析功能。但是,他们似乎掩饰了个人信息在网络上广泛使用会给隐私和安全带来更广泛影响的事实。毕竟,在网页上被限制的数据匿名早在2011年5月就由皮特·沃登在O'Reilly雷达在博客上进行公开讨论。而早在1997年Prof. Latanya Sweeney(现在哈佛大学的资料(私隐)实验室主任)就曾指出将性别、邮政编码和生日结合起来识别对87%的美国人民来说是独一无二的。
EbenMoglen,哥伦比亚大学法律和法律史教授、软件自由法律中心的主席,在2012年5月重新出版物柏林上被警告:“那些从公共偷窃和挖掘的信息是对思想自由的破坏, 并且只有这一代,最后长大想起了定位到保存这个人类最宝贵的自由这个“老办法””,随着媒体和医药、政府和零售、电信和金融都搜集成堆的关于我们的信息,还据称是抱着良好地目的。现实的情况是现在大数据的滥用(与使用相反的)已经变成现实,但在西方国家进展迅速,甚至在很大程度上是民主的。
因此,给出大数据匿名不再是一个可持续的位置,“应该明确的是,今天的高功率电脑上的分析可能是一个双刃剑; 我们不善只专注于一个单一的,锋利的边缘。”
当我们在来年评估并建立有益的、有价值的业务分析应用程序,让我们退后一步,甚至偶尔考虑一下以人类自由的代价赚取的利润或作出的发现是否是值得的。

大数据垄断的困境与隐忧

大数据技术使得人类的态度、情绪、行为等以往认为难以测量的方面,都可以变为数据来进行分析和预测。日常生活里的可量化维度从未得到如此淋漓尽致的挖掘与利用,而数学模型也在更广泛的领域里得到了重视。以往的统计分析强调的是因果关系,而现在的大数据研究更注重相关关系。因果关系的讨论时常不够全面,而对相关关系的把握更能够产生效用。从对“为什么”的疑问到对“是什么”的追寻,这体现了人类对世界的探索和理解有了更丰富的思路。

也许最极端的结论来自全球复杂网络研究权威艾伯特-拉斯洛·巴拉巴西。在《爆发:大数据时代预见未来的新思维》一书中,他宣称人类行为93%是可以预测的:“当我们将生活数字化、公式化以及模型化的时候,我们会发现其实大家都非常相似。我们都具有爆发式,而且非常规律。看上去很随意、很偶然,但却极其容易被预测。”“爆发”即指人们的工作、娱乐及其他种种活动都有间歇性,会在短期内突然爆发,然后又几乎陷入沉寂。人类行为并非随机的小概率事件,而是在意向作用下非常规的突变行为。

不论巴拉巴西的理论是否赢得主流的共识,这些发现至少表明,在技术以外,大数据时代向人类昭示出越来越多富有启发意义的世界观和历史观。

大数据时代的隐忧:数据垄断的困境

首先,数据的可接近性并不就使得其使用合乎伦理。大数据为监测和预示人们的生活提供了极大的方便,然而个人隐私也随之暴露在无形的“第三只眼”之下。无论是电子商务、搜索引擎还是微博等互联网服务商都对用户行为数据进行了挖掘和分析,以获得商业利益,这一过程中不可避免地威胁到普通人的隐私。以往人们认为网络的匿名化可以避免个人信息的泄露,然而大数据时代里,数据的交叉检验会使得匿名化失效。许多数据在收集时并非具有目的性,但随着技术的快速进步,这些数据最终被开发出新的用途,而个人并不知情。不仅如此,运用大数据还可能预测并控制人类的潜在行为,在缺乏有效伦理机制下有可能造成对公平、自由、尊严等人性价值的践踏。

其次,越大的数据并非总是越好的数据。对数据的盲目依赖会导致思维和决策的僵化。当越来越多的事物被量化,人们也更加容易陷入只看重数据的误区里。关于数据在何时何地有意义的争议,已经不再局限于“标准化考试是否能够衡量学生素质”之类的讨论,而是拓展到更加广阔的领域。另一方面,如果企业甚至政府在决策过程中滥用数据资料或者出现分析失误,将会严重损害民众的安全和利益。如何避免成为数据的奴隶,已经成为迫在眉睫的问题。

第三,大数据的有限接入产生新的垄断和数码沟。面对大数据,谁能接入?为何目的?在何种情境下?受到怎样的限制?数据大量积累的同时,却也出现了数据垄断的困境。一些企业或国家为了维护自己的利益而拒绝信息的流动,这不仅浪费了数据资源,而且会阻碍创新的实现。与互联网时代的数码沟问题一样,大数据的应用同样存在着接入和技能的双重鸿沟。对于数据的挖掘和使用主要限于那些具有计算机开发和使用背景的专业人士,这也就意味着谁将占据优势、谁会败下阵来,以及由此而来的面对“谁更有权力”的拷问。

进入大数据时代,数据的掌握者们是否会平等地交换数据,促进数据分析的标准化,在数据公开的同时如何与知识产权的保护相结合,不仅涉及到政府的政策,也与企业的未来规划息息相关。

(作者分别为武汉大学新闻与传播学院教授、博导;武汉大学新闻与传播学院硕士研究生)

黑客开始利用云计算暴力破解密码

使用云计算服务来替代在公司里设立维护大量服务器,显然对节省企业的成本有利。不过现在看来从云计算服务中受惠最大的恐怕是黑客等群体,黑客们开始利用亚马逊EC2等云计算服务来暴力破解并窃取用户信用卡密码。不过据安全专家David Campbell的计算,即便用户不使用安全专家建议的大小写字母混合式的密码组合,使用亚马逊提供的云计算服务进行密码暴力破解的黑客,出于成本过高的原因可能也将无法使用这种服务对具备12位长度的密码进行破解。

  目前,亚马逊公司为用户提供一种名为EC2的云计算网络服务,这种服务按小时计费.而如果要利用这种服务来暴力破解长度为12位的密码,黑客需要为此支付150万美元以上金额的服务费。不过如果密码的长度缩短为11位,那么便只需要不到6万美元服务费即可,而10位密码则需要支付不到2300美元的费用。

  按照传统的安全建议,在密码中采用大小写字母混搭的形式更为安全一些,但根据最近的研究,其提升的安全等级并不如我们所想像得那么大,而密码的位数对密码安全性的提升作用则更大一些。采用这种混搭形式的10位密码只需要支付不到6万美元的服务费,便可以利用EC2云计算服务暴力破解成功。而11 位这样的密码则需要花费210万美元。而如果密码的长度较短,即使用户在设置密码时采用诸如“!@#$%”这类生僻字符,暴力破解密码同样比较容易。采用 EC2计算8位长度的这种密码的费用大约是10.6万美元左右。

  “由于黑帽组织已经开始利用云计算等超级计算服务开展破解行动,因此我们这批负责安全管理的技术人员需要重新考虑一些过去被我们忽视的安全细节。黑客们窃取了用户的信用卡后,可以利用这些卡里的钱来购买计算能力强劲的机器,这些机器的威力甚至比国家安全机关中装备的超级计算机还强。”

  尽管亚马逊向单独一名用户提供的云计算服务计算能力有限,但黑客们也有对应的办法,他们可以利用窃取的多个信用卡账号同时登陆云计算服务,让这些计算同时进行。
  Cambell在这次的假设中采用了一种很简单的算法:
  在计算暴力破解由8位全小写字母组成的密码的费用时,他简单地将暴力破解的次数设为26的8次方,这样,加上大写字母以及10个阿拉伯数字后,暴力破解的次数则变为(26+26+10)的8次方。而他的密码破解软件则每个小时可以暴力计算出93.6亿个密码,将62的8次方除以93.6亿,然后再乘以EC2服务的服务费,每小时30美分,这样暴力破解8位全小写字母密码的费用计算式便为:((26+26+10)^8/ 9,360,000,000) * .30.
  而暴力破解由12位大小写字母+阿拉伯数字组成密码所需的费用则为((26+26+10)^12 / 9,360,000,000) * .30使用云计算服务来替代在公司里设立维护大量服务器,显然对节省企业的成本有利。不过现在看来从云计算服务中受惠最大的恐怕是黑客等群体。
  不久以前,安全专家还对102位的RSA密码长度刚到放心。但随着电脑技术的发展,现在愿意使用2048位密码长度的安全专家数量也越来越多。而现在云计算也开始加入到为密码破解技术提供服务的阵营中去,是时候对一些传统的安全措施进行重新考虑和修改了。

可穿戴设备引发隐私担忧

未来,人人都植入内置芯片,手机定位软件免费下载忆影像可被随时翻查。当可穿戴式设施收集了所有人的康健数据,奉告我们哪种健身形式是最佳的时分,我们也就同时丧失了对自身康健的自主权。
互联网监听别人手机通话正在兴起的大数据将对可穿戴式设施做一次深刻的革命。谷歌迄今为止仍未发布,就已经以开放的心态充分与开发者合作。互联网的神魂就在于,开放、分享、平等、合作。这个也是可穿戴式设施务必要解决的致命缺陷,甚而会扼杀它的未来。
google glass未上市就已经获得宏大的关注,正是因为谷歌是家互联网企业,谷歌比任何一家传统企业明白互联网的神魂。可穿戴设施是将每私人成为更直接的数据发明者。大数据时世把每私人都看做了数据的发明者,又更深刻地定义了互联网的神魂。乔布斯使用互联网的思惟和生态链从新定义了互联网时世的产品的含义。这意味着与之相关涉的所有产品会变样。假如看过黑镜第一季第三集的人,便会深深发现google glass的伦理问题。
google glass所展览的安卓操作系统、实时在线、谷歌地图、谷歌搜索、实时分享等等种种功能,无不蕴含着互联网的基因和强大的生态链。它是缘于当移动电话被成功地转成为了新的移动电脑,当屋子里的互联网被成功地扩展到人们的身边,人们就萌生了一股迫切而殷勤的动力去用互联网从新定义身边的一切。随着互联网的不断深化,我们无法谢绝可穿戴设施对数据的收集和利用。 我期望未来的可穿戴式设施除开施展互联网的神魂以外,不可偏废的是人们对自身安全的需要。美国总统罗斯福说过, 人有四种自由,作别是舆论自由、崇奉自由、 免于匮乏的自由、免于恐惧的自由 。
可穿戴式设施从新兴起绝不是对以往模式的进展,而且互联网对传统模式的一次新的颠覆。应深刻明白大数据的变法,能力制作出合乎时世需要的产品。请所有开放者手机定位软件免费下载取,人们谢绝可穿戴式设施绝不是因为功能问题,而是因为伦理问题。我们都成为大数据发明者的同时,也成为被大数据所扼制的人。可穿戴设施对于大数据的利用,会导致人们免于恐惧的自由 的毁伤。
google glass现下还未发布,海外就已经发布了一个吐槽漫画,从欢迎到所有人都谢绝google glass佩带者。除开google glass以外,nike+、pebble、Jawbone UP等等,都在黾勉尝试。无容置疑,所有人对可穿戴式设施的殷勤都颀长。我们不晓得哪些产品终极笑到达最终,不过我们唯一肯定的是最明白互联网神魂的产品,才最可能成功。多心的夫婿正是经过手机定位软件免费下载忆翻查缉查妻室不忠的凭证,从而以致家子摧毁。未来或如今发明的所有可穿戴设施,不得仅只把设施看做PC或是智能手机的衍生。
不可偏废的是,大数据时代导致可穿戴设施的伦理问题。因为可穿戴式设施对人的数据收集是快捷而且全面,它会比你更加理解你,未来,人们会深深故此感到恐惧和不安。

“云”中的密码挑战

对于云计算的未来和安全问题,我们已经做过很多探讨,但是了解越深入、心存的问题也就越多,云计算的发展过程中是否给作为基础的密码学带来了挑战,传统的密码学又如何迅速地满足和适应云计算中安全的需求,关于云计算中的密码学标准建立情况如何?记者带着诸多疑问采访了中科院国家重点实验室副主任荆继武教授。他既是密码学的专家,又在多年的研究中注重密码学在安全中的应用问题,他对安全领域问题的评论从来都是冷峻、直率、深刻,荆继武教授对于云计算和密码相关问题的看法相信能让读者耳目一新。

“云”的安全问题是密码的应用问题

  云计算究竟面临怎样的挑战和机遇?这个问题是学术、产业、媒体都相当关注的,对于云计算面临的挑战和机遇,每位研究者都会或多或少地从自己的角度提出不同的观点。荆继武教授表示,要了解云计算面临的安全问题,就要先知道云计算的特点是什么。荆继武教授曾经在多个场合谈过云计算发展的安全问题,他认为,云计算最大的特点就是集中——云计算的专业化带来了业务集中。云计算是信息领域的专业化,其特点和导致的结果就是信息的高度集中,这样一来,信息的集中处理和存储、传输,都会带来安全的问题。所以,信息的保密就变成了所有人都很关注的问题,用户关心自己的信息在云服务提供商那里处理、存储,会不会有问题?云服务提供商关注客户信息传输、储存中如果发生泄漏,自己的信誉受损。这些问题的出现也就预示着加密要在其中发挥更大的作用——这就是云计算给密码学带来的机遇。

  但是,这同时也给密码学带来了很多的挑战,过去的密码是在通信时使用的,加密者同时就是解密者,但在云计算模式下,传统的密码是否能支持大量数据集中加密同时集中解密的处理,密钥管理和加密怎么做,由谁来加解密,云服务提供商如何对密文进行处理,这里面就出现了对于密码学的很多挑战。“我们的密码学能不能支持加了密后,继续支持这么大范围的加密和集中的处理和存储,能不能管理好这些密钥,确保只有合法的用户可以解开,别人解不开,这些都是云计算模式下密码学面临的新挑战。”

  荆继武教授表示,很多人用一个词——云计算的产生将对密码学提出“前所未有”的挑战,这是不对的,密码学是一门独立的学科,它的发展有着自己的规律。科学本身有两种推动力:一种是应用驱动的,另外一种是研究者的兴趣驱动。密码学的发展和整个信息技术的发展一样,是同步向前的,两者并非从属发展关系,一个新的IT模式也不可能对另外一个基础学科产生颠覆性的影响。
在IT领域,出现过很多昙花一现的新名词,而随着时间的流逝和实践的筛选,有很多都无疾而终,云计算是否也会像一波翻滚着泡沫的浪潮,渐渐退散?荆继武教授很肯定地表示,不论在学术界还是产业界,都会有些概念是“炒”出来的,这些想法都失败了。“但我坚信云计算不会失败,一定是未来的大势所趋。”荆继武教授表示,云计算的特点代表着整个信息产业的发展方向,信息处理的发展方向是社会分工,越分越细,社会分工是一种对能源的积累和节约,而且集中管理更专业,更省钱,维护率更好,这是整个社会的进步。云计算其中一个特点就是资源共享池,在技术上最大的特点是虚拟化,计算、存储资源按需使用,按照使用付钱,将一个物理的概念变成了一个逻辑的概念,又同时满足了需求,节约了费用,这一定是未来的方向。

  但是,云计算从提出之日起就一直伴随着安全性的质疑,这是否说明现有的密码学还没有办法支撑云计算的要求?荆继武教授表示,“不是这样的,可以说,现有的密码学在很大程度上完全可以支撑云计算的发展要求。”但荆继武教授也表示,云计算中信息的存储、模式带来量的问题,由此可能会带来一些安全方面的质变,包括加密以后对于信息本身的处理,比如对海量加密信息的搜索,这些问题需要密码学来解决,而暂时还没有解决。目前,云计算的发展给密码学提供了一些新的研究方向,很多密码学研究者也逐步开始关注云计算中的密码应用问题,但这并不是说原有的密码研究已经过时,而是意味着云计算中还有很多没有解决的安全问题,而这些都依赖于我们如何将密码更实际地应用到其中去。

  云计算的发展就像社会发展到一定阶段会产生的社会分工一样,云计算也是一种社会分工,自给自足的农业社会不会出现食品问题,但工业化时代,集中的、大范围的食品供应就有了食品安全问题。云计算也是一样,把自己的信息、文件、研究成果储存在云服务提供商那里,也就有了安全问题,甚至出现了类似版权保护的问题,这都涉及到密码和加密。云计算也是一个集中的、大范围的信息交流过程,需要把信息的储存、调用做好,又要保证安全,这都需要密码学的参与,现在这方面的研究也已经很多,比如同态加密,等等。

关于云计算中的密码标准

  跟社会其他资源一样,云计算本身代表的是信息服务的工业化,所以如同食品安全、生产安全问题不断,但是工业化是历史进程不可逆转的潮流一样,荆继武教授认为安全也不可能成为云计算发展的障碍,集约化的信息服务能更加高效,而且成本更低,社会分工带来的好处远远大于安全,云计算是未来信息服务的主要模式。
荆继武教授表示,在云计算中,安全问题的解决并不是单纯依靠技术就能解决的。不论对于云计算的厂商和用户,大家必须有一个基本的共识——信用化的体系是云计算商业模式的基础。荆继武教授表示,没有信任,云计算就不能发展,只有讲信用的公司才能成为云服务提供商,就会有越来越多的用户信任他,这是一个互相影响的过程。云计算本身的发展就更像是一个推动者,可以推动我们整个信用体制的改革。

  云计算的发展使得信息的服务和传输、计算都发生了变革,这些变革产生了很多的安全问题,比如,版权保护的问题、信息保障的问题、存储安全的问题,这其中,密码学作为一个工具,作为一个基础和支撑,是大有可为的。但荆继武教授表示,密码学也仅仅是一个工具,不能代替云计算,因为人类要用的是云计算带来的很多应用,密码学在其中只是一个保障。

  荆继武教授给记者举了一个例子,比如网上的视频和一些不当的言论,可以用密码学的手段进行跟踪、定位,或者是实名制、身份管理。云上的用户可能随便就是几亿的数量级,怎么做几亿用户的身份管理,如果靠身份认证,可能根本不能保证安全,这就需要用到密码学的强认证,这样,云计算带来的安全问题都可以通过密码的参与得到解决。

  其实云计算已经在国内开始了落地建设,而对于密码学是否有相关的标准可以支撑云计算的发展的问题,荆继武教授表示可以从两个角度去理解它。第一,云计算密码应用的标准还没有建立,这种提法本身是有问题的。这是因为首先云计算的标准就没有建立,所以,作为支撑它的密码学也就没有标准。第二,云计算在发展中有很多模式。而对于各种模式,都已经有很多的密码标准可以支持它。比如,身份管理就有用通用的密码标准可以支持其安全。所以,即使云计算没有标准,也有一些密码标准支持云计算的发展和安全,我国有SM2、SM3、SM4,等等,这些标准的算法都可以支撑很多云计算里面的安全需求。所以,从这个角度出发,密码学界完全有可以作为支持云计算中大部分安全工作需求的标准算法。

  当然,如果云计算对密码学提出了更多特殊的需求,并要求新的密码算法,密码学界也会积极回应。但目前,这个特殊的需求没有提出,或者说对于云计算的发展还没有那么重要。

避免过度“云”计算

  云计算是IT发展的方向,这一点无可争议,但在云计算的发展过程中,荆继武教授认为,我们也不能过度地曲解和没有限制地滥用这个概念。这点对于学术界和产业界都相当重要。荆继武教授表示,现在大家都在讨论云计算,但把云计算精髓理解透彻的不多。目前很多概念还是虚无缥缈甚至是错误的,比如汽车、城市、健康等体系都冠以“云”的名头,其实这都不是云。云计算特点是面向全球,网络延伸到哪里,云计算服务就可以到哪里,这样的云服务其实才真正是未来的发展目标。
 而在学术界,甚至也有可能出现这样的追风,国外的密码学界其实也并没有专门的对云计算中的密码做一个热点的研究,而是更加注重在原来密码研究的成果上向云计算和云服务的应用问题转变。密码学研究是一个基础研究,实际上它跟云计算应用的距离还很远,不能拿来就随便用。比如一个做计算机硬盘的,硬是要说成“云”硬盘,做手机的要起个名字叫“云”手机,这只能说是一种伴随科技发展的“怪像”。应当明确的一点是,科学研究中,我们不应当把完全不同的两个概念混为一谈,搞出什么“云”数学、“云”化学、“云”密码来,真正要研究云计算中的密码问题,首先要知道云计算的特点、云计算安全的需求,然后抽象成一个理论问题,比如同态密码的问题,这才是真正理解了云计算和密码学的关系。

  荆继武教授还给记者透露了目前的研究重点:首先是研究在云计算模式下,云计算的基本架构和云计算的基本特色,这其中主要是利用虚拟化技术实现计算资源的按需供给,另外是云计算的集中化带来的信息存储和使用中敏感的安全问题,通过研究云计算模式的特点,思考密码在云计算环境中的应用问题。

  最近,荆继武教授的一个工作重点就是研究在私有云环境下,保证云里的信息不外露。现在,企业对于私有云的建设中带来了信息的共享问题、信息的隐私以及协作所带来的信息的分享,这就要求构造新的密码应用体系。荆继武教授在做一些研究工作。比如在云存储方面,研究基于文件系统的加密,这样既可以保证信息不被人拿走,管理员无法看见内容,又保证了信息可控制地进行流通。另外,包括加密网关,以及通讯加密也在做。荆继武教授认为,目前云计算中大量的应用都是以虚拟终端的方式,这并不是算法的问题,而是如何用加密来保证整个过程的安全,是要用密码的应用去配合云的虚拟化的技术,而这其中用到的密码还是传统密码学的成果。最重要的是如何把它应用到云计算中来。

  荆继武教授表示,对于密码学研究者来说,首先,要有自己对于研究方向的判断力,要有所创新,给产业界的实现提供更多理论创新方面的可能性。其次,云计算厂商也会在实践中提出具体的需求,而这些都要求密码学研究者既要懂密码,又要懂云计算,更要着眼于应用。
 2012年3月8日,政协十一届四次会议收到提案,建议把云计算作为战略性新兴产业,将其培养成新的产业增长点,促进就业和增加经济活力。云计算是互联网和超级计算能力的结合,是一种通过网络以便捷、按需形式从共享性的计算资源池(包括网络、服务器、存储、应用和服务)中获取服务的业务模式,今后将成为像水、电、煤气一样,成为生活和工作中不可或缺的重要组成部分。云计算有着迫切的需求和巨大的市场潜力。正是如此,云计算不仅需要加强技术的研究,还应该重视核心人才的培养,鼓励高校、科研院所和软件企业的合作,并在政策、资金、项目等方面大力支持,推动云计算产业的发展。荆继武教授给记者介绍,目前国内关于云计算项目的支持力度其实不小,比如科技部制定的《中国云科技发展“十二五”专项规划》已经获得了国务院批准,提供了大量的资金支持和推进我国云计算的研究和发展,其中也都关注了安全问题。国家密码管理局成立了云计算密码应用体系研究的专项组,学术界的一些学者也都很关注云计算中涉及到安全和密码应用的问题。可以说,云计算的发展必须要关注安全问题,而安全问题的解决离不开密码学的支撑。荆继武教授希望不论是政府还是产业,还有研究者们都能够更加务实、更加关注云计算本身的安全性,而云计算也将给密码学带来更加广阔的应用空间。

2013年5月25日星期六

高端信息安全与大数据

高端信息安全与大数据
http://www.cismag.com.cn 中国通信信息安全网 2013-03-29 17:03 官方微博   我不是大数据专家,算一个信息安全方面的专家。安全里面比较难的问题是跟大数据有关系的。这里希望能够与大家分享一下自己对大数据的一个思考过程,业务本身逼着你去往那方面思考,必须要去思考大数据方面的问题。

什么是安全?安全三要素

  先谈什么是安全,什么事情最开始还是把它的定义和本源的东西弄清楚。大数据,到底什么是大数据,是不是海量数据,跟海量数据有什么区别,今天主要不讲这方面。什么是安全,安全领域有一块儿是检测,检测方面有一小块儿是高端检测。高端检测涉及对检测模式的重新认识,这就涉及到大数据。今天谈的是针对这件事情的思维方法,希望对大家有所帮助。

  关于安全,我做安全十几年了,其实安全是个复杂的事情。黑客攻防、病毒蠕虫等,与每个系统都有关系,只要一涉足安全,就涉及到方方面面,非常复杂(见图1)。

图1 安全方案的方方面面

  大家所从事的特种分析,应该也有很多很多范畴,对这些范畴怎么梳理,就像打牌,你怎么打,不管是拖拉机还是斗地主,都分花色。安全问题也可以分这几类:

  第一类,方片,你会看到都是什么安全——生命的安全、网上银行安全、办公系统安全、通信安全,经常都会提到,讲的是某种业务或某种系统的安全,业务和系统的安全通常是机构财务来源。

  第二类,草花,包括病毒、蠕虫、被渗透以及被断电之类的,这些都不希望发生在自己身上。这也是第三类公司做生意的地方,比如卖防火墙、举办安全讲座等,属于保护措施,希望保护方片。

  第三类,黑桃,指工作流、项目管理、云模式等,这些通用的方法和原则将用在方片、草花和红桃上等。

  按照花色理一理,有些线索。这些线索和分法,对我影响很大的一个德国IPBPM的专家列了一千多个要素,分了很多类型,最终分为三类。安全跟别的IT事务不一样,安全的根本特点永远是三件事情:资产、威胁和防御措施(见图2)。

图2 安全的三要素

  别的IT事务通常是没有需求去满足和创造需求,通常是个两方话题。而安全永远是个三方话题,安全的独特特点是永远有个你无法控制的跟你博弈的第三方,因为这个第三方的存在才有安全问题,这是安全领域最不一样的特点。说得窄一点,比如防火墙,单独讲这些机制是没有意义的,必须讲到底是解决一个什么样的问题,才能谈到保障措施。比如一个区域的门,光谈门没有意义,不具有防盗作用,要把它放到大厅里来看,起到减小干扰和防盗的作用,它才具有意义。

  我们通常用cube阐释安全,谈关于资产安全的防御措施,这才是有意义的话题,这涉及到安全领域的大数据,故而安全再也脱不开大数据。不论是安全还是别的领域,都不要被大数据本身的分析方法所左右,根本还要看你做的是什么。大数据跟安全相关的时候,是这三方关系有哪些特征?大数据有个说法,叫第四范式,从第三范式脱离出来的数据密性的范式。这种范式的优势是不需要模型,只要把数据拿来就能直接用。第四范式的大数据分析只需提供海量数据,不需要之前的模型和算法等。

  安全的三方面,很多牌是保障牌,分很多类型,我们把它归结为三类:

  1)基于密码技术的认证加密等技术措施。这是非常大的一类,包括防控、加密、认证、证书、隐藏的水密,或者密钥管理算法衍生出的技术等。

  2)基于攻防技术的检测技术措施。表现为检测技术,如漏洞扫描、防火墙、防病毒、查病毒。做一个检测测试要显示判断,判断的技术来源是攻击技术,所以检测也是一种攻击技术。

  3)基于风险管理思想的体系化方法和措施。举几个例子,比如安全里面非常有名的可信计算(TrustCompution),这是一种典型的基于机构性密钥与加密算法相结合的思路。主要思路是用某种芯片做可信根,用加密算法形成可信链,进而进行数据处理。可信体系里稍微特别一点的是可信网络连接,如思科的NAC等很多都和这个相关,大致思路都是在安全点防测中心设置一个安全强制执行点,只要一过这个点就进行强制检查。安全检查有一个安全点防测中心。
什么是安全检测?检测的发展

  简单讲一下检测。基于攻防的安全设施检测可分为以下几类:一类是旁路监听,如网络分析;一类是日志记录,主要指服务器,通常被业务系统主动监控;再有一类是主动扫描,整个设施作为一个系统主动检查;还有一个是举报投票,如360的恶意软件举报就是典型的举报投票,不是由360选出而是用户投票选出来的,这是一种非常有意义的检测方法。简言之,即典型的4种:在网络上听、在服务器上抓、由客户端提供以及管理者的主动提供。

  以上为检测行为促成大数据的由来,数据的特点与来源有密切关系,特别是网络和系统安全的一些特点,检测会出现很多新的进展。比如沙箱,像一个虚拟机,将程序放到里面运行,看你的行为是不是恶意的。这类检测通常都会运用沙箱做一个判断,比如用蠕虫密码会去感知是不是在沙箱里面;这类检测属于主动检测,主动检测还包括爬虫技术、蜘蛛或者机器人等技术。举一个例子,有人做微博的可视化,通过微博上的搜索可以知道北京下大雨到底是哪个门被淹了。这可以算是数据挖掘或者大数据的一种行为分析。通常对于旁路监听这种比较被动的检测方式,为了提高它的主动性,出现了密罐技术,很多会用到虚拟化技术,产生虚机或者虚网,安全领域叫做密罐或密网。

  上面讲到的检测机制,囊括了对系统的检测、对流转数据流的检测和对静态数据的检测,还有一个是代码检测。代码检测非常重要,所有的漏洞攻击机会都是软件没编好所带来的。对很大的代码做遍历检查本身就是一个大数据问题。再有就是管理体系方面会涉及到汇总分析、合规测评等高端分析。基于攻防技术的,有三类比较相关,即业务连续性管理、服务管理、信息安全管理。IT管理方面典型的体系模式有以下几类:一类是ISO27001系列,国际上很典型的三套体系,安全里面都会遇到;一类是云安全方面的,现在比较热,比如云安全联盟。这些不同的安全技术风格大致可以分为三种思路:一种是强结构性安全思路,比如可信架构;另一种是松结构性思路,是拆的思想,防御点比较离散;还有一种将三套体系结合起来的攻防型管理体系,比如一些均衡解决方案等。

  从检测方面来看,安全有3个境界(见图3):第一种是“足”,属于简单检测,有一个阀值限制,过了什么值,就有个检测节,涉及到包过滤规则。第二种是“腰”,基于单一特征,包括漏洞特征、病毒特征、攻击特征,等等特征库检测。单一特征强调是可表达的、可处理和可操作性。通过特征,即模式,使用它的复杂度大大低于获取它的复杂度;安全公司的竞争主要就是你能获取到多少特征,这很不容易。找到这种能够使复杂度大大降低的特征模型就是我们使用大数据的一个目的,使用这种特征模型不用做复杂分析等,直接拿来用就可以。第三种是“颈”,属于高端检测,包括APT检测或者宏观态势感知等。
图3 安全的三种境界

  安全检测的一般模型如图4所示。这是检测和模式分析,一种通行的检测出结论的模式。谈到高端安全检测,问题有两类,一类是宏观安全检测;一类是微观安全问题,典型的是APT,高级持续性攻击。APT的典型例子,就是伊朗的“震网”病毒事件,伊朗核设施被摧毁,突破了物理隔离(即没有连网),运用了设备工程等综合的高级手段进行持续性攻击。“震网”病毒攻击核设施,是先攻击家属,而后工作人员带着系统回到单位,可能只回到外网,内网是隔离的,但总要做数据传输,一旦有数据传输,如U盘、打印机驱动等病毒蠕虫就传进去了,而且专门攻击风控系统。2009年9月,“震网”突然爆发,伊朗的核设施包括离心机以及几位科学家都被攻击了,大量的资料和秘密核设施地址被爆出。整个攻击持续时间非常长,是一个持续复杂的攻击,很难发现。APT的主要特点是攻击空间很广、持续性很强和单点隐蔽能力很强。

图4 安全监测的一般模型

  关于宏观态势,城域网的态势,目前方法还很少,启明星辰公司一位博士做了一个算法——地址熵的一种算法。熵是离散度的一种评价,通常讲信息熵,信息是负熵。持续的计算网络上的源地址熵和物理地址熵的记录,如果位地址熵和源地址熵一个上升一个下降,一定发生了什么事情;如果目的地址集中,分布式集中,IP地址源变化很大,说明出现了蠕虫病毒。这感觉就像是舒适度和气候。很可惜,在城域网监控我们只找到了这一种感知算法,宏观网络的态势可以感知群体的波动。这里没有Advanced(高级的),就是一个简单的累计计算。这是处理海量数据的一种方式,是宏观问题。大数据就是希望通过很简单的量得出结论。

检测模式的更新变化带来的大数据问题

  攻击的空间拓展变化包括持续性、蔓延性、传播性、渗透性等,这一变化带来了安全模式的变化。检测对象隐藏在一个检测环境里,你是不是确切地知道你真的要找的,于是检测者希望被监测域能覆盖更多的求检对象,先扩大被检测区域,区域太大了数据太多了,就变成了大数据问题。由此,安全监测不得不走向大数据检测。

  扩大和浓缩,从哪儿扩大?APT攻击哪条路径你不得而知,这就是信息不对称,防御者不知道攻击者从哪条路径来进行攻击,这是非常头疼的事情。但路是你的路,他一定会过你的路,这就是你的优势。扩展里讲空间扩展检测,空间扩展有很多检测点,你总得从某个点过。另一个是从时间里扩展,什么叫做从时间里扩展?以前是实时监测,比如0day问题,用一个录像机把所有的网络流全录下来,没发现0day,但发现有被攻击的可疑行为。有部叫做《源代码》的电影,就是这个感觉,运用一个时间机器,这就是所谓的时间领域扩展,这在安全领域不是很自然,安全里边硬盘可靠性很低,基本都换成了Flash闪存。存储是什么,就是记忆,记忆中,“存”不是很重要,关键是怎么忘记,比如浓缩就是个忘记的过程,是一个时间的扩展。还有一个是知识层面的扩展,检测域的扩展,涉及到时间维簇和知识维簇。

  扩展检测不能随便扩展,会威胁知识,一个威胁一个攻击,威胁到环境,威胁到来源,特别是威胁的过程,就是时空,时序就是时间,路径就是空间。当然,威胁的结果同软件开发一样,软件开发有个Usecase,安全方面叫Strikecase,大数据不是数据越多能力越高,而是有目的有策略地增加数据。大数据的想法和探索我们还在研究。

试解检测中的大数据问题

  我们看到微观检测有4个态势:扩大、浓缩、精确和场景(见图5)。比如浓缩,现在用的一种是横激发,像半衰期一样对检测域进行衰减,把想留下的数据进行记录打分,进而再被打分再被半衰,当然,这个前提是你所谓的关系和描述是对的,这是一个第三范式参与到第四范式运算的过程,现在很难完全跳出第三范式的思路。前面讲了整个安全领域通过安全监测产生大数据的需求,不要一上来就张罗大数据,其实我们不是做大数据的,做的是安全,一定要想清楚你在干什么,安全的本源、安全的思维、安全的关系,大数据是安全的一种方式。

图5 围观监测中的步骤模式

  全息的信息怎么在局部获得,举一个例子,分布式攻击,僵尸网通常以十万码计,很强大,但同样有弱点,监控僵尸网的动态就可以检测全部。它在局部具有全息性,通过分析局部就能感知全局特征。当然,很多大数据也具有这个特点。

  大数据通常分为两类:一类是天然大数据问题,如基因计算、矿物勘测、空间探测等,这类是客观存在的大数据问题;还有一类是人参与的大数据问题,如购物数据,社交网络数据等,这一类可以通过检测目的对这些数据进行前端影响。安全属于第二类,我们认为的大数据问题,可以给这些提前打标签,使其具有全息性,就是对前端的技术链条进行影响,用你的检测目的影响前端的采集和数据集成。安全领域大数据有本身的对抗和博弈,这就是安全本身固有的特点。
这是我大概的一个思维、质疑和期许。大数据可能会很好。

  (文章根据“第三届云安全联盟高峰论坛”现场录音整理)

GFW已经升级防火墙

近期网民的翻墙工具失效比较多,据悉最近GFW已经升级防火墙。根据《纽约时报》报导,中国这几天加强了对网络防火墙的管控,过去中国网友会使用的“翻墙”软件,现在也遭到中国官方的封锁。
知名网站Twitter、Facebook和YouTube等,在各个国家很受欢迎,但是这些网站都被中共官方列为禁用,中国网友想要上这些网站与国际接轨,就必须利用虚拟网络(virtual private network,简称VPN)跳过官方的封锁。
中共管理的《环球时报》报导,中国已将防火墙升级,一些VPN也被封锁。目前至少有三家外国公司因为VPN失效而向中国用户道歉。
长期关心科技发展的专家说,可能与最近的中共领导人更替有关,领导人为了展现权威,用强硬手段来显示“谁说了算”。
在中国,使用网络的人口约有6亿人,共产党对网络的控管使得提供VPN服务的公司大发利市,其实不只民间,许多企业也使用VPN来确保交易的保密和安全性,有科技公司的高层就透露,如果没有VPN,公司营运将会受到损害。
长久以来,中国政府对网络的控管包含政治敏感词汇、影响国家形象的新闻还有异议人士的抗议,甚至会删除微博里让政府不悦的言论。
不管怎样,在网络世界设置封锁阻碍,是极其愚蠢的行为,无异于螳臂当车,网络就像是空气和水一样是封锁不住的,通过封锁网络阻挡国人了解事实真相的罪恶总有一天会得到清算和加倍偿还。
以下这篇文章也可参考,大意是说:现在GFW可以监测VPN加密信息。

吹起信息安全清新之风

几十年来,数据已经成为企业运营的润滑剂与推动力。如今,“大数据”这一涉及庞大复杂数据合集计算、整理与分析的模糊概念则带来新的价值增长点,并承诺为企业加速信息向财富的转化。

  随着数据量的爆炸式增长,对其加以利用的可能性也将相应提高。除了加速创造财富外,大数据也同样带来了信息安全的新理念。通过大数据来实现恶意攻击,病毒木马的高效识别,从而为网络即时防御提供最大的信息支持,并在更多安全信息防护方面提供数据信息的支持,为互联网的云安全提供最大的支柱。

  随着大数据体系的逐渐完成,云技术的进一步发展,未来通过大数据来实现网络安全已经初见端倪。

  但是作为大数据体系的基础,数据本身的安全同样需要保证,如果大数据本身的安全都得不到保障,信息的真实、完整性将大大降低,一旦失去了真实性、完整性,那么通过大数据来构筑网络安全又成了一纸空话。

  所以为了让未来的信息安全清新之风得以顺利吹起,大数据安全是必须要确保的。

  那么该如果确保大数据的安全呢?确保大数据的安全主要完成以下三点任务:

  1.数据防篡改。

  2.数据防破坏。

  3.数据传输通信安全。

  下面就这三点来展开,谈谈如何解决大数据安全问题。

  (一)数据加密确保数据真实性,防止被人肆意篡改。

  数据的真实性是未来通过大数据来提供安全策略的重要保障,只有信息是真实的,才能真正的给未来的网络安全提供可靠的信息支持。一旦这个信息被篡改成其他的信息,或者更危险的被篡改成病毒木马,这样不但可能造成提供信息的无效,还有可能导致信息数据直接成为安全的威胁。一旦这个问题解决不了,未来想通过大数据来提供数据安全服务都是空谈。

  要真正的保证数据不被篡改,给数据加密是最好的方法,因为要试图篡改数据,本身要知道数据的内容,一旦获取数据内容受限,那么篡改数据也变为不可能。

  而且随着大数据的进一步发展,它提供的可能不仅仅是正面的能量。很多黑客通过大数据同样会获得破解数据的方法,所以用来加密数据的技术必须是先进的,而且是多种模式的。因为单一模式的加密意味单一的算法,单一的算法即使使用再高端的数学难题,破解也是时间问题,更何况有大数据的支持。

  所以保护大数据的安全需要一种先进的,具有多种加密模式的加密技术。

  多模加密技术是采用国际成熟的对称密钥和非对称密钥相结合的技术。同时多模加密本身是一种能提供满足多种使用场景,采用多种加密策略的数据透明加密技术。在多模加密模式中,用户创建秘文的方式支持主动和被动两种方式,至少包含如下模式:特定格式加密模式、特定目录加密模式、特定格式不加密模式、特定用户不加密模式(但需要可以修改和查看别人的密文即高级别模式)、特定用户不加密模式(可以查看别人但不能修改别人密文即阅读者模式)、U盘等外设加密模式、网上邻居网络加密模式、手动加密、全盘加密等等;这些加密模式可以赋予不同的用户或者用户组。

    通过这种加密技术,可以为用户提供多种加密模式,可以适合不同的应用环境,大大提高数据加密效果,从而提高了数据的安全性。

  (二)数据备份恢复,防止破坏。

  对于数据的破坏行为,随着技术的发展,网络威胁或许会逐渐成为数据破坏的主因,但是就整体而言,数据的破坏行为大多都是由误操作造成的。因为随着IT技术的发展,从正面的进攻来达到破坏效果,虽然技术上的难度在大数据的支持下并不大,但过于明目张胆和粗暴,容易被将来的网络警察和系统自带的安全体系反追踪和袭击,对于攻击者本身来说风险很大。

  再者,对于破坏行为,随着云技术的发展,备份和恢复可以简单的使数据破坏造成的损失降到最低。只要简单的将被破坏的数据通过备份来恢复,只要这个时间够短,那么对企业造成的实际损失几乎可以忽略不计。并且这个恢复的时间会随着云技术,备份恢复技术的发展得到确实的缩短。

  (三)传输通信加密和身份认证,防止数据在传输过程中被人篡改和窃取。

  在谈数据加密时,已经谈到了被篡改的数据对大数据安全策略建立的危害性。其实这种篡改行为除了在数据本身进行防护之外,在数据的传输过程中同样也需要保护。在大数据时代,不通过网络来实现云技术大数据的集合处理几乎是不可能的,或者说不通过网络集合的大数据是不完整的,不及时的,所提供的安全策略不是最完整、最新鲜的,自然地通过大数据提供的安全策略的效果也不能达到最完美。

  所以确保数据在传输过程中的安全也是确保大数据安全的重要环节。在确保大数据传输过程中的安全时,同样需要采用数据加密技术,但只是加密对象从数据本身转化为了对端口的加密,同时对于身份认证的技术是确保传输的双方都是指定的人,不被外人在传输过程所篡改,防止外人在传输过程中窃取数据并发送假数据给数据传输两端的用户。

  加密技术前面已经提到过了,同样是使用多模加密技术,只是应用环境是针对数据传输的端口,而认证技术就要采用国际成熟的双因子身份认证。

  大数据时代,大数据带来的技术支持可能使未来的信息安全吹起一股清新之风,给人们带来新的安全思路。但是要确保这个计划得以实现的大前提就是要保证大数据本身的真实可靠。利用加密软件确保数据真实性,用备份和恢复确保数据的完整可靠,完善大数据的安全,让未来的信息安全之风顺利刮起吧!

什么是数据分析做不了的?

(文/DAVID BROOKS)不久之前我曾与一位大型银行的首席执行官一同用餐。他正在考虑是否要退出意大利市场,因为经济形势不景气,而且未来很可能出现一场欧元危机。

这位CEO手下的经济学家描绘出一片惨淡的景象,并且计算出经济低迷对公司意味着什么。但是最终,他还是在自己价值观念的指引下做出了决定。

这家银行在意大利已经有了几十年的历史。他不希望意大利人觉得他的银行只能同甘不能共苦。他不希望银行的员工认为他们在时局艰难之际会弃甲而逃。他决定留在意大利,不管未来有什么危机都要坚持下去,即便付出短期代价也在所不惜。

做决策之时他并没有忘记那些数据,但最终他采用了另一种不同的思维方式。当然,他是正确的。商业建立在信任之上。信任是一种披着情感外衣的互惠主义。在困境中做出正确决策的人和机构能够赢得自尊和他人的尊敬,这种感情上的东西是非常宝贵的,即便它不能为数据所捕捉和反映。

这个故事反映出了数据分析的长处和局限。目前这一历史时期最大的创新就在于,我们的生活现在由收集数据的计算机调控着。在这个时代,头脑无法理解的复杂情况,数据可以帮我们解读其中的含义。数据可以弥补我们对直觉的过分自信,数据可以减轻欲望对知觉的扭曲程度。

但有,些事情是“大数据”不擅长的,下面我会一一道来:

数据不懂社交。大脑在数学方面很差劲(不信请迅速心算一下437的平方根是多少),但是大脑懂得社会认知。人们擅长反射彼此的情绪状态,擅长侦测出不合作的行为,擅长用情绪为事物赋予价值。

计算机数据分析擅长的是测量社会交往的“量”而非“质”。网络科学家可以测量出你在76%的时间里与6名同事的社交互动情况,但是他们不可能捕捉到你心底对于那些一年才见2次的儿时玩伴的感情,更不必说但丁对于仅有两面之缘的贝阿特丽斯的感情了。因此,在社交关系的决策中,不要愚蠢到放弃头脑中那台充满魔力的机器,而去相信你办工作上的那台机器。

数据不懂背景。人类的决策不是离散的事件,而是镶嵌在时间序列和背景之中的。经过数百万年的演化,人脑已经变得善于处理这样的现实。人们擅长讲述交织了多重原因和多重背景的故事。数据分析则不懂得如何叙事,也不懂得思维的浮现过程。即便是一部普普通通的小说,数据分析也无法解释其中的思路。

数据会制造出更大的“干草垛”。这一观点是由纳西姆•塔勒布(Nassim Taleb,著名商业思想家,著有《黑天鹅:如何应对不可知的未来》等书作)提出的。随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多。这些相关关系中,有很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里,我们要找的那根针被越埋越深。大数据时代的特征之一就是,“重大”发现的数量被数据扩张带来的噪音所淹没。

大数据无法解决大问题。如果你只想分析哪些邮件可以带来最多的竞选资金赞助,你可以做一个随机控制实验。但假设目标是刺激衰退期的经济形势,你就不可能找到一个平行世界中的社会来当对照组。最佳的经济刺激手段到底是什么?人们对此争论不休,尽管数据像海浪一般涌来,就我所知,这场辩论中尚未有哪位主要“辩手”因为参考了数据分析而改变立场的。

数据偏爱潮流,忽视杰作。当大量个体对某种文化产品迅速产生兴趣时,数据分析可以敏锐地侦测到这种趋势。但是,一些重要的(也是有收益的)产品在一开始就被数据摈弃了,仅仅因为它们的特异之处不为人所熟知。

数据掩盖了价值观念。我最近读到一本有着精彩标题的学术专著——《‘原始数据’只是一种修辞》。书中的要点之一就是,数据从来都不可能是“原始”的,数据总是依照某人的倾向和价值观念而被构建出来的。数据分析的结果看似客观公正,但其实价值选择贯穿了从构建到解读的全过程。

这篇文章并不是要批评大数据不是一种伟大的工具。只是,和任何一种工具一样,大数据有拿手强项,也有不擅长的领域。正如耶鲁大学的爱德华•图弗特教授(Edward Tufte)所说:“这个世界的有趣之处,远胜任何一门学科。”

大数据时代,我们还有隐私吗?

随着数字信息技术的不断发展,“网络匿名”有可能会变成“数学上不可能”的事。

1995年,欧盟出台的隐私法例将“个人资料”定义为可以直接或间接识别一个人的信息。很显然,当时立法者考虑的是那些带有身份标识号的文件资料之类的东西,这些标识号就好像人的姓名,而立法者们希望它们可以得到保护。

如今,“个人资料”这一定义所包含的内容已经远远超出当年那些立法官员的想象,甚至可以轻易地超过18年前他们通过这项法例时整个世界的数据量。

来看看到底发生了什么。首先,这个世界每年所创造的数据量在以指数形式增长,去年,这一数字则达到了2.8ZB(1ZB =10244GB),听起来就很可怕的数字,而且据知名信息行业咨询服务商IDC称,这一数字将在2015年翻一番。此外,这些数据中的3/4是由个体人在创造或移动数字文件时贡献的。举例来说,一个标准的美国上班族每年可以贡献180万MB的数据量,平均每天则有约5000MB,这其中包括下载的电影、文档、电邮以及这些数据通过移动或非移动互联网传播时所产生的附加数据量。

 

互联网的数据量进入了高速增长期。图片编译自MIT TechnologyReview

尽管这其中的大部分数据都是不可见的,似乎也并不携带任何个人信息,但事实并非如此。现代数据科学已经发现几乎任何类型的数据都能用来识别创造它的人,就好比指纹一样。比如说你在网上下载的电影、你的手机发出的定位信息,甚至是你被监控摄像机所拍下来的步态都可以用来识别你。实际上,数据越多,其中可以称得上隐私的就越少。普林斯顿大学的计算机科学家阿尔文德·纳拉亚南(Arvind Narayanan)称,只要有合理的商业动机来推动数据挖掘的进程,任何形式的隐私都是“算法上不可能”(algorithmically impossible)的。

可以说,我们已经在这条不归路上越走越远。那些以往被我们认为是个人资料的信息——姓名或者信用卡号——如今都已经被安客诚(Acxiom)公司这样的数据代理商用作交易,它拥有500多万名分布在世界各地的消费者的个人信息。人们在填写了某些调查表或者注册了一些服务后,相应的数据就进入了公共领域。这也是这些代理商的数据来源。

安客诚可以利用一些信息来推测你的生活方式、兴趣爱好和日常活动,比如你的汽车品牌和使用时间、你的收入和投资状况、你的年龄、受教育程度以及邮政编码。所有这些信息可以将你归类为70种不同的“PersonicX”集群中的一个。除此之外,你最近有离过婚吗,或者你刚刚变成了一名空巢老人?这些“人生大事”更可以将一个人从一个消费阶层转移到另一个,而这正是安客诚及其广告客户的关键兴趣所在。安客诚称其可以通过分析数据来预测3000种不同的行为及心理倾向,比如说一个人会在某两个品牌间做出怎样的选择。

虽说听起来很厉害,但这些数据代理商如今已经被认为是过时的了,尤其是跟Facebook这样的互联网公司相比。Facebook已经可以实现对个人信息收集的自动化与实时化,其首次公开募股时的财务档案显示,Facebook上每位用户的图片和视频资料数据量约为111MB,而Facebook的用户数如今已经超过了10亿,这可是整整100PB(1 PB = 10242 GB)的个人信息数据!在一些法律案件中,Facebook所记录的数据也派上了用场,其中包括涉案人发过的文字信息、点过“赞”的东西以及所用过的电脑的IP地址等,这些资料加起来足有800页,这800页就又给每位用户增加了几MB的数据量。

线上和线下的数据如今正在逐步融合,进而帮助营销人员更精准地进行广告投放,这也是众多“数字隐私”拥护者的烦心事。今年二月,Facebook宣布与包括安客诚在内的多家数据代理商展开合作,通过整合各自的数据资源来构造现实世界与虚拟网络之间的联系。一个月后,安客诚的首席科学官在一次投资者会议上称他们的数据已经与全美90%的社会档案建立了链接。

这些数据往往被描述为“在某种程度上具有匿名性”,但是牵涉到的信息越多,这样的说法就越显站不住脚。就拿移动通信运营商来说,他们会记录用户的位置和手机号码,然后再将这些综合数据卖给商家。尽管位置数据的匿名化是可以实现的,但是来自MIT的伊夫·亚历山大(Yves-Alexandre de Montjoye)和塞萨尔·A·伊达尔戈(César A. Hidalgo)却发现只要通过同一手机的四个不同的位置数据点就可以精确定位其拥有者。不光是移动通信运营商,你所用的浏览器也会“出卖”你的个人信息,就连最近刚刚兴起的可穿戴设备(如Google Glass)也被认为会引起隐私担忧。

毫无疑问,可以获得的个人数据量越多,其中的信息量就越大。只要拥有了足够多的数据,我们甚至可能发现有关于一个人的未来信息。去年,来自美国罗彻斯特大学的亚当·萨迪克(Adam Sadilek)和来自微软实验室的工程师约翰·克拉姆(John Krumm)发现他们可以大致预测一个人未来可能到达的位置,最多可以预测到80周后,其准确度高达80%。为此,他们收集了32000天里307个人和396辆车的GPS数据并建造了一个“大规模数据集”。

两人想象了一下这一研究成果的商业应用,他们说到时候会出现这样的广告:“需要理发吗?四天后你就会在这家发廊周围100米内,届时它将会有优惠活动哦!”

这两人还为他们的系统起了一个名字——“遥远未来”(Far Out),没错,这也正是大数据时代下的个人信息将带我们去的地方。

大数据时代,我们还有隐私吗?

当心大数据“黑色市场”

随着社交网络的快速发展,互联网将实时释放出海量数据。社交网络向个人用户提供丰富服务,体现出它的应用价值。但是,社交网络中的个人数据如果被任意搜索,隐私问题更加让人担忧。这里尤其要注意的是,在这样一个大数据时代,日益膨胀的数据“黑色市场”的危险性。


超出网站“使用规定”,大量数据被买卖


大数据”最近备受关注,同时数据“黑色市场”的危险性也开始被广泛讨论。


目前,各社交网站均不同程度地开放其用户所产生的实时数据,被一些数据提供商收集。一些监测数据的市场分析机构尤其是金融、厂商、零售业等各种数据用户企业还会将这些实时数据二次应用,用于把握新产品的市场反应,检测消费者对品牌的认知度。


如果进行监测,一旦发生问题就能捕获并及时作出对应。此外,进行灾害救援的组织也对社交数据应用非常关注。但是,这些数据在采集过程中,有超出网站(发布者)《使用规定》开展数据采集,并将其出售给其他企业等行为。


黑客经常入侵服务器,盗取信用卡等的个人数据或者企业机密数据等,显然属于非法行为。而采集社交网站数据行为并非此类犯罪行为,而是被称为“灰色市场”或者更加不透明的黑色市场。他们利用Facebook、Twitter(国内如微博等社交网站)等公开开放API(应用程序接口,外部开发者便于二次应用网站部分功能以及数据库的接口),有意地采集数据,超出网站原始的使用规定。


过去5年间,公开类似的开放API的网站呈爆炸式增长。在发布者来看是一项慷慨的举措,但是利用这些API的数据采集者经常“希望得到更多的数据”。因此,发生了许多网站使用规定之外的非法数据采集行为。


有没有遏制非法数据采集行为的方法


许多人会问,能通过程序处理,杜绝社交网站的开放API被恶意使用吗?目前,尽管有遏制此类非法行为的对策,但都不是完美的解决方案。


“可口可乐”的标志随处可见。标志是可以自由观看的,但不可以任意使用。社交网站用户发布的内容,对此的访问或者转发等,就像商标一样。数据提供商或者开发者也可以查看所有数据,但是他们原本应该根据社交网站的使用规定,在二次应用之前有一道红线。但是,对数据的市场欲望超越了这道线。


当然,也存在从数据代理商处买来各种数据,组合挖掘成更加有附加值的个人信息的方式方法。实际上,通过我们在社交网站中写入的信息、智能手机显示的位置信息等多种数据组合,已经可以非常高精度地锁定个人。


基于多种数据来源,就像解码那样,然后进行拼图,挖掘出个人信息体系,仿佛就是一个黑色市场。如果,发布者能够以技术手段高速生成海量数据,那么外部数据商同样也可以挖掘出个人用户的所以信息。


2010年,Facebook曾经在API使用规定中对可索引化文件设置了限制,原因就是意识到这种方式非常容易实现数据挖掘。


普通用户需要注意什么


那么,普通用户应用社交网站,应该注意什么?


任何发布者都想掌控尽可能多的用户信息。但是,问题是哪些设定应该是必需的?用户经常在并不知情的情况下忽视一些并不想公开的数据,结果往往被各种目的所利用。可以说,大数据的黑色市场只会增加,而不会消失。所以,用户自身为了保护个人信息,在应用各类社交网站之际,需要耐心花时间去阅读和理解各个网站的隐私保护策略。


【编辑推荐】
大数据的五个显著特点
基辛格完美阐述闪存、Iomega和大数据
大数据趋势下,服务风暴必将来临
存储和安全 大数据前行的"绊脚石"
大数据时代百花齐放 亟需打造开放生态圈

Big Data: Hope and Hype, Part 2


Part 1 of this two-part series involved a discussion about a McKinsey study that concluded that Big Data represents the next frontier. A portion of that discussion included concerns about Big Data analysis raised by Daniel W. Rasmus, who isn't quite as sanguine about the future of Big Data as the analysts at McKinsey & Company. ["Why Big Data Won’t Make You Smart, Rich, Or Pretty," Fast Company, 27 January 2012] The discussion ended with two of Rasmus' nine "existential threats to the success of Big Data and its applications." In this post, I'll discuss the remaining threats on his list. Rasmus' next threat involves complexity. He writes:
"Combining models full of nuance and obscurity increases complexity. Organizations that plan complex uses of Big Data and the algorithms that analyze the data need to think about continuity and succession planning in order to maintain the accuracy and relevance of their models over time, and they need to be very cautious about the time it will take to integrate, and the value of results achieved, from data and models that border on the cryptic."
Combining models is not the only complexity involved in Big Data. Most observers agree that there are three "Vs" associated with Big Data: volume (terabytes to petabytes and beyond); velocity (including real-time, sub-second delivery); and variety (encompassing structured, unstructured and semi-structured formats). To those three, some observers add a fourth "V": volatility (which involves the ever-changing sources of data, e.g., new apps, web services, social networks, etc.). Rasmus' next concern involves feedback loops. He writes:
"Big Data isn’t just about the size of well-understood data sets, it is about linking disparate data sets and then creating connective tissue, either through design or inference, between these data sets."
I couldn't agree more. At the heart of Enterra’s approach is an artificial intelligence (AI) knowledge-base that includes an ontology and extended business rules capable of advanced inference. Ontology interrelates concepts and facts with many-to-many relationships that are generationally more advanced and appropriate for artificial intelligence applications than standard relational databases. It creates the "connective tissue" discussed by Rasmus. His next concern is about the algorithms that drive Big Data applications. He writes:
"It is not only algorithms that can go wrong when a theory proves incorrect or the assumptions underlying the algorithm change. There are places where no theory exists at any level of consensus to be meaningful. The impact of education (and the effectiveness of various approaches), how innovation works, or what triggers a fad are examples of behaviors for which little valid theory exists--it's not that plenty of opinion about various approaches or models is lacking, but that a theory, in the scientific sense, is nonexistent. For Big Data that means a number of things, first and foremost, that if you don't have a working theory, you probably don't know what data you need to test any hypotheses you may posit. It also means that data scientists can't create a model because no reliable underlying logic exists that can be encoded into a model."
I agree with Rasmus that a business shouldn't consider a Big Data solution for any process that they don't fundamentally understand. No one should know a business better than those who own and operate it. A solutions provider needs to work closely with a company to ensure that the model and algorithms they provide are right and that the data being gathered and analyzed are correct. Rasmus' next concern involves confirmation bias. He writes:
"Every model is based on historical assumptions and perceptual biases. Regardless of the sophistication of the science, we often create models that help us see what we want to see, using data selected as a good indicator of such a perception. ... Even when a model exists that is designed to aid in decision making about the future, that model may involve contentious disagreements about its validity and alternative approaches that yield very different results. These are important debates in the world of Big Data. One group of modelers advocates for one approach, and another group, an alternative approach, both using sophisticated data and black boxes (as far as the uninitiated business person is concerned) to support their cases. The fact is that in cases like this, no one knows the answer definitively as the application may be contextual or it may be incomplete (e.g., a new approach may solve the issue that none of the current approaches solves completely). What can be said, and what must be remembered is, the adage that 'a futurist is never wrong today.'"
Clearly Big Data has some value when it comes to forecasting; but, Rasmus' concerns are nonetheless valid. Eliminating (or, at least, reducing) confirmation bias in such systems is an important consideration to keep in mind. Rasmus' next concern involves the fact that the world changes (i.e., that it is not a good idea to steer a ship by looking astern). He writes:
"We must remember that all data is historical. There is no data from or about the future. Future context changes cannot be built into a model because they cannot be anticipated. Consider this: 2012 is the 50th anniversary of the 1962 Seattle World’s Fair. In 1962, the retail world was dominated by Sears, Montgomery Ward, Woolworth, A&P, and Kresge. Some of those companies no longer exist, and others have merged to the point that they are unrecognizable from their 1962 incarnations. ... Would models of retail supply chains built in 1962 be able to anticipate the overwhelming disruption that [Wal-Mart's] humble storefront would cause for retail? Did Sam Walton understand the impact of Amazon.com when it went live in 1995? The answer to all of the above is 'no.' These innovations are rare and hugely disruptive."
Rasmus is arguing that organizations must be flexible and that models they use must have feedback loops if they are to maintain "relevance through incremental improvement." He then reminds us that occasionally "the world changes so much that current assumptions become irrelevant and the clock must be started again. Not only must we remember that all data is historical, but we must also remember that at some point historical data becomes irrelevant when the context changes." Rasmus' next concern involves motives. He writes:
"Given the complexity of the data and associated models, along with various intended of unintended biases, organizations have to go out of their way to discern the motives of those developing analytics models, lest they allow programs to manipulate data in a way that may precipitate negative social, legal, or fiduciary outcomes."
We all know that there are numerous privacy concerns associated with the collection and analysis of Big Data. I suspect that privacy concerns are more likely to spur outrage in the general populace than any other concern. Along with data breaches, they are also likely to get a company in trouble more often than other concerns. Rasmus' final concern involves issues about actions that are taken as a result of Big Data analysis. He writes:
"Consider crime analysis. George Mohler of Santa Clara University in California has applied equations that predict earthquake aftershocks to crime. By using location and data and times of recent crimes, the system predicts 'aftercrimes.' This kind of anticipatory data may result in bastions of police flooding a neighborhood following one burglary. With no police presence, the anticipated crimes may well take place. If the burglars, however, see an increase in surveillance and police activity, they may abandon planned targets and seek new ones, thus invalidating the models' predictions, potentially in terms of time and location. The proponents of Big Data need to ensure that the users of their models understand the intricacies of trend analysis, what a trend really is, and the implications of acting on a model’s recommendations."
All of these concerns might lead you to believe that Rasmus is anti-Big Data. He's not. He admits that "some of the emerging Big Data stories don't test the existential limits of technology, nor do they threaten global catastrophe." In other words, there are applications for Big Data that are useful. He writes:
"Big Data will no doubt be used to target advertising, reduce fraud, fight crime, find tax evaders, collect child support payments, create better health outcomes, and myriad other activities from the mundane to the ridiculous. And along the way, the software companies and those who invested in Big Data will share their stories."
Rasmus is interested in how Big Data can improve the quality of life not just a company's bottom line. He provides a few examples:
"Companies like monumental constructor Arup use Big Data as a way to better model the use of the buildings they build. The Arup software arm, Oasys, recently acquired MassMotion to help them understand the flow of people through buildings. ... The result is a model, sometimes with thousands of avatars, pushing and shoving, congregating and separating--all based on MassMotion’s Erin Morrow and how he perceives the world. Another movement oriented application of Big Data, Jyotish (Sanskrit for astrology), comes from Boeing’s research center at the University of Illinois in Urbana-Champaign. This application predicts the movement of work crews within Boeing’s factories. It will ultimately help them figure out how to save costs and increase satisfaction by ensuring that services, like Wi-Fi, are available where and when they are needed. Palantir, the Palo Alto-based startup focused on solving the intelligence problem of 9/11, discovers correlations in the data that informs military and intelligence agencies who, what, and when a potential threat turns into an imminent threat. ... For some fields, like biology, placing large data sets into open source areas may bring a kind of convergence as collaboration ensues. But as Michael Nielsen points out in Reinventing Discovery, scientists have very little motivation to collaborate given the nature of publication, reputation, and tenure."
Rasmus concludes, "I seriously doubt that we have the intellectual infrastructure to support the collaborative capabilities of the Internet. We may well be able to connect all sorts of data and run all kinds of analyses, but in the end, we may not be equipped to apply the technology in a meaningful and safe way at scales that outstrip our ability to represent, understand, and validate the models and their data." At this point in time, Rasmus is probably correct. Who knows what the world of computing will look like a half-century or century from now. If organizations simply used data to improve business processes, increase marketing opportunities, or better position inventory, Rasmus might have a cheerier view of Big Data. He seems to believe, however, that much more sinister things are afoot. He ends his article this way:
"The future of Big Data lies not in the stories of anecdotal triumph that report sophisticated, but limited accomplishments--no, the future of Big Data rather lies in the darkness of context change, complexity, and overconfidence. I will end, as [Chicago professor Richard H. Thaler] did in hisNew York Times article ("The Overconfidence Problem in Forecasting"), by quoting Mark Twain: 'It ain't what you don't know that gets you into trouble. It's what you know for sure that just ain't so.'"
Just because Big Data can be (and likely is) abused, doesn't mean that there are no benefits to be gained through its collection and analysis. Like any other area of business, ethics is important when dealing with Big Data. The story about Big Data is just beginning to be written. There are likely to be plot twists and turns; but, in the end, my biases tell me that the world will benefit from all this data in ways that are not yet apparent. But it's good to have gadflies like Rasmus reminding us of potential misuses.
NB:All text from http://enterpriseresilienceblog.typepad.com/enterprise_resilience_man/

Big Data: Hope and Hype, Part 1


According to McKinsey analysts, "'Big data' is the 'next frontier for innovation, competition and productivity." ["Big data is 'the next frontier'," by Jessica Twentyman, Financial Times, 14 November 2011] Daniel W. Rasmus isn't quite so sanguine about the future of Big Data. "If 2012 is the year of Big Data," he writes, "it will likely be the year vendors and consultants start to over-promise, under-deliver, and put processes in motion that will generate insights and potential risks for years to come." ["Why Big Data Won’t Make You Smart, Rich, Or Pretty," Fast Company, 27 January 2012] As President and CEO of company that analyzes Big Data, I believe that both points of view have merit. I know that sounds like a waffle; but, historically, the "next big thing" has always been over-hyped before proving itself to have lasting value.
First, let's examine why McKinsey analysts believe that Big Data is the next frontier. Twentyman reports:
"A recent report by the management consultancy argued that the successful companies of tomorrow, whether they are market leaders or feisty start-ups, will be those that are able to capture, analyse and draw meaningful insight from large stores of corporate and customer information. The implication is that businesses that cannot do so will struggle. For that reason, McKinsey argues, 'all companies need to take big data seriously'."
The key words in that paragraph are "meaningful insight." Mountains of data are useless unless some actionable insights can be drawn from it. The challenge, of course, is that so much data is being generated that it is impossible to glean anything from it manually. That is why Twentyman reports that IT companies enthusiastically agree with the conclusions of the McKinsey report. The message (i.e., data analysis is important for businesses), she writes, "helps sell information management systems and software." She continues:
"[Big] data stands out in four ways, according to James Kobielus, analyst with Forrester Research: for its volume (from hundreds of terabytes to petabytes and beyond); its velocity (up to and including real-time, sub-second delivery); its variety (encompassing structured, unstructured and semi-structured formats); and its volatility (where scores to hundreds of new data sources come and go from new apps, web services, social networks and so on)."
For his part, Rasmus is uncomfortable with all these data sources. "The vast hordes of data [collected] during e-commerce transactions, from loyalty programs, employment records, supply chain and ERP systems are, or are about to get, cozy," he writes. "Uncomfortably cozy." He continues:
"Let me start by saying there is nothing inherently wrong with Big Data. Big Data is a thing, and like anything, it can be used for good or for evil. It can be used appropriately given known limitations, or stretched wantonly until its principles fray. ... The meaningful use of Big Data lies somewhere between these two extremes. For Big Data to move from anything more than an instantiation of databases running in logical or physical proximity, to data that can be meaningfully mined for insight, requires new skills, new perspectives, and new cautions."
He's afraid that new cautions are being ignored. As an example, he points to Dirk Helbing of the Swiss Federal Institute of Technology in Zurich, who is spending more than €1-billion on a project whose aim is "nothing less than [foretelling] the future." Rasmus writes that Helbing's project hopes to "anticipate the future by linking social, scientific, and economic data." If it succeeds, Rasmus writes, "This system could be used to help advise world governments on the most salient choices to make." He continues:
"Given the woes of Europe, spending €1-billion on such a project will likely prove to be wasted money. We, of course, don't have a mechanical futurist to evaluate that position, but we do have history. Whenever there is an existential problem facing the world, charlatans appear to dazzle the masses with feats of magic and wonder. I don't see this proposal being anything more than the latest version of apocalyptic sorcery."
In a post entitled Artificial Intelligence: The Quest for Machines that Think Like Humans, Part 1, I cited an article that discussed a DARPA-supported IBM project involving cognitive computing. The head of the project hopes to develop a cognitive computing system than can do things like monitor the world's oceans and "constantly record and report metrics such as temperature, pressure, wave height, acoustics and ocean tide, and issue tsunami warnings based on its decision making." That's approaching the grandiose level that concerns Rasmus. The head of the IBM project also admits, however, that the system could be used for much more modest activities, like monitoring the freshness of produce on a grocer's shelves. While I agree in principle with Rasmus that Big Data can be used for both good and ill, I believe the good far outweighs the bad.
In the blog cited above, I identified several technologists who believe we are a long way off from developing computers that think like humans. Rasmus counts himself among that number. Since Enterra Solutions uses a Cyc ontology, I found it interesting that Rasmus mentions Cyc. He writes:
"Cyc [is] a system conceived at the beginning of the computer era, [whose aim was] to combat Japan's Fifth Generation Project as it supposedly threatened to out-innovate America's nascent lead in computer technology. Although Cyc has yielded some use, it has not yet become the artificial human mind it was intended to be, able to converse naturally with anyone about the events, concepts, and objects in the world. And artificial intelligence, as imagined in the 1980s, has yet to transform the human condition."
I agree that Cyc has not resulted in computer systems that think like humans. I also agree that it has been used to create some very useful artificial intelligence systems that are more nuanced than some other applications. Cyc ontologies help add common sense into AI systems that are notorious for lacking it. Rasmus' bottom line: "As Big Data becomes the next great savior of business and humanity, we need to remain skeptical of its promises as well as its applications and aspirations."
As president of a company that analyzes Big Data, I agree with Rasmus that we shouldn't let the hype get ahead of the reality. Big Data allows us to dream big; but, those dreams must be anchored in a cold business reality that can provide a solid return on investment. The reason that analysts and IT companies are enthusiastic about Big Data is that the tools necessary to gain insights from it are not very old. That means we are only beginning to understand what can be done with Big Data. Rasmus, however, sees "a number of existential threats to the success of Big Data and its applications." The first threat is the flip side of hype -- overconfidence. Rasmus writes:
"Many managers creating a project plan, drawing up a budget, or managing a hedge fund trust their forecasts based on personal abilities and confidence in their knowledge and experience. As University of Chicago professor Richard H. Thaler recently pointed out in the New York Times("The Overconfidence Problem in Forecasting"), most managers are overconfident and miscalibrated. In other words, they don't recognize their own inability to forecast the future, nor do they recognize the inherent volatility of markets. Both of these traits portend big problems for Big Data as humans code their assumptions about the world into algorithms: people don't understand their personal limitations, nor do they recognize if a model is good or not."
Rasmus' concern is valid to a point. One of the reasons that researchers are trying to develop artificial intelligence systems is to eliminate bias. By equipping systems with a few simple rules, researchers are letting systems "learn" on their own. Enterra's supply chain optimization solutions, for example, use a Sense, Think/Learn, Act™ system. We believe that machine learning is an extremely valuable tool. However, when decision makers are presented with information upon which they must act, AI systems can't completely eliminate decision maker bias or overconfidence. Rasmus' next concern is a graver one. Are Big Data solutions going to get so large that no one is going to be able to understand and challenge all of the assumptions used to generate its algorithms? It's a good question. Rasmus writes:
"Even in a field as seemingly physical and visceral as fossil hunting, Big Data is playing a role. Geologic data has been fed into a model that helps pinpoint good fossil-hunting fields. On the surface that appears a useful discovery, but if you dig a bit deeper, you find a lesson for would-be Big Data modelers. As technology and data sophistication increases, the underlying assumptions in the model must change. Current data, derived from the analysis of Landsat photos, can direct field workers toward a fairly large, but promising area with multiple types of rock exposures. Eventually the team hopes to increase their 15-meter resolution to 15-centimeter resolution by acquiring higher-resolution data. As they examine the new data, they will need to change their analysis approach to recognize features not previously available (for more see "Artificial intelligence joins the fossil hunt" in New Scientist). Learning will mean reinterpreting the model."
Anytime you change the parameters of a query you are likely to get different results. Rasmus' concern is that if you change enough parameters in a large system you might not really know some of the underlying assumptions the model is now making. Rasmus' next example underscores that point. He continues:
"On a more abstract level, recent work conducted by ETH Zurich looked at 43,000 transnational companies seeking to understand the relationships between those companies and their potential for influence. This analysis found that 1,318 companies were tightly connected, with an average of 20 connections, representing about 60 percent of global revenues. Deeper analysis revealed a 'super-entity' of 147 firms that accounts for about 40 percent of the wealth in the network. This type of analysis has been conducted before, but the Zurich team included indirect ownership, which changed the outcome significantly (for more see "The network of global control" by Bitali, Glattfelder, and Battiston). If organizations rely on Big Data to connect far-ranging databases--well beyond corporate ownership or maps of certain geologies--who, it must be asked, will understand enough of the model to challenge its underlying assumptions, and re-craft those assumptions when the world, and the data that reflects it, changes?"
That's a good question on which to end the first post of this two-part series. Companies can avoid the dilemma Rasmus has identified by identifying more modest goals than forecasting the future with precision. At Enterra Solutions, we believe that Big Data applications are used best in management-by-exception situations (i.e., where decision makers have the final say, but are only involved when the system identifies that a situation that is abnormal). Monitoring Big Data for abnormalities can be just as important as mining it for deep insights. Tomorrow I'll look at the remainder of Rasmus' existential threats to the success of Big Data and its applications.

Anti Big-Data Strategy: Opportunity or Survival tactics?


In case you haven’t caught on to the new buzz word  in the business world, let me break it to you – it’s “Big Data”.  Consider the following fact – 90% of the data in the world today has been created in the last two years alone. This data may include search queries on Google, clicks on Facebook (Brands and organizations on Facebook receive 34,722 “Likes” every minute of the day) , tweets on twitter (Twitter processes 7 terabytes of data every day), purchase transaction records (Wal-Mart handles more than one million customer transactions every hour)… the list is endless.
Analysis of this “Big data” has helped generate big profits for companies. Consider Google’s search business for example, where speed is a key success metric.  Google’s search system can predict a query before it is fully typed based on aggregating the billions of searches it gets each day. Wal-Mart is another “Big-Data” pioneer. Wal-Mart uses predictive analytics to better identify customer preferences on a regional basis and stock their branch locations accordingly.  This analysis helped Wal-Mart outdo their competitors, much to its shareholder’s delight.
Big Data is now finding applications in other fields as well, such as FCPA (Foreign Corrupt Practices Act) Monitoring and flu spread prediction. It’s no wonder then that investors put a high value on big data (Facebook’s $67 billion market capitalization is a testament to that fact). So, if you’re a start-up aiming to compete against industry giants with “Big data”, does that put the start-up at a significant comparative disadvantage? The answer is more complicated that a simple Yes and No.
Let’s analyze the stakeholders involved in the process – There are individuals like you and me, who are constantly feeding companies with data, then there are companies who own the data and hire data scientists who analyze the data and provide insights, which companies use to drive more revenues. The entire process is dependent on individuals willingly providing and allowing analysis of data.
By analyzing your personal data companies can easily infer facts such as such as an individual showing early signs of Parkinson’s disease, or that an individual is unconsciously drawn toward products of a particular color.  As an individual shopper, would you be comfortable with companies utilizing such information to drive their profits?
Privacy concerns relating to use of “Big Data” are already being voiced. Ovum, a research and consulting firm, in a recent survey of about 11,000 people across 11 countries, found that 68 percent said they would use a do-not-track feature if it was easily available on a search engine.  The survey tells me two things – first, people place a high value on their privacy and second, there is an opportunity to serve segment of customers that value how companies use their personal data (any start-ups listening?)
The “Big Data” era will be turbulent and exciting as legal departments and business managers walk a thin line to balance privacy concerns with big data insights, while investors realize true returns on their bets on big data. As an article in Standford Law correctly states – The tasks of ensuring data security and protecting privacy become harder as information is multiplied and shared ever more widely around the world. Information regarding individuals’ health, location, electricity use, and online activity is exposed to scrutiny, raising concerns about profiling, discrimination, exclusion, and loss of control - Despite the risks and concerns, I don’t expect big companies to implement stringent data-use policy anytime soon.