首页 AI财经社 内文

谁偷走了你的数据:公共Wifi、隐私授权、快递单都是凶手

2017年9月26日 文/ 任晓渔 编辑/ 赵艳秋

北大经济学教授薛兆丰注意到自己在亚马逊Kindle上“读书标记”的处置权问题。

我的Kindle笔记属于亚马逊?

薛兆丰边阅读书籍,边会利用电纸书Highline划重点。这些重点既保存在电纸书上,又会上传到亚马逊云端。薛兆丰发现,这些笔记数据归属于亚马逊。“书是我买的,下划线也是我亲手划的,但为什么会归亚马逊呢?”——这听起来相当具有争议性。

但这个结果是从薛兆丰首次使用Kindle时,点击用户使用合约中的“同意”按键开始的。那个合约文件用最小字符8号字打印出来,也有好几十页,很多人不会看,就会直接选择“同意”。

不过,薛兆丰也看到了这个选择有益的一面。亚马逊会把从数以万计读者那里统计来的某本书的笔记数据汇总回推给读者。薛兆丰正是利用这些大众笔记,用5分钟就能掌握一本书的大众关注点。

结合了经济学理论,薛教授认为,亚马逊掌握这些笔记数据的所有权具有其合理性和某种程度的必然性。因为相较于单个读者,亚马逊掌握了笔记数据后,能够把它们用起来,为大众提供更经济有效的服务。

薛兆丰的发现和思考在今天很具代表性。很多人享受到了数据时代更贴心的服务,前提是要让渡出一部分自己的数据。

这种模式根源于二进制世界里机器智能的运行方式——喂给机器足够规模的数据,它就能更准确地在物理世界与数字世界间建立起联系。用户之前的行为数据能勾画出他们的画像,进而预测他们未来的行为,甚至能挖掘满足用户自己尚未察觉的需求。

朱明对电商企业的个性化推荐印象深刻。她是名编辑,朋友中有人罹患一种罕见的癌症,苦于国内相关资料的缺乏。偶然间,她辗转听说了一本专著并在淘宝找到了它。让人吃惊的事情发生了,与这种疾病相关的书籍推荐频繁出现在她眼前。

通过电商平台的推荐,她一下子买到了国内外的最新著作。“帮了大忙,原本我根本都不知道有这些书的存在。”朱明感慨说。这类基于用户行为和浏览偏好数据的推荐算法最早应用于亚马逊,1998年上线。之后,在线影片租赁提供商Netflix等多个平台也都使用这套算法。“千人千面”——阿里巴巴的淘宝、天猫电商平台和今日头条的新闻页面都达到了这种效果。

所有App都用上了个性化推荐。图片来源于网络

“几乎所有面向消费者的软件都用上了个性化推荐,大数据提高了信息搜寻的效率”,百分点首席数据科学家杜晓梦博士认为,基于个人知情的数据汇集和分析,能更高效地为用户提供服务。

“AI是推动人类进步的下一个引擎,数据就是燃料。”用创新工场CEO李开复在某次演讲中的表述,可以形象地表达出数据对即将到来时代的重要意义。

不过,正如薛兆丰所发现的细节,许多人忽视也无意去仔细阅读各种应用的用户授权文件。但当听说这些应用收集了自己的数据后,又会惊慌愤怒,担心自己的信息安全和隐私不保。

近年来频繁传出的数据泄露案例也加剧了这种恐慌。今年3月,58同城被曝出全国简历数据泄露,700元买套软件就能在1个月内不断采集58同城的数据。这则消息的后续虽以58同城报案,公司信息安全部门会加固安全系统等结果收场,但很多人依然在焦虑。

人们担心,在庞大的技术机器面前,个人隐私处于裸奔状态。

慢一秒交出你的数据

据公安部7月17日公布的数据,自今年3月公安部开展打击整治黑客攻击破坏和网络侵犯公民个人信息犯罪专项行动以来,全国共侦破侵犯公民个人信息案件和黑客攻击破坏案件1800余起,抓获犯罪嫌疑人4800余名,查获各类被泄漏公民个人信息500余亿条。

数据犯罪和信息诈骗规模已不容小觑。用户建立个人信息保护意识迫在眉睫。

而个人提交和让渡各类自己的信息是第一道关口。这一步是许多人不曾留意的。但往往个人信息泄露也是从这一步开始的。

杜晓梦习惯去看一些软件提供服务时发出的用户授权协议。

涉及到最在意的出行信息时,她会认真看完航旅类App的调用数据授权文件。数据科学家的身份在她身上的痕迹不少。她极少使用公共场合的Wi-Fi。万一要用,也有个底线,绝不填写各类账号密码。“商家的Wi-Fi也许并不存在问题,但不能保证Wi-Fi没有被劫持或攻击”。每一次收到快递,她还特意找出黑色笔涂掉电话号码和家庭住址,外卖的单据也会依此处理。

数据科学家能读懂用户授权协议,普通人怎么办?据了解,政府近期正要求企业降低这类隐私文书的阅读门槛,尽量能让普通用户读懂。除此之外,普通用户该做些什么,让个人信息以更合适的方式从自己手中被交出去?

“其实没有什么一劳永逸的秘诀,关键还是要有安全意识”,这是陈泽帅的观点。

陈泽帅对个人账号的管理略显极客,这与他的背景有关。作为上海链家研究院院长和链家网上海负责人,他的团队需要处理庞大的房屋数据匹配及地产行业的数据挖掘需求。他有多个邮箱、两个手机号和不同的QQ,在不同场景下使用不同的邮箱。多个账号体系的存在,能让个人不同类型的隐私处于相对隔绝的状态。“各个邮箱收到的广告都不一样,这样我能知道是哪个场景下的账号发生了数据泄露”。

蚂蚁金服的数据隐私保护团队负责人聂正军用一个词来形容提交数据的过程——“明白消费”。

“你要想一想提交的信息是不是获得某类服务所必须的。不提交是否也可以享受到这类服务。提交的那一刻要慢一秒,想一想”。他建议用户定期去手机的隐私设置页面观察,是否有不合适的隐私授权行为,有些不用的软件应该及时注销。

某社交平台的数据分析师李胜就很警惕各类App对通讯录的调用。在他看来,许多软件的使用场景与通讯录并不相关,而通讯录里又有太多的个人关系网络信息。他还建议,不要下载没有认证的手机App,在填写个人信息时要多确认获取信息机构或个人的资质。

提交个人数据那一刻要慢一秒,想一想。图@视觉中国

聂正军还建议密码的设置要复杂化,不能“一个密码走天下”。不然小平台被攻破了,大平台的信息安全也得不到保障。

行业从业者的建议都是从日常细节出发,多做一两步,让用户提交和让渡信息的方式更安全。

除了个人要更善用自己的信息让渡权外,获得用户授权数据的企业也要更透明化。“恐慌主要来自于未知。你不知道你的数据会被用来干什么。如果你知道它的具体用途,很多疑虑就会打消。”杜晓梦说。

数据“黑匣子”的秘密

蚂蚁金服的聂正军突然收到了一则邮件。

“你团队的成员XXX在2017年x月x日在物理编号为xxxx的电脑终端进行了拷贝操作”。邮件的内容详细到了具体时间、地点和人的具体操作动作。它来自蚂蚁金服的数据安全风险提示系统。一旦系统判定为违规操作,邮件会即刻发到操作者直接上司的邮箱中。

这是企业在数据安全上所采取的动作之一。它的出现,旨在解决一个隐忧——大数据时代,用户在数据拥有方的面前越来越透明,而反向的过程——数据拥有方都做了什么,对普通大众而言,一无所知。现在,普通大众有必要了解这个数据“黑匣子”。

行业内部其实早已把这个黑匣子进行过具体分解。按数据的生命周期,它分为数据采集、存储、分析加工和清洗、使用、对外提供和销毁几步。

以地图类产品为例,通过摄像头、街景采集车及用户定位系统获得数据,这属于数据采集。被采集的街景及用户的位置定位,会进入到不同的存储中心。一旦用户以某个关键词检索,这些数据会从数据库中被调用,返回给用户一个结果界面。有时候也会有第三方平台调用地图类数据,如餐饮类软件需要与地图类产品合作,这涉及到的是数据的对外提供。有些产品会有用户的个人账号,一旦进行删号操作,用户在平台上的数据就应该被销毁。

在数据的整个生命周期里,行业企业要探索和提炼相应的原则和规范,来保障用户数据不被滥用。这也是企业长远走下去所必须做的。

“在第一步数据采集中,最基本的要求是最小采集原则。”蚂蚁金服聂正军介绍。这是在数据产生的源头就要做的规范。在这个原则下,企业应该只要求用户提供使用某项服务所必须提供的信息,不过多采集其他信息。一旦采集数据,一定告知用户,保证用户的知情权。

某大型IT公司大数据科学家王刚指出,目前一些服务提供商的不规范做法。“有些软件不开位置数据根本没法正常使用,让用户没有选择的余地。且一些软件调用数据也没有征求用户的同意”。

“涉及到相关服务时才获取与之相关的用户数据,这才是合理的。”王刚说,“特定的场景里用户确认OK了,才能进行数据追踪。”例如,主流的餐饮类软件即使不开实时位置追踪也能正常使用。使用某些功能时弹出一个对话框,提醒用户不开启位置服务可能会影响服务质量和数据精度。

采集后,数据进入存储环节,“防范内鬼”是第一要务。很多情况下,安全事故是由企业内部或其合作伙伴的行为直接导致的。今年6月,浙江警方破获一起非法获取计算机系统数据、侵犯公民个人信息案,涉案金额巨大。其中被售卖的是大量苹果手机AppleID相关信息。案中涉及苹果国内直销公司及苹果外包公司员工20人。即使苹果这样的大公司也中招了。

为了防范内鬼,常用的办法是匿名化和数据脱敏。链家陈泽帅介绍,链家会对进去数据仓库的数据做严格的脱敏,例如,用户敏感信息在链家会进行加密保存,且理论上数据分析与挖掘并不会使用诸如手机号、身份证号这类敏感信息。

让用户的个人信息在企业内部以匿名化方式存储,在不少企业都已成为共识。比如支付宝前台、后台产品都集成了敏感数据的识别和脱敏技术框架。这样,页面展示中的身份证号、银行卡号、手机号和邮箱四类敏感信息都会加密配置,防止泄密。比如,身份证号仅显示第一个和最后一个数字,银行卡号仅显示最后四位,手机号仅显示前三位和最后两位,邮箱仅显示前3位。

北京师范大学法学院教授刘德良认为,对个人隐私数据失控的最大担忧来自于,通过对数据的收集、加工技术,海量数据将原来不能识别出一个人的N-1、N-2、N-3个信息还原为N个信息,就可以找到这个人。为了缓解这种担忧,刘德良坚持,企业必须坚守一个原则:在大数据背景下,对数据加工分析匹配过程一定要匿名化。“遵循这个原则,隐私遇到互联网其实没有什么大问题,不像传说中那么恐怖”。

数据的存储和分析过程匿名化,成为不少企业的共识。图@视觉中国

而在数据加工和分析处理环节,一个常见的操作是要控制不同部门的数据权限。不同岗位看到数据的权限不一样,正规公司会有一个比较严格的数据保护和数据权限分配体系。杜晓梦介绍,在这套规则下,即使是内部人也不能拿到用户的资料。“我们在做底层存储甚至可以做到对同一个库表不同列的数据获取都可以有隔离。”杜晓梦说。

业界公司也采用技术手段来保证数据权限规则的实施。

聂正军收到的风险提示邮件就是一个典型的案例。通过技术手段,系统能自动监控员工的行为是否有异常操作。一旦有异常,邮件会发送到直接主管那里。员工要遵守的数据安全规则听起来也略显繁琐——首先,员工只能在特定终端(公司发放给个人的笔记本)、特定网络环境(公司的内网)和特定平台(某个专门的数据分发平台)才能处理下载相关数据。另外,那台发到个人的笔记本没有U盘口,无法进行拷贝操作。即使能插入U盘,一旦有这个操作,异常提醒邮件就会同一时间发送。

链家的陈泽帅把这样的溯源机制比作实验室里贵金属的追踪。“就像化学实验室里的贵重金属,谁使用了都要登记领取,能追查到个人。”陈泽帅说。链家内部有5级数据安全等级,除了严密的权限管理,还可以监控追溯所有数据使用行为。

即使相关操作人具备操作权限,而一旦操作者的动作触发了某个异常审查机制,系统也会自动发送类似聂正军收到的那种邮件提醒。在蚂蚁金服,异常审查机制具体到过往操作习惯及大规模拷贝行为等一百多个点。

很多企业也把数据安全纳入了考核之中。蚂蚁金服每年会对员工进行信息安全考试,上到CEO,下到刚入职的新员工,必须考试通过,否则就会收到HR的提示邮件,督促重考。同时也对信息安全违规的行为进行了定义,分一级违规、二级违规、三级违规,如果触犯一级违规,会受到开除的处分。

除了防范内鬼,应对外部的黑客攻击也是企业多年来一直做的。美团点评集团信息安全部有一个说法,叫“进不来、拿不走、看不懂”。据美团点评方面介绍,在技术上从前台的用户事务处理,到后台的数据分析,整个链条都对关键信息进行加密存储,必要的流转环节进行脱敏处理,同时对所有的数据采集点进行异常监控,外来的攻击即使突破重重限制进入内网,也拿不走相关数据。

很多人忧心的是数据交换环节,担心企业在向合作方提供服务时会导致数据泄露。在这一环节中,用户的知情原则应该再次生效,企业需要审核第三方合作伙伴的资质及数据使用用途才能开展服务。“一个基础逻辑是,交换或传输的数据是需要得到数据拥有者的授权和知情的。”杜晓梦说,即使是不敏感数据,也应该告知用户,她认为选择权应该始终掌握在用户手中。

而用户数据在平台具有可销毁性也是合规的企业应该具备的做法。比如蚂蚁金服的账户管理界面能看到永久删除账号选项,用户能通过这一选项决定是否继续向平台提供数据。

“未来保护用户信息隐私一定会成为企业的核心竞争力。”聂正军说,用户会用脚投票,让那些更能保护个人隐私的企业成为市场上的胜者。

演进的隐私观念

在加强个人信息保护的过程中,另一些变化在悄无声息地发生着。

“我其实根本不在意出生时间、年收入,但我给手机号码很谨慎。”一名年龄段在18~34岁之间的用户接受调查时称。它源自全球知名会计公司PWC发布的消费者洞察报告《消费者愿意分享什么》。报告的数据显示,用户对不同层级的个人信息的分享意愿并不一致,不同年龄段的用户的数据分享意愿也不一致。隐私越来越成为一个变动中的概念

在报告中,73%的受访者说在能获得回报的情况下,乐意分享个人信息。其中,18~29岁人群的分享意愿最高,达到78%,而45~59岁人群的分享意愿则为68%。这意味着年轻群体对数据信息的态度更为开放。

73%的受访者说,在能获得回报的情况下,乐意分享个人信息。图@视觉中国

从数据内容看,性别因素是大家最乐意分享的,其次是对在线娱乐产品的口味喜好,之后是在线购物偏好、个人姓名、收入和邮箱地址等。而现住址和电话号码及过往的工作经历,只有30%的人愿意公开;电脑的浏览记录和医疗信息的公开意愿下降到了11%~17%;通讯录的细节和邮箱往来细节分享的意愿低到了4%~7%;最为私密的当然是各类密码。

另一个问题是科技必然带来隐私失控的焦虑么?业者并不如此悲观。陈泽帅认为,技术和大数据的应用,正在增加人对生活的掌控度。电商平台在下单后会显示物流动向,朋友出行航班的跟踪信息反馈,这些都是大数据应用的结果。“很多时候,这种掌控度是在缓解人在日常生活中的焦虑。”陈泽帅说,不能把技术视作信息泄露及由此而来的焦虑主因。

“科技永远是双面的,未来技术的进步会在保护个人隐私方面发挥更重要的作用。”聂正军则认为。

与此同时,法律环境也在逐步完善中。世界各地都有相应的法律法规保护个人数据安全及隐私。欧盟2016年颁布的“通用数据保护规范“(GDPR)将于2018年生效,美国2012年颁布的《消费者隐私权利法案》也为应对大数据时代的隐私保护问题。在国内,《网络安全法》已经施行,世界范围内对数据安全提出要求的法律及行业规范正逐步生效。

值得关注的是,今年7月,中央网信办、工信部、公安部、国家标准委4部委宣布,对互联网产品和服务进行个人隐私政策进行评审,首批选取了用户使用频率较高的10款互联网产品,包括京东商城、航旅纵横、滴滴出行、携程网、淘宝、高德地图、新浪微博、支付宝、腾讯微信、百度地图。

在9月24日“个人信息保护日”当天,评审成绩单揭晓。微信、淘宝网、支付宝、滴滴出行、京东商城、航旅纵横、百度地图、高德地图8款产品和服务做到了向用户主动提示并提供更多选择权,例如运用增强式告知、即时提示等方式,在注册、使用环节引导用户阅读、了解隐私条款的核心内容,主动区分核心功能和附加功能供用户选择。

此外,微信、淘宝网、支付宝、滴滴出行、京东商城5款产品和服务还提供了更便利的在线“一站式”撤回和关闭授权,在线访问、更正、删除其个人信息,在线注销账户等功能。

“大数据产业正走向更加合规的时代。”王刚说。这种大环境会让“灰色地带的生存者”丧失生存空间,必然也将对普通人的信息安全提供更全面的保护。