崔建峰/厦门理工学院计算机与信息工程学院院长助理、博士
随着大数据时代的到来,信息产生、组织和流通方式发生革命性的变化,个人用户第一次成为信息产生和流通的主体。2012年1月,达沃斯世界经济论坛以大数据作为主要议题,探讨了个人产生的移动数据与其他数据的融合与利用。2012年3月,美国奥巴马政府发布了“大数据研究与发展倡议”。2013年2月,中国科技部将“大数据计算的基础研究”列为973计划重点支持方向。国内外知名互联网企业,如IBM、甲骨文、微软、淘宝、百度和腾讯等,也开始对大数据的存储、处理和应用进行布局,在针对个人用户信息的大数据的管理和分析上投入了巨额资金。
大数据的主要来源包括大型的电子商务系统、基于互联网的社交网络、电信通话记录和计费信息以及无线传感网络等。随着大数据技术的进一步发展,数据开放成为一种必然的要求。数据公开是非常有必要的,政府可以从公开的数据中了解整个国民经济运行状况,以便更好地指导社会的运转;企业则可以从公开的数据中了解客户的行为,从而推出针对性的产品和服务;研究者则可以利用公开的数据,从社会、经济、数据等不同的角度进行研究。
目前一些国家的政府已经建立起了专门的数据门户网站,将采集到的各类民生数据放在网上与全民共享,这就催生了对公开数据的应用热潮。例如,微软公司利用美国政府推出的退伍军人医疗健康数据公开项目,开发了一款在线系统来帮助个人用户管理家务数据。另外,英国政府也鼓励公开商业数据,在英国商业部的主导下,巴克莱信用卡、汇丰银行等十多家不同行业的巨头对客户开放与其相关的数据,第三方可以就这些数据设计专门的计算模型,为客户提供更多更好的决策服务。
数据开放是以保障数据安全和个人隐私为前提的。计算机技术的快速发展,使得越来越多的数据以数字化的形式存储在计算机和各种移动设备上,互联网的发展则使数据更加容易产生和传播,数据隐私问题面临越来越多的挑战,其主要表现有:个人隐性数据暴露,数据公开与隐私保护相矛盾,以及数据存在动态性等。
很多时候人们有意识地将自己的行为隐藏起来,试图达到隐私保护的目的。但是互联网尤其是社交网络的出现,使得人们不自觉地在不同的地点产生越来越多的足迹。这些数据具有累积性和关联性,单个地点的信息可能不会暴露用户的隐私,但是如果有办法将某个人的很多行为从不同的独立地点聚集在一起时,他的隐私就可能会有暴露,因为有关他的信息已经足够多,这种隐性的数据暴露往往是个人无法预知和控制的。从技术层面来说,可以通过数据抽取和集成来实现用户隐私的获取。现实中所谓的“人肉搜索”即是通过这种方式获取信息。
如果仅仅为了保护隐私就将所有的数据都加以隐藏,那么数据的价值根本无法体现。目前有很多学者致力于“保护隐私的数据挖掘”这方面的研究,尝试在尽可能少损失数据信息的同时最大化地隐藏用户隐私。但是数据信息量和隐私之间是有矛盾的,现有隐私保护技术主要基于静态数据集,而在现实中数据模式和数据内容时刻都在发生着变化。因此,在这种更加复杂的环境下实现对动态数据的利用和隐私保护更具挑战。
大数据技术是继云计算、物联网技术之后IT界的又一次颠覆性的变革,有利于整合与共享管理信息,提高协同工作效率,提高决策的科学性与精准性。但另一方面,数据的开放性要求与个人用户信息的私密性相冲突,是政府机构、学术界和工业界不得不长期面对的一个两难问题。
【欢迎转载 请注明来源】