大数据是一个应用驱动性很强的服务,其标准和产业格局尚未形成,这是我国跨越式发展的机会。图为一个大型数据中心。 (资料图片)
“我国需要制定国家大数据发展战略。”中国工程院院士、中国互联网协会理事长邬贺铨在日前举行的第十届国家信息化专家论坛上表示,大数据是一个应用驱动性很强的服务,其标准和产业格局尚未形成,这是我国跨越式发展的机会,但切忌一哄而起,要从战略高度上对大数据加以开发利用,并将它转变为经济增长方式的有效抓手。
大数据并非新玩意。上世纪末兴起的 “数据挖掘技术”就是为了对大数据这座 “金矿”所蕴藏的巨大价值进行开发利用,挖掘出数据背后的规律,从而为用户服务。 “大数据的挖掘深化了信息技术的应用,其不仅催生出新的应用和新的业态,而且大大提升了管理和决策的智能化水平。”邬贺铨认为,需要重视数据的挖掘和利用,不仅仅是大数据,中小数据的挖掘也有意义;不仅是非结构数据,相对简单的结构数据的挖掘也有大价值。
中小数据挖掘值得重视 “大数据的价值不仅仅是数据大”。邬贺铨如是道破大数据的要旨。他举例称,将一个人每分钟的身体数据记录下来,对了解该人的身体状况是有用的,但如果将他的每毫秒的身体数据都记录下来,数据量将较前者高6万倍,与按每分钟记录的数据相比,其价值并不能增加。
对于大数据价值,邬贺铨分析,大数据的价值在于样本数的普遍性:统计一个人每分钟的身体状况数据与统计60个人每小时的身体状况数据相比,可能后者在统计上更有意义。
“大数据往往是低价值密度。大数据中多数数据可能是重复的,忽略其中一些数据并不影响对其挖掘的效果。因此可以说大数据的价值好似沙里淘金和海底捞针。”邬贺铨说。此外,中小数据的挖掘同样值得重视。微软研究发现,Facebook90%的Hadoop任务数据集在100GB以下,Yahoo平均为12.5GB。北京公交一卡通乘客每天刷卡4000万次、地铁1000万人次,每天累计的数据是MB级,一年下来也不到TB级,充其量只是中数据,但对这一数据量的挖掘显然就能得出北京人群使用公交的出行规律,对于优化北京公交线路的设置有足够的价值。
因此邬贺铨指出,事实上小数据也值得重视,对未到TB级规模的数据的挖掘也有价值。
数据分析意义重大
不是所有的数据都是可信的,网络的数据也是如此。邬贺铨说,网络数据中真伪混杂,特别是微博传播不实消息散布很快,而微信圈子内的消息不易监控,对信息内容管理提出挑战。
“过去往往认为 ‘有图有真相’,事实上图片可以移花接木、张冠李戴、时空错乱,或者照片是对的,可是文字解释是捏造的,这样的事情已经屡见不鲜。鉴于 ‘谣言转发500次就是传谣’,一些网站规定所有帖子不论是否真实一律对转发自动封顶不超过499次,从舆情收集效果看,人为的截尾导致失去真实性。”
因此,基于搜索词频的判断不全是独立随机的,运用网络数据,需要对数据的可信性进行分析。Google的流感指数在2008年H7N1流感爆发时给出的预测比美国疾控中心早两周发布,与其数据相似度0.9。美国纽约州2013年1月流感流行状况十分严峻,政府发布了“公共健康紧急状态”的通告,大众媒体的广泛报道,影响了谷歌用户的搜索,导致Google的流感指数估值出现了假阳性,远高于疾控中心的统计数值。
除了网络数据需要进一步验证可信性外,对于传感器收集的数据也应加以验证,特别是历史上该传感器的数据与同类的其他传感器报出的数据差异很大时,该数据就应弃用。 “既然数据会有重复而且并非都是全部有用的,因此需要进行数据过滤,这对简化存储和提高可信性都是有意义的。”邬贺铨说。
制定国家大数据发展战略
邬贺铨指出,当前大数据面临的问题主要表现在技术和应用、人才、安全隐私、发展战略等方面。
在技术和应用问题方面,中国人口居世界首位,但2010年中国新存储的数据为250PB,仅为日本的60%和北美的7%。我国一些部门和机构拥有大量数据但以邻为壑,宁愿自己不用也不愿提供给有关部门共享,导致信息不完整或重复投资。
2012年,中国的数据存储量达到364EB,其中55%(200EB)的数据需要一定程度的保护,然而目前只有不到一半 (44%,即96EB)的数据得到保护。此外,我国在自主可控的大数据分析技术与产品方面与发达国家相比有不少差距。国内企业在数据库、数据仓库、商业智能分析软件等领域基础薄弱,尤其是大数据方面已经远远落后于国外先进企业。
Gartner咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位,麦肯锡公司预计美国到2018年深度数据分析人才缺口达14万~19万人,还需要数据需求和技术及应用的管理者150万人。因此,对于中国来说,能理解与应用大数据的创新人才更是稀缺资源,因此要重视人才问题。
在安全与隐私问题方面,由于大数据存在安全与隐私保护的隐患,因此重要的数据存储和应用不能过分依赖大数据分析技术与平台,需要重视信息泄密的风险。
此外,大数据的利用,首先要求政府数据该公开的必须公开,这就要求大数据的挖掘与利用需要有法可依。我国需要尽快制定 “信息保护法”和 “信息公开法”,既要鼓励面向群体而且服务于社会的数据挖掘,又要防止针对个体侵犯隐私的行为,提倡数据共享又要防止数据被滥用。
在发展战略问题方面,需要制定国家大数据发展战略。大数据是一个应用驱动性很强的服务,其标准和产业格局尚未形成,这是我国跨越发展的机会,但切忌一哄而起,在目的不明情况下,切忌到处建设大数据中心,到处搞 “数据房地产”,而是要从战略上重视大数据的开发利用,并将它作为转变经济增长方式的有效抓手。(本报记者 任奕奕)