近年来伴随着不少国家的宽带化战略的实施、云计算服务的起步、物联网应用的铺开和移动互联网的崛起,数据量与时俱增,数据处理能力也发展迅速,数据 量积累到一定程度其资源属性越加明晰,显示出开发的价值。同时,社会的节奏越来越快,要求快速的反应和精细的管理,急需借助对数据的分析来科学决策,催生 了对大数据开发的需求,大数据被称为将引发生活、工作和思维变革的一次革命。
大数据是相对于一般数据而言的,目前对大数据尚缺权威的严格定义,但较普遍的解释是指“难以用常规的软件工具在容许的时间内对其内容进行抓取、管理 和处理的数据集合”。规模大是大数据的标志之一,但大数据之所以难处理不仅在于规模大,更大的挑战是其随时间的变化快和类型的多样性,根据可否用表格或关 系数据库的表和视图来表示而区分为结构型和非结构型数据,照片和视频等就是典型的非结构数据。随时间和类型的变化增加了大数据的复杂性但也同时丰富了大敷 据的内涵。通常用4V( Volume、Velocity、Variety、Value)来反映大数据的特征,即量大、增长快、多样性和高价值。从这一点来看,对大数据仅仅冠以 “大”这一形容词是不全面的,只不过在大数据的4V中,规模相对于变化和类型这两个特征容易定量,而且即便是单一类型的数据集(例如文本文件),只要有足 够的规模也能称得上大数据。数据的规模越大,通常对数据挖掘所得到的事物演变规律越可信,数据分析的结果也越有代表性,因此对大数据这一词汇突出其规模大 这一特征也是可理解的。
大数据不仅是一种资源,也是一种方法,伴随大数据产生数据密集型科学,有人将它称为是继实验科学、理论科学和计算科学之后的第四种科学研究模式,这 一研究模式的特点表象为不在意数据的杂乱,但强调数据的量;不要求数据精准,但看重其代表性;不刻意追求因果关系,但重视规律总结。这一模式不仅用于科学 研究,更多的会用到各行各业,成为从复杂现象中透视本质的有用工具。有人担心从大数据中发现事物发展规律并预测未来的做法强调了有章可循,可能会妨碍创 新。事实上检验技术创新、商业模式创新还是管理创新,不是看是否使用新的模式或颠覆性技术,而是看应用领域酌开拓和市场上的引领,成功的重要因素正是符合 客观规律。苹果公司的iPhone用触摸屏代替键盘并开发了AppStore应用商店,完善了移动互联网的产业链,开创了移动智能终端时代,方便了用户的 使用,顺应并引导移动互联网的发展,这是大数据思维与创新文化结合的范例。大数据还是一个新学科,大数据技术是指设计用于高速收集、发现和分析从多种类型 的大规模数据中提取经济价值的新一代技术和体系,涉及数据存储、合并压缩、清洗过滤、格式转换、统计分析、知识发现、可视呈现、关联规则、分类聚类、序列 路径和决策支持等技术。大数据将带动起大数据产业和市场,包括服务器、存储器、联网设备、软件与服务。总之,大数据服务业属性大于制造业,对其他产业的影 响大于对直接产业的影响,社会效益大于直接经济效益。大数据影响之大和受到广泛重视也正是因其溢出效应明显。
(作者:邬贺铨。摘自《科学与社会》2014年第1期有改动)
1.下列关于大数据的表述,不正确的一项是
A.大数据是伴随着各种现代信息量剧增、各行业信息化程度提升、各类信息资源属性日益明晰+而开发的。
B.大数据是指难以用日常的软件工具在许可的时间内对有关内容进行集合的各类数据。
C.大教据不仅仅在于数字“大”,而且还有增长变化快、品种类型多、价值高昂等特征。
D.大数据分析结果所具有的代表性,取决于对数据挖掘所得到事物演变规律的可信度。
2.下列理解和分析,不符合原文意思的一项是
A.大数据的类型有多样性,能用表格或关系数据库的表和视图来表示的为结构性数据,否则为非结构性数据。
B.大数据可以催生一种新的科学研究模式——数据密集型科学,这种模式应用广泛,并能从事物复杂的现象中透视其本质,因此说大数据也是一种方法。
C.从大数据中发现事物的发展规律并预测未来的做法,不仅不会影响创新,而且有利于开拓和引领更广阔的应用领域和市场。
D.大数据作为一门新学科,其技术涉及领域众多,带动的产业市场广泛,其服务业的属性、影响’和效益明显超出预期的社会效应。
3.根据原文内容,下列不属于大数据运用的一项是
A.某市市民上街反对“PX化工项目”上马,就在市民集会前—周,有关该项目的百度搜索关注度剧增。
B.某数讯公司掌握了2万部电影、6万名艺人、4000位导演的数据资料,并能对微博关注影视娱乐的1.2亿人进行偏好分析。
C.某学校对全校4000名学生的个人资料进行归类整理,结合平时的表现有针对性地进行当而谈话或家访,并及时更新有关资料。
D.某商业机构基于每月几千万的网络购物数据,结合网络产品的大众评分,开发搜索引擎“南方神”,供在线购物者浏览,在线购物人数增加一成多。
【参考答案】
1.B(“大数据是对有关内容进行集合的数据”错,原文是说“对其内容进行抓取、管理和处理的数据集合”)
2.D(“从而受到广泛重视,并产生了明显的社会效应”错,原文是“大数据影响之大和受到广泛重视也正是因其溢出效应明显”)
3.C(根据文意,C项所指数据不符合大数据的特征。)