隋东芝

2020-08-22   阅读量: 1401

机器学习

​大数据及其特征

扫码加入数据分析学习群

大数据及其特征

人类历史上从未有哪个时代和今天一样产生如此海量的数据。

数据的产生已经完全不受时间、地点的限制,数据的总量在不断地增加,增加的速度也在不断地加快。

而要掌握大数据的概念,首要任务就是从动态上了解大数据的成因。

大数据的成因,不仅是人类信息技术的进步,而且是信息技术领域不同时期多个进步交互作用的结果。

从开始采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了被动、主动和自动三个阶段,

而正是数据产生方式的巨大变化才最终导致大数据的产生。

大数据产生的原因主要来自四大方面,

一是数据存储成本的降低与存储硬件体积的减小;

二是企业思维模式的转变;

三是生活的数字化驱动;

四是社交网络的飞速发展。


一、大数据

大数据本身是一个比较抽象的概念,单从字面来看,它表示数据规模的庞大。

但是仅仅数量上的庞大显然无法看出大数据这一概念和以往的“海量数据”(Massive Data)、“超大规模数据”(Very Large Data)等概念之间有何区别。

针对大数据,目前存在多种不同的理解和定义。

①麦肯锡在其报告《Big data: The next frontier for innovation, competition and productivity》中给出的大数据定义是:

大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。

但它同时强调,并不是说一定要超过特定TB值的数据集才能算是大数据。

②维基百科对“大数据”的解读是:

“大数据”(Big Data),或称巨量数据、海量数据、大资料,

指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

③百度百科对“大数据”的定义为:

“大数据”(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,

在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策的资讯。

④研究机构Gartner认为,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。

它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

⑤按照美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)发布的研究报告的定义,

大数据是用来描述在我们网络的、数字的、遍布传感器的、信息驱动的、世界中呈现出的数据泛滥的常用词语。

大量数据资源为解决以前不可能解决的问题带来了可能性。

⑥“大数据”是在体量和类别特别大的杂乱数据集中,深度挖掘分析取得有价值信息的能力。

大数据不仅仅在于数量的大,“大”只不过是信息技术不断发展所产生的海量数据的表象而已。

我们更加关注“数据”的深度分析和应用,对于数据有价值的深度挖掘分析和在新形势下的数据应用是我们需要探讨的重点。

⑦大数据代表着数据从量到质的变化过程,

代表着数据作为一种资源在经济与社会实践中扮演越来越重要的角色,

相关的技术、产业、应用、政策等环境会与之互相影响、互为促进。

从技术角度来看,这种数据规模质变后带来新的问题,即数据从静态变为动态,从简单的多维度变成巨量维度,

而且其种类日益丰富,超出当前分析方法与技术能够处理的范畴。

这些数据的采集、分析、处理、存储和展现都涉及复杂的多模态高维计算过程,

涉及异构媒体的统一语义描述、数据模型、大容量存储的建设,涉及多维度数据的特征关联与模拟展现。

然而,大数据发展的最终目标还是挖掘其应用价值,没有价值或者没有发现其价值的大数据从某种意义上讲是一种冗余和负担。

二、大数据的特征

①容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息。

②种类(Variety):数据类型的多样性。

③速度(Velocity):指获得数据的速度。

④可变性( Variability ) :妨碍了处理和有效地管理数据的过程。

⑤真实性(Veracity) :数据的质量。

⑥复杂性(Complexity) : 数据量巨大,来源多渠道。

⑦价值( value) :合理运用大数据,以低成本创造高价值。

大数据( big data )是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据有五大特点,即大量( Volume )、高速( Velocity)、多样( Variety)、低价值密度( Value)、真实性( Veracity )。

它并没有统计学的抽样方法,只是观察和追踪发生的事情。大数据的用法倾向于预测分析、用户行为分析或某些其他高级数据分析方法的使用。


41.5403 4 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子