大数据”是2012年开端在互联网上最火的几个关键词之一。除了“互联网金融元年”之外,2013年也被咱们称为是“大据元年。
传统金融企业也好,新式的互联网金融企业也罢,但凡涉及到金融范畴的组织,关于大数据都有适当的偏好和重视。一家金融企业,假如不说自己也在做“大数据”的研讨和使用,就会感觉现已掉队了。
2011年6月,美国数据研讨中心IDC发布年度数字研讨陈述“ Extracting Value from Chaos”《从混沌中提取价值》,在文中说到三点关于数据的猜测:全球数据量大约每两年翻一番。估计2011年全球数据总量将到达1.8ZB。
未来全球数据量增速将会保持,到2015年将有近8ZB估计到2020年全球悉数数据量将到达令人恐怖的35ZB。
而同年10月,市场调研组织 Gartner高德纳公司以为2012十大战略技能包含“大数据”在内。2011年11月底,IDC将“大数据”放入2012年信息通信产业十大猜测之一。在同一时间段, Cisco思科公司在一份陈述中推测到2015年仅移动数据量将会打破每月6EB。
光说数字或许咱们没有太多的概念。2011年的1.8ZB是多少数据量呢?1.8ZB适当于全世界一切男女老少接二连三发150年微博所发生的数字信息,用1125亿只满载的16 GB iPad可以摆满北京国家体育场(鸟巢)23次。
咱们今日所在的互联网年代是Web2.0年代,和之前最大的不同点就在于UGC( User-generated Content,由用户自主发生内容)每个互联间用户不仅仅是一个信息的被迫接受者一起仍是一个信息的创造者。正是由于每个互联网用户和他的移动端都在不断地发生数据,使得现在咱们具有的数据量现已可以来称号了。
IBM提出了“大数据”的“三V”特征,即大量化( Volume)多样化( Variety)和快速化( Velocity),这些特征正在给现在的T企业带来巨大应战。所谓“三y”,由于这三个英文词y和 Velocity的首字母都是大数据的“大”指的不仅仅是数据量自身巨大,数据款式改变多和增量速度快也是“大”的一个表现。
最近两年,咱们认识到了大数据不仅仅一个理论上的概念,着眼于数据商业使用的专家们提出了大数据的“四y”概念。“四V”概念其实便是在原有的“三V”基础上增加了第四个首字母为V的英文词,价值Value,指的是企业要完成的是大数据的价值,也便是突出了数据运营和使用的重要性。
尽管咱们可以取得的数据许多,可是现在的大部分企业都面对这样一个为难的地步
快速增加的数据,现已远远超过了人们的直观了解才能,假如不凭借强有力的东西,很难澄清大堆数据中所包含的常识,而这样的结果,是重要决议计划往往仅仅根据拟定决议计划者的个人经历,而不是根据信息丰厚的数据。
数据发掘的存在便是为了添补数据和信息之间的距离。理工的 Erik Bryiyolfsson教授从前说过:有数据支撑的(商业)决议计划才是更好的决议计划。
假如没有根据商业意图的数据剖析和数据发掘,数据还仅仅停留在数据层面。只要通过处理和剖析过的数据才干转化成信息,继而概括成常识,然后才干使用到商业运营中去。
商业数据库和分布式存储才能正以一个空前的速度在增加。数据仓库也被广泛地使用于各种职业;计算机硬件和分布式体系,并行处理的功能到达了一个空前的水平;一起数据发掘算法通过十多年的开展也现已成为一种老练、安稳的技能,并且不再难以了解和操作。