近些年,由于计算机、物联网等信息化技术以及传感技术的发展,使得现代生活中出现了“一切皆可数据化”的思维,数据的产生方式由“人机”、“机物”的二元世界向着融合社会资源、信息系统以及物理资源的三元世界转变,数据规模呈膨胀式发展。 例如,互联网领域中,谷歌搜索引擎的每秒使用用户量达到 200万,Twitter 每天的推特量已经超过了 3.4亿;科研领域中,仅某大型强子对撞机在一年内积累的新数据量就达到 15PB左右;电子商务领域中,作为世界连锁性企业沃尔玛,其每小时可处理的客户交易可超过 100万笔,相应为数据库注入超过 2.5PB 的数据;航空航天领域中,仅一架双引擎波音 737在横贯大陆飞行的过程中,传感器网络便会产生近 240TB 的数据。 综合各个领域,目前积累的数据量已经从 TB级上升至 PB、EB甚至已经达到 ZB级别(1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB,后面更大的单位依次还有YB,BB,NB,DB,换算方式如上。打个比喻:1ZB相等于全世界沙滩上的沙子总和),其数据规模已经远远超出了现有计算机所能够处理的量级,而且全球的数据量正以每 18个月翻一倍的速度呈膨胀式增长。 对此全球著名的管理咨询公司 Mckinsey首先提出了“大数据时代”的到来,其认为数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。
“大数据”这一词语并不是近几年才出现,其最早是由美国著名未来学家 Alvintoffer 在《第三次浪潮》一书中提出,其将大数据赞颂为“第三次浪潮的华彩乐章”。2000年Diebold所撰写的论文是大数据第一次出现在学术期刊上。但是大数据不等于“大规模数据”,《“大数据”时代》中这样写到:大数据应具有4v特性,即Volume (数据量大)、Velocity(数据处理速度快)、Variety (数据具有多样性) 和Value(数据价值密度低)。
大数据时代的到来颠覆了工业界、学术界对传统数据的认知,同时也引起了数据获取、存储、分析、挖掘以及可视化等技术的变革。 例如,在大数据背景下,新型数据库的开发,大规模存储备的研制,云存储服务方案的提出等,大数据相关技术的更新换代为大数据价值的快速、有效挖掘提供了技术基础。与此同时,大数据以及其相关技术的发展也将成为改变目前人类生产以及生活方式的重要基础。
虽然目前大数据在商业领域已经得到广泛关注,相关概念愈炒愈热,但是对于有效的大数据处理技术体系认识不足,且并未清晰阐述大数据在工业领域、科学领域的发展趋势。
在讨论大数据的文献中,很多人认为,大数据分析就是让数据说话,不需要有任何方向或任何假设。为证明这一点,人们最常引用 “啤酒与尿布”的故事: 多年以前,沃尔玛决定将它的会员卡系统中的数据同它的销售点系统中的数据结合起来。前者主要是沃尔玛顾客的人口统计数据,后者则是顾客消费的数据: 这些顾客在什么时间、什么地方、购买了什么东西。数据合并之后的数据挖掘发现了许多相关关系。有些关系是预料之中的,如买杜松子酒的人通常也买柠檬和通宁水 ( Tonic,用来与烈酒调配鸡尾酒) 。但也有预料之外的关系: 买婴儿尿布的年轻男性也喜欢买啤酒。沃尔玛超市于是将啤酒与尿布摆放在一起,从而大大增加了销售。
但该案例并不是现实的真实情况。随后的研究发现,故事的原型不是沃尔玛而是 Osco 连锁药店,该连锁店的分析员确实模糊地记得发现了啤酒和尿布之间的关系。但发现并不是靠电脑软件偶然发现的,而是分析员给软件程序确定了方向去发现的。而且该发现被认为是非正常状况,Osco 连锁店因此没有根据发现采取任何行动 。
该案例的真实故事告诉我们,在数据量非常大的今天,单靠 “让数据说话”,其实是偏颇的。要有效地实施大数据分析,首先需要确定分析的方向,确定要解决的问题。正如邓白氏首席数据官斯克里费加诺 ( A. Scriffignano) 所指出的那样,最重要的不是数据,而是问题。分析应以问题为导向。这些问题包括 “有没有可能发现新的商业行为,什么样的企业在增长,什么样的企业在走下坡路”。是否有 “新的商业模式、新的合作伙伴、新的服务重点、新的顾客 ” 。曾经领导纽约市的大数据分析小组的 M. Flowers 也指出,大数据驱动的分析主要的挑战不是技术问题,而是方向和组织领导的问题 。而要确定方向,提出问题,需要对行业的深入理解。
大数据自提出至今得到广泛关注,其并无统一的定义,由于大数据是相对概念,因此目前的定义都是对大数据的定性描述,并未明确定量指标。 维基百科中指出,大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集;麦肯锡公司(McKinsey&Company)则将数据规模超出传统数据库管理软件的获取、存储、管理以及分析能力的数据集称为大数据;Gartner (高德纳,又译顾能公司,NYSE: IT and ITB)全球最具权威的IT研究与顾问咨询公司 将大数据归纳为需要新处理模式才能增强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;徐宗本院士则在第 462次香山科学会议上的报告中,将大数据定义为“不能够集中存储、并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集” 。虽然以上关于大数据定义的定义方式、角度以及侧重点不同,但是所传递的信息基本一致,即大数据归根结底是一种数据集,其特性是通过与传统的数据管理以及处理技术对比来突显,并且在不同需求下,其要求的时间处理范围具有差异性,最重要的一点是大数据的价值并非数据本身,而是由大数据所反映的“大决策” 、“大知识” 、“大问题”等。
大数据的数据有多种来源,包括公司或机构的内部来源和外部来源。数据来源可分为五大类。
1) 交易数据。包括 POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”( ERP)系统数据、销售系统数据、客户关系管理 ( CRM) 系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。
2) 移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据 ( 如搜索产品的记录事件) 到个人信息资料或状态报告事件 ( 如地点变更即报告一个新的地理编码) 等。
3) 人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、 linkedin 等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。
4) 机器和传感器数据。来自感应器、量表和其他设施的数据、定位 / GPS 系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网 ( IoT) 的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为 ( 如当传感器值表示有问题时进行识别) ,提供规定的指令 ( 如警示技术人员在真正出问题之前检查设备) 等。
5) 互联网上的 “开放数据”来源,如政府机构,非营利组织和企业免费提供的数据。
尽管上面列出了大量的数据源,但要满足具体企业或机构的具体需要,也常常有困难。这种情况在我国更加突出。因为我国政府公开的数据非常有限。比如,即使号称为我国三大数据平台的北京、上海、贵州的政府数据网,公布的数据都非常少,非常粗略,很难被视为大数据。而非政府机构和民间企业,更不会轻易对外公布数据。此外单是获得数据还不够,还需要获得有关资料的很多细节,如对资料的说明,资料的背景,以及其他能帮助分析员理解数据的信息。如果没有这些细节,对数据的正确解读就可能有困难,数据就失去价值。而我国政府提供的很多数据常常缺乏这些细节。
1,轻型数据库
2,大数据存储平台
当用户提出大数据分析以及复杂的挖掘请求或数据量已经远超过轻型数据库的存储能力时,应将大数据导入大型分布式存储数据库或者分布式存储集群。 目前典型的大数据存储平台包括Info-Brignt,Hadoop(Pig和Hiva) ,YunTable,HANA以及Exadata等,以上数据库中除Hadoop外均可满足大数据的在线分析请求。
而随着宽带网络技术、web2.0技术、应用存储、集群技术、存储虚拟化技术的发展,云环境下的大数据存储将成为未来数据存储的发展趋势。 云存储并不是存储,而是一种服务,其将数据放在云上以供使用者在不同的时间、地点、通过任何可联网的设备对数据进行获取。 目前很多公司推出的网盘便是云存储的应用实例,其一经推出便得到了大家的广泛青睐,包括迅雷快传、115 网盘、163网盘、腾讯微云、新浪微盘、360云盘、百度云等,虽然各个网盘的上传、下载速度以及容量等具有差异性,但网盘的推出以及流行反映了云存储的良好发展趋势。 现在很多公司也相继推出了云存储平台,如 AmazonS3、Microsoft的Azure等,云存储平台的出现为企业以及研究机构带来了便利,其可利用云存储平台开发自己的云存储系统,但是对应于云存储,成本以及安全性、隐私性的问题也是未来需要突破的重点。