- 点击数:18397
作者:王丛 中桥调研咨询总经理兼首席分析师;马艳 中桥调研咨询分析师;杨凌霄中桥调研咨询分析师
日期: 201 2013年10 月
摘要
全球数据量以平均年增长率50%的速度飞速增长。目前,全球80%的数据量都是最近两年产生的。在2003年之前,全球产生的数据量约为5EB,但是知名调研公司预测,到明年,每十分钟,人类就能够创造出上述信息量。目前欧美市场规模在1000人以上的企业,数据平均拥有量是200TB。欧美市场,各型企业和机构已经在通过大数据分析,实现IT创造价值。大数据是一把双刃剑,它既可以给企业造成巨大的IT开支,IT效率的低下可以引起利润和市场份额的快速下降;也可以为企业创造价值,通过IT突破创新来提升企业竞争力。
目前,描述大数据的三个最重要的维度包括:数据量的快速增长、数据种类的快速增加,以及分析速度的快速提升。中桥国际调研咨询(以下简称“中桥”)分析认为,大数据给用户带来的最大挑战在于,如何在数据量、数据种类和IT使用者快速猛增的过程,解决传统IT技术和IT流程无法满足大数据创造价值的需求的问题。具体体现包括:是否能满足大数据分析过程从数据摄取和存储、ETL(数据抽取、转换、加载)、数据分析,到分析结果呈现,四个环节的资源和性能需求。
中桥在2013年7月,对中国最终用户关于大数据的50组问题进行了调研,最终获得455份调查结果。调查问卷主要涉及的问题包括:目前大数据在中国的发展趋势;中国用户对大数据的理解;大数据给企业带来的价值;大数据时代存储面临的挑战和未来发展趋势。结合这些调查数据,本报告将对中国市场的大数据问题进行全面解读。
如何通过大数据创造业务价值
大数据的价值
对于零售业,优质客源持有率和资金周转率决定着零售商的利润和销售额增长空间。大数据让亚马逊[1]能够通过PriceCheck手机应用,让消费者可以在零售店柜台,通过商品编码扫描,实时比对价格,和传统零售商在柜台上实现一兵一卒的客户争夺;同时,结合其动态价格体系,针对竞争对手商品定价进行实时监控和实时调整,使其营销精细到每一个商品、每一个客户、每一个竞争对手,最大化利润和增长;此外,亚马逊通过社群CRM系统,加大对潜在用户的获取效率,提高优质客源持有率。大数据改变着零售业的产业格局和盈利模式。从过去10年市价盈利比率(PricetoEarningsratio,P/Eratio,简称市盈率[2])分析,过去十年亚马逊的收益率区间在30-300,远高于Target[3](11-18)和Walmart[4](15左右)。亚马逊以不足20年的历史通过低价竞争优质客源,成功超越了发展50多年以低价比拼著称的传统零售业的市盈率。这说明,相对于以低价比拼的传统零售业,网上零售业通过充分发挥大数据的价值,以更优的价格获取到更多更优客源,在利润增长上短时间就领先了传统零售业。亚马逊、阿里巴巴、eBay通过大数据实现以速度挑战规模,以优质、快速市场响应实现跳跃式发展,改变了传统零售业的市场格局。除了零售业,其他行业对大数据的使用也带来了产业格局的改变。据麦肯锡预测,大数据能大幅度降低医疗健康、公共管理政府开支。美国健康医疗行业通过大数据的集中统一管理和有效利用,不仅提高了医疗保健系统的生产效率、改善护理和医疗质量、提高行业竞争力,每年还可降低达3000亿以上美金的开支;欧盟公共服务管理部门通过大数据提高运营效率,减少运营成本,每年可减少2500亿英镑开支。
大数据分析不同阶段特点
大数据是一个演进过程。传统商业智能通过增加数据类型和数据来源、提高分析速度,应对越来越多的数据子集,逐步演进为大数据分析。大数据通过IT创造价值的两个主要维度是数据分析频率、数据来源&种类,主要分为三个阶段(图1)。
· 第一阶段:批量分析。数据主要以企业内部结构化数据(如生产、管理数等数据)为主。数据分析子集量通常在GB或TB范围。目的是通过数据分析降低生产开支,提高资金周转和物流效率,提高业务智能决策能力。主要的数据分析架构是基于传统的数据分析架构。这一阶段用户主要IT投资重点是如何提高数据分析频率,以及增加大数据分析数据种类,为逐步向大数据分析架构的演进做好IT架构和资源、大数据分析流程的准备。
· 第二阶段:近实时分析。数据分析类型从传统的结构化数据逐步演进为结构化、非结构化(音视/频、社群等)和半结构化数据(包括系统日志、客户信息)。数据分析子集数量相对批量分析更大,在TB到十几TB甚至几十TB范围。除了降低生产开支、提高决策效率以外,通过大数据分析提升利润和销售增长,以及提升优质客源获取和持有效率成为主要目的。近实时分析对从分析准备、处理到呈现的时效性更强。这就提高了对数据处理能力和分析速度的要求。
· 第三阶段:实时分析。数据来源和种类更加丰富,不仅限于企业内部的生产数据、用户数据和社群网站,还会纳入第三方的数据(竞争实时监控、目标用户群体采购行为监控等)。数据分析子集量在几十到上百TB范围。主要目的是通过实时分析,通过前瞻性,实现业务突破创新。通过系统驱动实时“行动”,优化企业优质资源持有率,提升企业在全球市场的核心竞争力。此外,实时分析对于数据分析和根据分析结构触发动态业务决策(价格、库存、打包服务)的速度要求更为苛刻。不仅给计算、网络提出更高要求,也大大提高了对数据存储容量、性能和资源动态配置能力的要求。
大数据分析四大环节
从数据采集管理,到数据分析呈现主要包括以下四大环节(图2)。
1. 数据输入:将企业内部数据有效采集和管理,逐步形成数据采集阶段的数据分类管理规范化和标准化。数据的有效存储和管理,保证了大数据演进过程中企业数据资源的可用性,也是整个大数据分析流程的关键。
2. ETL:大数据分析的准备工作,从不同的应用实现数据的抽取、迁移和加载。
3. 数据分析:根据业务需求进行批量数据的近实时或实时分析。
4. 显示&交付:将大数据的分析结果呈现并交付,以支撑智能的战略决策和业务决策,或者自动根据实时数据分析触发商业行为,加大业务对市场的反应速度和利润的捕捉能力。
那么就上述4个环节,不同规模的企业侧重点又将如何呢?中桥的调研结果显示(图3),未来12个月,企业级用户的大数据相关IT投入重点放在数据分析ETL(抽取、迁移、加载)和商业智能(BI),占比均为50%;中小企业的IT投入重点则在数据仓库(50.5%)和ETL(抽取、迁移、加载)(41.6%)。这也与不同规模企业所处的数据分析阶段有关。
具体来说,企业级用户正从大数据分析第一阶段,向第二阶段演进,更侧重于通过大数据分析和商业智能(BI)最大限度地提高用户使用体验,减少优质客户流失。中小企业侧重于通过商业智能提高生产效率、利润和发展空间;通过对用户采购行为分析,判断潜在业务发展空间;通过业务创新,实现以“小”搏“大”、以“速度”搏“规模”的目的。
大数据的IT挑战
大数据时代下,全球应用数量从十几年前以十万为计算单位进入以百万为计算单位;IT使用者和数据生成者快速从传统的“IT从业”人员,向普通的消费者发展。传统IT无论在资源配置效率、可扩展性和处理能力上,都已经无法满足大数据的处理、分析和存储需求。而且,传统IT技术在应对大数据挑战上,不仅带来总拥有成本的快速攀升,同时也给业务稳定安全带来诸多隐患。因此,大数据时代需要经济、高效、动态和弹性的IT支撑能力,以应对大数据带给IT的诸多难题。
数据中心的IT技术在快速提升以满足市场需求。从计算能力上,根据Moore定律(图4),每两年芯片处理器的性能就翻一番。从网络性能上,万兆、四万兆和十万兆以太网产品竞相推出,InfiniBand价格逐步下降,数据中心网络带宽也得到迅速增强。在这种情况下,磁盘相对于CPU和缓存性能的落幅,以及传统存储动态配置能力,造成了大数据分析过程的性能和容量瓶颈。而存储瓶颈,不仅导致应用处理的性能问题;在大数据分析过程中,传统存储的容量、存储利用率、存储配置效率和数据高可用性等,还成为制约大数据IT创造价值的障碍。
大数据分析的技术架构,在快速从传统的表结构和列结构的结合,向分布式架构演进。下面中桥将从中国企业对IT架构、计算节点、存储的选择情况进行解读。
大数据分析对IT架构的需求
在大数据时代,随着数据存储量的爆炸性增长以及分层网络架构的出现,IT复杂性达到了前所未有的高度,而大数据分析使得传统IT架构更是不堪重负。从企业角度来看,怎样的IT架构才能让他们的大数据环境充分实现IT创造价值呢?中桥调查结果表明(图5),企业级用户(员工人数在1000人以上)主要选择的是“透明、经济、智能、自动化”的IT架构(29.3%),中小企业(员工人数在1000人以下)则主要选择的是一体机方案(服务器、存储、网络、大数据分析软件)(28.9%)。企业级用户更倾向于开放、异构、跨平台的IT架构,因为其用于大数据分析的IT架构发展较为成熟,如何继续提高BI效率是企业级用户选择IT架构的重点。中小企业尚处于IT架构发展初期,因此一体机的方案成为中小企业的首选。受访者的选择结果也体现了中国企业未来对IT架构的需求趋势,说明数据整合和ETL是中国企业的迫切需求,也是目前面临的最大问题之一。
大数据分析对计算技术的需求
再从大数据分析的计算方式来看(图6),21.6%和21.3%的企业级用户分别考虑x86虚拟化和小型机来部署大数据分析方案,中小企业(23.8%)则主要考虑刀片服务器的计算方式。刀片服务器的高密度特点有利于提高计算能力、保持高虚拟机密度。企业级用户的应用多数运行在小型机的平台上,这就造成如果大数据分析是在现有IT基础上实现,则小型机就成为了企业级的首选;如果要选择在一个全新平台进行大数据分析,那么x86虚拟化就成为了企业级用户的第一选择。结合我们之前所分析的,目前中国市场的大数据分析速度和频率远低于欧美市场,这导致中国企业在数据分析(通过IT创造价值)这一重要环节上比较薄弱。
大数据分析对存储的需求
从大数据分析的第一个环节—数据收集和存储来看,大数据时代应用数量、应用数据量和使用者数量的增长,对存储IOPS以及OLTP和OLAP的要求越来越高,具体体现为,现有存储不能满足业务关键型应用的需求。从中桥就企业支持当前数据分析和/或进程活动的存储类型分析来看(图7),FC SAN是企业级用户(42.1%)和中型企业(34.0%)的首选,远高于其他存储类型的企业占比。这是因为FC SAN对OLTP和OLAP的性能稳定性优于其他存储技术。这一调查结果也体现了,目前中国用户大多处于大数据分析的第一阶段,存储和IT架构大多以集中式为主。随着Hadoop和MapReduce的不断普及,用户逐渐进入近实时和实时分析阶段,节点式存储的占比会随之逐渐增加。
那么在大数据时代企业的存储能否满足需求,是否需要部署新的存储?中桥调研结果显示(图8),只有14.1%的受访用户认为其现有存储能够满足业务关键型应用的需求。31.6%的用户计划在未来12个月部署新存储;还有33.2%计划在未来12-24个月部署新存储。这表明传统存储越来越难以满足业务关键应用的性能需求。在未来24个月,64.8%的用户将会部署新存储来满足大数据时代,业务关键型应用对存储性能越来越高的需求。
从存储性能角度分析,在大数据时代,海量数据的处理需求,使得传统存储面临了OLTP和OLAP的性能高需求。因此企业纷纷采用新型存储技术来解决这一问题。图9的调查数据也验证了这一点。企业采用固态盘或闪存技术的主要原因排列如下:提高桌面虚拟化的性能、提高OLAP性能需求、满足业务关键应用性能和低延迟要求、提高高虚机密度应用性能等。而桌面虚拟化、OLAP高要求、业务关键应用、低延迟以及高虚拟机密度也正是大数据时代的典型特点。
那么对于中国企业而言,在选择大数据分析的存储技术时,应该考虑哪些因素来确保整个大数据分析流程的平稳、高效运行?中桥对企业的调查结果显示(图10),存储高可扩展性、高可用性和并行处理能力是企业评估大数据存储最重要的三个因素。高可扩展性可以确保企业的IT能够随着数据量的增长和性能需求进行扩展,以满足海量数据的存储和处理需求;高可用性则能够保证大数据分析过程的平稳、无间断运行,而不会因为系统的故障或意外而造成业务中断,确保了业务连续性;高并行处理能力则能够确保在大数据处理过程中同时进行更多数据的处理,以高效地完成数据分析,从而将分析结果转化为业务决策,加快产品或技术的面市周期。此外,低延迟、自动分层存储以及10GbE支持等也是用户评估大数据存储的重要考核因素。
我们再换一个角度来继续解读一下存储。众所周知,不同类型的数据,其生命周期也是不同的。而根据数据类型和生命周期来进行存储分配,则能够有效提高存储利用率,这对于大数据的存储开支非常关键。此外,有效管理数据也决定着生产应用的性能。中桥的调查结果显示(图11),大量的中国用户所采用的数据库面临着性能压力(84.4%),且没能有效地进行数据的归档和清理,这其中,有24.6%的受访企业甚至不进行数据归档和清理,还有高达34.9%的受访企业采取手动方式来进行数据归档和清理。将非活跃数据从主存储资源上清理出来,并根据数据类型和生命周期进行分层存储和归档,尽可能提高存储利用率的同时,还能够确保生产应用性能的稳定性,为数据分析提供所需的性能,且有效降低主存储开支,延缓存储采购周期。
在大数据时代,海量数据给企业带来的不仅仅是系统性能和存储难题,如何对数据进行保护,不会因数据丢失而给企业业务带来损失也是企业的一大焦点。在大数据演进过程中,数据保护关系到IT系统进行数据分析的性能以及业务连续性。中桥的调研结果显示(图12),用户就面临的数据保护挑战排列如下:“数据备份影响业务性能”(25.1%)、“数据保护网络带宽需求大”(20.7%)、“分级存储读写性能不能满足要求”(19.3%)。这表明,在大数据时代,海量数据的备份和保护以及分级存储,将对业务性能带来很大影响,包括网络带宽。这也从侧面再一次表明数据的分级存储对企业的重要性。
数据是大数据时代通过IT创造价值的“种子”。在大数据分析的四个重要环节—数据采集和存储、数据清理和整合、数据分析、分析呈现,如何保证大数据演进过程的容量、性能和业务连续性的需求,通过提升资源利用率降低存储开支,是保护好大数据的“种子”,也是选择大数据存储的重要考虑因素。
中国大数据市场和技术趋势
下面,中桥还将结合大数据分析的三个阶段和四个环节,就中桥调研在2013年7月的调查数据,针对以下选题,解读中国大数据市场和技术趋势:
· 大数据分析的业务价值
· 大数据分析频率
· 大数据分析数据来源和种类
· 大数据分析方法
· 大数据分析市场趋势
点击下载完整报告
[1] 亚马逊公司成立于1994年,网站上线于1995年。目前为全球最大的在线零售商。
[2] 市盈率是最常用来评估股价水平是否合理的指标之一,由股价除以年度每股盈余(EPS)得出,若按已公布的上年度EPS计算,称为历史市盈率(Historical P/E),若是按市场对今年及明年EPS的预估值计算,则称为未来市盈率或预估市盈率。高的市盈率说明投资人普遍相信该公司未来每股盈余将快速成长;平均市场市盈率保持在20-25之间;亏损的公司没有市盈率。
[3] 美国塔吉特公司,1962年第一个塔吉特商店在明尼苏达州成立。2000年戴顿赫德森公司(Dayton-Hudson Corporation,1962年成立)更名为塔吉特公司。目前美国第二大折扣零售商。