第3章 大数据:有所为有所不为
3.1 大数据分析最佳实践
很显然,与任何其他技术或过程一样,大数据问题也有最佳实践。在大多数情况下,最佳实践通常来自多年的测试和测量结果,以此作为基础,不断发展。然而,如今的大数据概念要相对新颖,在推导相关最佳实践的过程中人们总会去依赖并利用此前经过证明的有效方法。尽管如此,当前各种新的最佳实践正如雨后春笋般不断浮现,这意味着我们仍然可以从他人的错误和成功中吸取经验教训并由此判断出哪些才是真正有效的方法。
大数据的革命性特质往往会影响最佳实践,因此今日的最佳到明日可能就不再无懈可击。也就是说,在大数据分析方面,应该会存在一些核心的成熟技术,它们能够经受住时间的检验。在名词、技能集、产品和供应商不断推陈出新的情况下,大数据分析的世界似乎越发让人感到陌生,但是经过实践证明的数据管理最佳实践在这个仍属新兴的领域中依然能够发挥良好的作用。
和所有商业智能(BI)和/或数据仓库计划一样,除非已经充分了解组织的数据管理要求并制定好完备的战略,否则任何人都无法在大数据分析这条道路上走得太远。大数据分析已经被广泛炒作,而各行各业的公司也已被不断翻新的数据源和更为庞杂的数据量所淹没。在没有充分了解的情况下对大数据领域进行重大投资并认为这能够为自己的企业带来实际性增值,这是该领域潜在用户容易产生的最大误解之一。
获得成功的诀窍是从商业角度看待问题,同时不要过度关注技术,要做到这一点可能需要首席信息官(CIO)、数据科学家和其他商务人士之间进行深入的探讨以确定业务的目标并找出真正有价值的数据。在具体实践中,至关重要的是要准确界定可用的数据并为组织设计出资源的最优利用方案。
CIO、IT经理以及BI和数据仓库专业人员需要检查当前被保留、整合和使用的数据并将其与正在被丢弃的数据进行比较。另一个关键步骤在于考虑目前尚未触及到的外部数据源中有哪些可能对现有的资源组合产生良好的补充作用。即使公司目前尚不确定自己应在何时以何种方式投入大数据分析的浪潮,但他们也应尽早进行这种评估。
数据积累的量变是为最后的质变做准备,即使一开始你并不清楚大数据的用途。上述过程的诀窍在于尽早地开始数据积累,否则你可能会错失机会,原因是某些稍纵即逝的数据可能会被错过,而你在启动大数据工程后可能没有足够的信息追溯能力来找回这些资源。
3.2 从小做起
在大数据分析过程中,我们应该找出微小但高价值的机会,并以这些机会为起点。在理想情况下,组织能够通过完成这些较小的任务积累必要的专业知识,为将来进行大型的分析做好准备。鉴于作为分析目标的数据源和信息类型会不断扩展,同时相关公司会开始创建各种重要的分析模型以便更好地揭示结构化和非结构化数据的模式和这两种数据之间的相关性,相关公司必须要关注的是,要根据其所阐明的业务目标,找出那些重要程度最高的调查结果。
必须要避免的情况是:你最终找到了一种可以确定新模式和数据关系的程序,但这些模式与关系对于业务流程却没有任何帮助。上述情况在分析矩阵中被称为死区,即尽管你能够发现新的模式,但这些模式与待解决的问题之间却没有联系。
大数据项目的成功,往往始于极具针对性的目标和对量级较小的数据集的关注。只有通过这种方法,才能在获得项目成功后开发出真正有效的大数据分析方法,此类方法的初始量级不高,但它们会随着实践成长。这种模式在实践中的效果很好,因为企业能够在为数据分析做准备的同时,以较少的初期投资创造价值。
为实现上述目标,我们可以从“微量数据”开始(即获取单独的数据流并将其迁移到不同的系统中,以便进行后续的融合处理)。随着时间的推移,微量数据会不断地蓄积、增长并最终带来大数据的诞生。扩展能力将至关重要:随着所收集数据的增加,系统的规模也需要不断扩展以适应不断增长的数据量。
3.3 关注大局
利用开源Hadoop技术和新兴的打包分析工具,能够使经过SQL培训的商业分析员更加了解开源的环境。最终,在绘制大数据分析路线图时,规模将成为最主要的影响要素。商业分析师将需要规避SQL方法,才能掌握在节点和集群上运行的分布式平台的概念。
此时,至关重要的是思考潜在信息积累的形态。要做到这一点,我们可以先计算出从现在起的6个月内需要收集多少数据,然后确定需要多少台服务器才能处理这些数据。此外,我们还必须确保使用的软件能够满足数据扩展的需要。此时,有人可能会忽视解决方案的潜在成长能力以及将此类方案投入使用后的潜在受欢迎程度,但这种想法属于严重的误解。
随着分析尺度的扩展,数据管理的重要性也将不断提升,在这一点上,大数据与任何其他大规模网络运算并没有什么区别。信息管理实践也是如此,作为曾经在数据仓库领域的关键要素,该实践对于如今的大数据也同样重要。我们必须要记住的是,信息是一种企业资产,我们必须将其视为企业资产加以对待。
3.4 避免最差实践
有很多潜在原因导致大数据分析项目不能达成原定的目标和期望。在某些情况下,学会“应该怎么做”还不如学会“不应该做什么”。这使我们能够形成识别“最糟糕做法”的观念,这样你就可以避免犯下与别人过去相同的错误。与自己犯错相比,从别人的错误中学习要更为可取。需要关注的某些最糟糕的做法如下:
❑ 认为“只要建成系统就行,问题会自然解决”。很多组织都会犯的错误是简单地认为只要部署了数据仓库或BI系统就自然能够解决关键业务问题并创造价值。然而,很多IT、BI和分析项目经理都在技术炒作中迷失并忘记了商业价值才是他们的首要任务,数据分析技术只是创造价值的一种工具。与盲目地运营和部署不同,大数据分析的支持者首先应该做的是确定该项技术要达成哪些商业目的,并依此来建立商业案例,只有这时他们才能根据手头的任务来选择和利用正确的分析工具。如不能充分理解自己的业务需求,项目团队最终很可能只是创建了一个对组织而言没有价值的大数据存储库,整个团队也会陷入“受冷遇”的尴尬境地。
❑ 认为软件可以解决所有问题。构建分析系统,尤其是涉及大数据的分析系统是一项复杂且耗费资源的工程。因此,许多组织希望其部署的软件能成为无所不能的魔豆,并瞬间解决所有问题。人们都知道这种想法并不现实,但在内心中却又总在期待这种情况发生。软件的确能产生助益,有时甚至能引起翻天覆地的变化。但大数据分析作为一种工具,它的作用大小要取决于正在分析的数据以及工具使用者的分析技能。
❑ 不能理解为什么要改变思路。重复采用同一方法并期望不同结果被认为是发疯的表现,在数据分析的世界中的确存在着某种形式的疯狂。人们往往会忘记,仅仅重复曾经有效的方法而不考虑情况是否已经发生改变的话,最终迎接他们的会是失败。在大数据方面,某些组织总是认为其中的“大”只是代表了更大的覆盖面和数据量,这种想法并不全错,但是很多大数据分析举措会涉及非结构化和半结构化信息,在管理和分析模式方面这些数据与企业应用和数据仓库中的结构化数据有着根本性的不同。由于以上原因,我们在面对大数据,至少是某一部分大数据时可能需要采用新的方法和工具来完成数据的获取、清洗、存储、汇总和访问。
❑ 忘记过去所有经验。有时企业又会走向另一个极端,即认为大数据的一切都是全新的,他们必须从头做起。对大数据分析项目而言,这种误解对项目成功的破坏力甚至要高于不能改变思路的错误。仅仅是待分析的数据在结构上有区别,并不意味着我们需要改写数据管理的基本规律。
❑ 不具备必要的业务和专业分析技能。技术万能论会带来的错误推论是认为自己只需要安排IT人员实施大数据分析软件即可。首先,正如前文对创造业务价值的讨论,除非能在系统设计和实际运行两个阶段整合并覆盖广泛的业务和行业知识,否则相应的大数据分析程序并不能真正实现目的。其次,很多组织都低估了所需分析技能的程度。如果大数据分析仅仅涉及报告构建和仪表板,那么相关企业只需利用其现有的BI专业知识即可。然而,大数据分析往往会用到数据挖掘和预测分析等更高级的过程,这就需要相关专业分析人员具备统计、精算和其他高级技能,对于首次进入高级分析领域的组织而言,上述情况意味着它们需要雇用新的职员。
❑ 以进行科学实验的态度实施项目。很多时候,公司认为只要能收集数据并对其加以分析就代表自己的大数据分析程序已经获得了成功。实际上,数据的收集和分析仅仅只是开始。要想通过分析产生业务价值就必须将分析数据纳入业务流程,并使业务经理和用户能够根据调查结果采取行动,并由此提高组织的绩效和业绩。要真正达成目标,相应分析程序还需要包含沟通功能,这样相关人士在依据分析结果取得行动成功后,能提供反馈,此后就可以基于业务成绩对分析模型进行深度改良。
❑ 承诺完成不切实际的目标。许多大数据分析项目都会陷入的一种重大误区是:支持者过度地夸大了系统的部署速度及其可能带来的业务收益。承诺过度而实现不足会影响相关企业对技术的信心,这往往会导致这些组织在很长时间内都不再愿意利用所涉及的技术,即使许多其他企业已经利用同等技术取得成功也不例外。除此以外,一旦已经认定自己可以轻易并快速地赢得收获,企业高管往往会低估了所需要的努力和专注度。在投入的资源不满足需求时,相关企业会发现收获并非如预期那般简单和快速,并由此认定项目已经失败。
3.5 步步为营
常言道“千里之行,始于足下”,而创造有效大数据分析程序的过程也符合这一道理。然而,要想成功达成目标,我们需要走的不只是一步。推行大数据分析计划的组织,需要强有力的执行计划来确保分析流程适合自身需求。要想为大数据计划做好准备,选择出将要使用的技术只是旅程的半途。除了确认正确的数据库软件和分析工具以外,相关企业还需要落实技术基础设施,真正为进入下一步骤做好准备,由此才可制定出真切可行的战略。
高效项目管理过程对创建成功的大数据分析程序有至关重要的作用,这一点也是不可忽视的。为确保系统的顺利部署,企业在实施相关步骤时可以参考以下建议。
❑ 确定应保留和应删除的数据内容。就其本质而言,大数据分析项目需要使用大规模的数据集。但这并不意味着我们需要分析公司所有的数据源或其中包含的所有信息。组织需要找出在洞察性分析时,能够带来真正价值的战略性数据。例如我们需要哪些信息组合才能了解保留关键客户的要素?或者需要哪些数据才能揭示股票市场交易中的隐藏模式?在规划阶段关注项目的业务目标有助于组织进行必要精确分析,在这些分析完成后相关组织可以并应该努力找出需要哪些数据才能达成上述业务目标。在某些情况下,完成上述过程的确需要涵盖一切数据。但在其他的情况下我们只需利用一部分的大数据即可满足需求。
❑ 构建有效的业务规则并克服此类规则的复杂性。如何克服复杂性是大多数大数据分析计划的关键所在。为了得到正确的分析结果,至关重要的是要在处理过程中涵盖以业务为中心的数据所有者,由此才可确保能提前确认所有必要的业务规则。一旦能够确认规则,技术人员就可以评估这些规则所带来的复杂度,以及需要付诸哪些努力才能将输入的数据转换为有相关性且有价值的调查结果。至此我们已经为下一个实施阶段做好了准备。
❑ 以协作方式将业务规则转换为相关分析数据。业务规则只是开发有效大数据分析应用程序的第一步。接下来,IT或专业分析人员需要创建产生必要输出所需要的分析查询条目和算法。但具体的行动需要落到实处。查询条目的质量和准确性越高,操作时需要返工的次数就越少。在许多项目中,项目团队和业务部门之间缺乏沟通的情况会导致他们需要不断地进行重复。持续的沟通和协作能大大减少分析开发过程中的坎坷。
❑ 制定维护计划。除了最初的开发工作,成功的大数据分析计划还需要持续的关注和更新。定期维护查询条目和始终为业务需求变化做好准备是重要的工作,但它们仅代表管理分析程序的一个方面。数据量会不断增加,业务用户对分析过程的熟悉程度也会不断提升,随之必然会出现更多的问题。分析团队必须能够及时跟进并满足其他的请求。此外,作为大数据分析硬件和软件选项评估过程的一部分,我们需要评估这些软硬件在动态商业环境中能否适应迭代开发过程的需要。只有满足适应不断变化的要求,分析系统的价值才不会随着时间的流逝而流失。
❑ 考虑到每一名用户。随着自助式BI功能的热度越来越高,可以认为对最终用户的关注已经成为了大数据分析程序中的关键因素。拥有可以处理大型数据集,同时具备分析结构化和非结构化信息的强大IT基础架构都是相当重要的,但开发好用并且易用的系统也同样重要,这意味着我们需要考虑到用户的各种需求。不同类型的人员——从高级管理人员到操作工、业务分析师和统计人员——会以不同的方式访问大数据分析应用程序并根据自己的需要来使用相关工具以确保其项目整体上的成功。在这种情况下,必须提供不同等级的互动功能,才能满足用户的期望,并让分析工具熟练程度不同的用户都能加以利用。举例来说,通过建立仪表板和数据可视化处理,就能以一种容易理解的方式向并不擅长自行查询大数据分析数据的业务经理和工人呈现调查结果。
没有一种方法可以确保大数据分析的成功。但是遵循一系列框架和最佳做法(包括本文概述的建议举措)可以帮助相关组织维持正确的大数据分析规划方向。大数据安装的技术细节相当繁杂,我们需要对其进行深入的研究和考量。但仅做到这些还不够:我们还必须考虑技术和业务方面的各种问题,才能确保组织能通过对大数据分析的投资获得所期待的结果。
3.6 学会利用异常数据
有人认为在处理大数据时忽略各种异常数据是最好的做法,为此他们创建了复杂的过滤程序,来舍弃那些异常的信息。在处理特定类型的数据时,这可能算是较为稳妥的做法,因为异常往往会导致结果的不准确。但实践证明,在某些时候和某些特定的情景中,异常数据要比其他的数据更有价值。对此,我们应该认识到的是“在没有进一步分析的情况下,丢弃数据的做法是不正确的”。
举例来说,在以数据加密为标准做法并且需要实时进行访问记录和数据检查的高端网络安全领域,识别并认定符合数据非特征运动的情况(即通过发现异常来检测安全问题)是至关重要的步骤。上述思想可以应用于从金融审计到科学探究再到检测网络威胁等领域,在这些领域,发现和识别非正常现象才是服务的关键。
在大数据的世界里,“异常数据”可能只是一个条目,在数百万的数据量中,这一个条目可能并不值得注意。但是,在对流量、访问和数据流进行分析时,这一个条目就可能具有无法估量的价值,并可能成为获取证据的关键信息。在计算机安全领域,发现异常具有特别重大的意义。但是很多数据科学家都不愿意为研究异常处理而占用用于其他任务的资源。
事实上,异常现象很可能是某种趋势的前兆。以网上购物为例,许多购买趋势在一开始就是早期产品使用者创造的一种孤立异常现象;但这些产品随后可能成为时尚并最终成为顶级的产品。这种类型的信息——即早期趋势——可能带来销售周期的破与立。在这个方面,没有任何实例比华尔街更有说服力,在这个市场中任何异常的股票交易都可能带来不可预料的恐慌和疯狂,而这一切可能只是源自从一堆大数据中发现的几个小事件。
通常情况下,只要数据集的规模足够大,异常现象就总会随之出现。某些领域中对异常价值的体现更具有意义,社交网络就是其中之一,在这个领域有大量的帖子、tweet信息和更新被投入大数据和分析程序,相关的企业会查看客户情绪等信息并以平行的方式对比在众多不同类型的时间序列中发现的异常现象,其中所涉及的思想就是类似的异常模式可能会出现在不同的维度中。
零售购物便是其中的一个典型案例。某些人群可能会在一年中相对固定地在Safeway、Trader Joe's或Whole Foods购买生活用品,但在年终他们会前往百思买和Toys“R”Us进行假日购物并引致相关商户年终预期销售量的增长。而苹果之类的公司则可能在一年中的大部分时间均维持较为平均的表现,但一旦新的手机产品发布,它们在全球的客户总会不约而同地为了这一金属与玻璃构成的工艺品而甘愿排队采购。
在需要与其他数据元素区分开来的重要数据中,上述信息就如海底针一般的存在。我们可以看出,在一年中,苹果专卖店有约300天在临时购买模式(或利润率)方面都与典型的电子产品零售商均没有什么区别,但是一旦发生某个能引发两个或三个年度大事件的异常情况(例如新产品发布),这个异常就成为了苹果商店和其他电子零售商之间的最大区别。为了能专注于真正具有特异性的事件,我们可以使用各行业中常见的趋势来抵消可以预期的季节性变化。
在Twitter数据方面,不同维度之间通常有很大的差异。哈希标签通常与短暂或不规则现象相关,与之相比某个大国的用户所发布的大量tweet信息则具有规律性。由于在这种维度内部相似性更高的情况,我们应该对每个维度进行分开处理。按维度使用算法有助于在标签和用户名(而非位置和时区)成为最主要的异常来源的情况下做出判断,因为前述情况表明相关各群组中的项目之间几乎没有任何相似性。
鉴于异常的数量巨大,找出其中的意义是一项极为艰巨的任务,这也导致了以下问题:是什么导致了正常的流量中出现异常暴增的情况?有哪些领域与此相关?这是否与URL缩短器和Twitter直播视频流服务有关?按照异常情况的多少来排序的看法不够精细且有诸多限制;异常之间的联系通常存在于维度之中以及各维度之间的区域。各种算法可以共同产生强大的协同效应,但我们可能需要采用某种聚类过程才能发现其中的规律。
3.7 速度与精度的抉择
以往的大数据分析通常需要在性能和精度之间进行折中。造成这种情况的原因是当时的技术往往需要几个小时或几天的时间来运行相应的算法,分析大规模的数据集。采用了集群处理的Hadoop解决了部分的存在问题,同时其他可以增强性能的技术也已经开发完成。但是,对于大多数普通组织而言,实时的大数据分析还只是一个梦想,这主要由于此类组织没有足够的预算扩展自己的存储和处理能力,而大数据对这两种能力则有着近乎无限的需求。
上述约束所带来的结果就是,要想快速地获得结果就必须缩小数据分析的范围,这可能会导致结果准确度的降低。而追求精度的话又不得不选择规模更大的数据集并投入更多的处理时间。
随着技术的发展和创新,选择的空间也在不断扩大。目前行业正在使用内存中处理技术来解决速度与精度无法共存的问题。该方法的原理是将待处理的数据存入易失性存储器而不是硬盘。如果使用普通的物理磁盘驱动器,我们需要读写磁盘中的所有输入和输出数据,与之相比在高速缓存中加载数据集并直接对其应用算法可以节省很多时间。
3.8 内存计算
各种组织开始认识到分析数据的价值,并在努力探寻进一步提高该价值的方法。对于许多人来说,获得更高价值的途径就是提高处理的速度。发现趋势并应用算法来处理信息以形成附加价值,但前提是该分析可以实时产生结果。
然而,磁盘存储的群集和广域网连接的延迟使得通过BI解决方案很难实时取得结果。这样问题就在于实时处理所产生的价值能否抵消为追求更快技术速度而付出的额外费用。要找到这个问题的答案就必须确认实时处理的最终目标是什么,是为某个特定业务流程加快结果生成速度?满足零售交易的需求?还是获得竞争优势?
尽管原因有很多,但最终价值的多少还是要取决于获得更快处理技术在价格方面的可行性。而内存计算正符合这一需求。此外还有很多其他因素也在推动内存计算技术的采用。举例来说,《经济学家》在最近的一项研究中进行估算后得出,人类在2005年创造的信息总量约为150×260位元组,而到了2011年前述本已非常庞大的数额已经猛增到了超过1200×260位元组。
此外,据研究公司IDC(国际数据公司)估计,数字内容的总量每18个月就会翻一番。而相关非结构化数据的增长使得数据处理的复杂程度又进一步提升。事实上,研究机构Gartner预计有高达80%的企业数据都是非结构化的信息数据,其中涵盖了来自传统和非传统来源的数据。
在选择是否使用内存计算时,数据类型、数据量和数据访问速度都是影响决策的因素。然而,面对内存中处理能够为企业带来的价值,上述因素估计也无法阻挡高级内存中处理解决方案到来的潮流。
要理解内存计算在实际应用中的优势,我们必须审视迄今为止的大数据处理方式并了解当前对计算能力的物理限制,而后者要取决于访问关系数据库中的数据以及处理指令和所有其他大型数据集处理所需元素的速度。
使用基于磁盘的处理意味着涉及多个数据集或算法搜索处理的复杂计算不可能实时进行。数据科学家必须要等待几个小时到几天才能获得有意义的结果,对于讲求高效的业务流程和决策而言显然不是最佳的解决方案。
如今的企业需要以更快的速度获得结果以便以更快的速度进行决策,同时它们还可以将其余工具配合使用以更好地进行信息的访问、分析、管理和共享。所有这些都可为大数据带来更多的价值。
内存计算的使用提升了分析的速度并最终带来增值,相关技术价格的下降会使这种增值更加明显。内存系统的销售范围和每美元容量在过去数年中一直在上升,存储和处理大量数据的成本也因此得到了重新定义。
在价格下降和容量增加之后,现在企业已经可以将主数据库存储在硅基的主存储器中,这带来了指数级的性能提升并使全新应用程序的开发成为可能。而物理硬盘驱动器限制处理速度的时代也将彻底结束。
在业务决策者可以实时获得信息和分析结果的情况下,人们能够以之前无法想象的方式获得新的见解并执行业务流程。内存计算在大数据集领域的应用,代表了处理BI和业务分析的IT作业模式正在发生关键性的变革。
内存计算可以创造一个业务管理的新时代,相关的管理者将能够对复杂的数据进行实时分析,并作出决策,这种方法的主要优点如下:
❑ 数据处理的多重改进提高了数据处理的速度,扩大了数据处理的容量,相对于过去,性能有了数百倍的提升。
❑ 内存计算可应付迅速扩展的信息量,提供比传统物理磁盘存储快数千倍的访问速度。
❑ 对比基于硬盘的处理方法,内存计算在具有更好的性价比(可以抵消总成本的上升)的同时还具有实时分析这一大优势。
❑ 近年来中央处理单元和存储器的成本显著降低,再结合多核和刀片架构可以在实现数据操作现代化的同时提供可测量的结果。
利用内存计算我们得以将分析过程从成组硬盘驱动器和独立CPU转移至可以实时处理所有的日常事务、更新以及分析请求的单一综合数据库,由此也得以产生包括上述几点在内的诸多优势。
内存计算技术使我们可以在服务器的主内存计算大量交易数据并通过此类交易分析实时获得结果。
由于内存计算允许直接访问内存中的数据,获得查询结果的速度要远远高于传统磁盘仓库方法。此外,更新数据库所需的时间也显著减少,同时系统还能一次处理更多的查询请求。
由于流程速度、查询质量和业务洞察力方面的巨大改进,内存数据库管理系统的性能预期要比传统上基于磁盘的模型提升10到20倍。
尽管构成内存计算的元素早已存在,但直到现在,它们才达到可以普遍使用的程度。近年来的硬件改善和软件创新使得当今的内存计算能够在几秒钟内对大量的数据进行筛选、关联和更新。主存储器、多核处理和数据管理的技术进步共同带来了性能上的大幅进步。
内存计算可以为众多领域带来显著增益,其中最重要的是成本节约、效率提升以及改善决策的可视化速度提升。
不同规模和行业的企业都可以通过内存计算带来的成本节约中受益。目前大多数公司IT预算的25%以上都被用于数据库管理。内存计算数据库所采用的硬件系统在能耗上要远优于传统的数据库管理系统,这可以大大降低硬件和维护成本。
内存计算数据库还能减轻公司的整体IT负担并释放以前需要用于响应报告要求的资源。由于作为依据的技术已经成熟,内存计算解决方案可以无中断的方式获得实现,这样相关公司可以轻松并快速地恢复运营。
任何在经营上依赖频繁数据更新的公司都能够借助内存计算技术实现高效的运转。转向内存计算使相关公司能够从其IT架构中移除系统所需的一整个技术层级并由此降低了系统的复杂性和基础设施需求。上述简化使得几乎实时的数据检索成为可能,所有业务团队的效率也将因此得以提升。
利用内存计算,任何商业用户都可以轻易地挖掘出便于各部门调用的BI子集。工作组可以在中央数据仓库承载工作量不受影响的情况下自主作业。但也许最为关键的改进在于业务用户不再需要IT支持就可以洞悉业务数据的意义。
上述性能提升还使商业用户在旅途中能够通过自己的移动设备检索更多有用的信息。随着越来越多的企业开始将移动技术融入业务,上述功能的重要性正在不断提升。
通过以上几点可以明显看出,内存计算的出现使组织不再需要局限于在数据仓库中划分的数据子集,他们能够以更为全面的方式编译其业务数据。
借助上述数据库可视性方面的改良,企业能够从事后分析(被动)转变为实时决策(主动),并在随后创建基于预测而非响应的业务模型。企业可以从一开始就将易用的分析解决方案与分析平台配合使用并由此产生更多的价值。通过上述方法,即使没有多少专业知识的公司人员也可以构建查询条目和仪表板,由此又可能创造出很多内容方面的专家,他们无需外部支持就能自主提升行动的积极性。
对企业而言,内存计算的另一优势在于这种技术能带来信息特异性的提升,由此我们可以根据客户和企业用户的个人需求对数据元素进行定制。这样具体的部门或业务线就可以自主处理具体需求,由此产生的结果可以惠及管理链的上游和下游并为客户主管、供应链管理和财务运营带来影响。
利用内存计算技术,客户团队可以从几乎任何位置(包括办公或旅行位置以及携带的移动设备)快速轻松地组合不同的数据集并用其分析客户过去和当前的业务状况。商业用户可以使用最新的信息直接与客户进行交互;在由此创建的交互场景中业务用户可以直接与数据交互。通过实时的数据获取,业务用户能够更加了解相关情况并依此来开展销售和营销活动。而销售团队也可即时访问他们需要的信息,其掌握客户情况的能力将得到全面的提升,由此可实现更为高效的上行和交叉销售,并最大限度地提高收入增长速度。
在基于磁盘的传统系统中,数据的处理通常需要在夜间进行,这可能导致企业无法及时对重要的供应警报做出反应。内存计算技术完全解决了这个问题,因为该技术使企业能够充分掌握其供应链在每一秒钟的变化。借助上述实时洞察的能力,相关企业能够及时对不断变化的业务条件做出反应。举例来说,相关企业可以创建特定产品预存量预警和其他警报并在发生问题时从容应对。
对于财务总监来说,日益增长的数据量、数据处理不够迅速、分析延后和数据响应速度慢都会带来挑战。财务总监往往只有几天而非几个月、几个季度的时间来应对这些挑战。这可能使各方面出现延迟,而在每个财季结束时,这种情况愈加明显。然而,内存计算、大容量数据分析和灵活的建模环境可以加快财政季度结束阶段的处理速度,并在更长的期限内使更多的详细财务数据透明化。
从消费产品和零售到制造业和金融服务,任何行业的企业都能借助内存计算提升运营效率。消费品公司可以使用内存计算来管理自己的供应商、跟踪和追踪产品、管理促销互动并提供支持,以更好地遵守环境保护局的标准并对有缺陷和不合格的产品进行分析。
零售公司可以同时管理多个地点的商店运营,分析销售点的情况,执行多渠道定价分析并跟踪损坏、污染和退回的产品。制造企业可以使用内存计算保证运营绩效管理,进行生产和维护分析并开展实时资产利用研究。金融服务公司可以进行对冲基金交易分析,具体包括管理客户对货币、股票、衍生工具和其他票据的风险敞口。借助通过内存计算获得的信息,上述企业可以实时管理系统风险并根据市场交易风险提交报告。
随着大数据分析的普及,内存计算将会成为很多企业在寻求竞争优势过程中的主要依靠。