关注大数据平台所能创造的价值
2013-03-26
访问量:1287 次
大数据不是一个新词,也不是一个相对小数据的提法。从技术角度讲,是什么样的新技术能够帮我们做海量数据的挖掘和分析。
到底数据是用来做什么?IBM每年访问业界大部分的公司,其中74%都认为是用来做信息化分析和管理,大数据为他们创造了竞争优势,这一比例比2010年上升了70%,公司已经越来越意识到数据的价值所在。
传统做法中,一般通过统计和报表的方法来判断已有预测和行为是否正确。或凭业务人员的直觉和本能来判断哪些是风险点,应该如何定价等等。大数据时代对此有了颠覆。首先它对于数据挖掘和分析的要求不再局限于保险行业中的某个部门,就像互联网经济一样,和客户打交道的各个渠道,包括销售和营销,都需要有预测和分析的能力,以便更好地判断客户的走向。那么,如何将数据挖掘和分析这一利器交给业务部门呢?
在传统的解决方法和模式下,我们由业务需求来驱动一个方案的设计。业务部门往往把它的需求转化成为IT部门能够理解的语言,业务部门再通过IT部门搭建的这些数据平台、数据中心来一次次地查询和通过报表形式得到他想要的回答。IT部门再根据业务部门的反馈逐渐改善和完善方案,它是一个循环递减的过程。但是这样一个过程往往适合于一些高价值、结构化,已经固定和成形的流程。但对于前卫性探索的高度变化的数据,它的支撑往往不够。即使对很多传统的固定业务,客户通常都需要6个星期到3个月的时间来开发新需求,这一方面是因为业务IT化不够和IT业务化不够导致难以区分,同时对什么样的技术在什么样的场景下如何使用往往没有很好的把握。
在大数据时代的分析、挖掘与传统做法完全不同。而传统的方法下,我们要求高质量的数据,在数据平台中通过建模的方法来找出它相应的特征。但是在大数据时代,往往做的是沙里淘金的工作,对大量从各种渠道得来的数据进行探索性分析。这个探索性分析,是通过数据本身体现的一些特性来判断。在这种情况下,数据挖掘和分析变得非常复杂,但同时,它的性价比也在不断递增。
从数据挖掘和分析的角度讲,一般按复杂度可以分成几个层面。传统上我们做得比较好的是描述性的挖掘,甚至不能叫做分析,因为它仅仅是描述性的,对既有事实做一些统计分析的标准报表。随着对数据理解的加深和预测能力的加深,我们往往能够做得更多的是预测性分析。如,这个客户在什么情况下可能流失,如果他流失的话我们采用什么样的对策,这个客户是对客户服务更为敏感还是对价格更为敏感。这样的一些分析我们要通过预测类分析才能回答。在预测类分析之上还有命名型分析,命名型分析源自于一个哲学上的命题,它要回答的不是做了些什么,而是应该做什么,从企业治理的角度,就是应该如何部署资源,才能使商业价值最大化。这样的一些分析往往需要有全局的观念来做大量的分析和海量数据的基础。所以,我们可以看到现在还是处在非常基础的一个描述性分析的阶段,随着技术的发展和业务部门往互联网经济过渡的需求下,分析的深度和广度也会远远增加。
大数据,在IBM的定义下包括数据的种类、速度、价值(粘度)和确定性。这里重点提一个数据的速度。数据的速度有两层含义,第一层是现在各个公司的IT系统中,数据获取的速度越来越快,这是数据采集和进来的速度。同时,我们往往做的是离线的分析,当数据生成后,过一段时间放入数据仓库,通过二次平台,再来做加工和分析。在大数据时代,新的流计算技术,可以让我们做时时在线分析。这种在线分析对金融行业的影响是非常深远的。比如我们和很多银行和金融保险公司正在摸索的如何在线做理赔欺诈和金融欺诈的分析,这往往能够给业务部门创造极大价值的。
在去年调查中发现,在4家企业中至少有3家都在开展与大数据相关的项目,起码4家里有一家大数据项目已经在上线和试运行中。在过去6个月中,我们也走访了很多国内的金融机构、银行和保险公司,很多公司都在开展大数据的探讨。很多客户和我们讨论,数据到底在我们公司应该做什么?这个问题我们很愿意和大家分享。这时候如果大数据是从信息部门和IT科技部门而起的,很多人问大数据能否替代传统的数据仓库?大数据能否给我们构建一个像淘宝那样的历史数据云?我们认为,在现在的技术情况下暂时做不到,但是技术的发展是日新月异的,将来这些一定是方向。但是对于传统的企业,大数据还将是信息架构中的一个非常重要的组成部分。但是它和我们已有的传统数据架构不是一个替代关系,而是一个相辅相成的关系。这里面的一个非常关键的词就是信息整合。
因此,我们现在不是要创造另外一个信息孤岛,而是要把分散在各个地方、平时不能采集到的数据和现在已有的业务系统或者是数据平台当中的数据加以整合,然后挖掘出它的价值所在。
IBM大数据平台涵盖了很多的部分。这个大数据平台不像很多科技部门同事认为的那样仅仅包含Hadoop这一个组成元素,其实在Hadoop上我们还有很多互联网技术的分析和流计算的分析,以及相应用户环境及与现有IT系统集成的组件。如果仅仅从Hadoop技术角度来看,在很多开源的Hadoop组件上,IBM又加入了很多我们自己开发的组件,这些组件可以更好的帮助我们从运维角度、从数据分析和挖掘、从探索的角度给我们提供相应友好的一些界面。
对于各种数据平台来讲,流数据、大数据、数据仓库的数据处理,它们各自处理的数据量和时效性要求不同。也就是说,它们之间既有重复的交叉,同时也有各自不同的定位。这三种数据分析的平台其实是相辅相成的关系。在现在的情况下,他们各自可以分析的内容、分析的场景、利用的价值互相是一种补充。以理赔欺诈为例,如果积累了大量的理赔和承保历史数据的话,我们可以在Hadoop的基础上的这样一个大数据平台上进行深度的挖掘和分析,找到一个标的的风险点,或者是理赔欺诈的一些固定模式。但因为这些模式不断在变化,所以,如果在传统的数据仓库环境下做这样一种模式判别,会是非常困难的一种方法。
在大数据平台时,会有很好的类似的技术辅助来帮我们做数据挖掘。这样一些离线分析的结果能够反过来运用在的流式数据分析上,一个理赔案在处理过程中就可以根据识别出来的模式,来判断该案风险有多大,是否应该有一个特殊的处理。所以,这三种数据平台是相辅相成而不是替代的关系。
根据我们去年调研的结果,55%的客户做大数据都是从客户分析开始的,很多客户是从网上的舆情分析或者微博来看客户对新产品的反馈,来调整它的产品策略,以判断一个客户的行为。所以,也许从客户的角度出发,不管是判断客户流失率,还是判断一个客户在网销的过程中留下的痕迹是否有商机,这些往往是一个大数据能够发挥所长的最主要的业务应用。
大数据和互联网技术的共同特点是,它的基础设施一定是可延展和扩展的。对于大数据来讲,因为今天处理的数据可能是100T到几百T,明天处理的数据可能是上千TB的数据,所以它对信息基础的要求是可扩展的过程。
最初的数据探索是否能够集中在现有的新的内部数据源中挖掘有价值的信息?IT部门经过十多年的建设已经积累了大量丰富的数据,但是这些数据往往在各个后台零散存在着,而没有发挥它应有的价值。很多时候业务部门讲到他们花大量的时间在取数,而不能做他们擅长的数据挖掘;对于信息科技部门的困扰又是这些数据质量不可控,数据质量相对比较低,所以我们往往分析不出它的应有结果。由于大数据平台和数据仓库最大的不同在于它没有初步判别的要求,即在数据建模的过程中,不是先对数据采样和抽取,数据以它的原有形态呈现一种数据的特征,所以我们可以从内部来着手看看能挖掘出什么样的有价值的信息。
大数据的行业趋势是一定要创造更多的业务价值,我们一定要从业务的问题出发找到大数据的实际应用,而不要从纯技术的角度出发来考量大数据究竟应该做什么。
举三个例子。
美国的某家保险公司用大数据来帮助它更好的挖掘客户。它现在能够用很多更广泛的外部资源,包括社交媒体、合作伙伴等互相之间的数据库来弥补内部和外部的一些观点,360度的来看一个客户究竟对什么样的保险产品有需求。二是它把零散的分布在各个地方的信息数据加以提炼和整合,用大数据的挖掘能力,来告诉我们每个客户完整的信息究竟是什么。我记得有一次某家保险公司的客户流失团队给我讲,往往等到信息科技部门把可能流失的客户名单给他们的时候,客户已经都流失过了。所以,怎样能够更好地提高我们的预测分析能力,并且高效地给到客户服务团队,这也是大数据中要攻克的一个课题。
另外一个简单的例子是Santam Insurance公司,它用预测分析来更好的做理赔欺诈和赔案处理。原来我们可能要人工判别赔案和赔案之间的关系,来判断哪些模式是相应的风险因子,现在可以借助大数据的平台来找出风险因子。找出风险因子后赔案就可以按照高风险和低风险来采用不同的理赔流程,不同的流程。不同的流程帮助这家公司提高了理赔效率,缩短了理赔时间并能及时止损。
第三个例子是一家保险公司用分析技术来提高客户的满意度和员工生产率。在网销过程中,怎样判断一个客户的行为和倾向性?在判断的时候,我们和很多网销部门讨论的是,客户在网上留下的痕迹哪些真正可以转化为销售机会。在过去,我们往往没有这样的能力来分析半结构化或非结构化的数据,但是在现在的大数据平台下,这些都已经成为可能。
最后我们有一些建议。
1.在过去的6到9个月,在跟不同的金融行业客户探讨的过程中,建议大家更多的关注于真正的业务问题,而不是仅仅去做技术上的尝试。因为技术的尝试没有一个业务的目的或者业务价值驱动,它其实是一个纯粹技术上的非常失败的高风险的尝试。
2.大家在做大数据平台规划时,要充分考虑它和现有的数据架构间的关系。
3.技能是非常关键的词,技术部门也好,业务部门也好,如何提高数据挖掘和分析的能力也是迫在眉睫的。
4.虽然我们不断在讲大数据,其实大数据平台技术本身还在探索阶段,所以不要过热地追求大数据。不要太追求这个技术本身,而是要更加关注这个技术应用的场景,它到底可以做什么,它将来可以逐步地为现有信息化建设提供什么样的智能手段。
(文章系作者在中国第七届保险业管理信息化高峰论坛上的演讲。文字根据速记整理,未经本人审定。)