面对高度互联、数据化全面覆盖的时代,我们正在见证电子商务、移动互联网、互联网金融等多领域因数据而发生着的巨变。以控制为出发点的it时代正在走向激活生产力为目的的dt(datatechnology)数据时代。这不仅仅是技术的升级,更是思想意识的巨大变革。2014年3月7日,在杭州西子湖畔,阿里巴巴联合全球顶尖数据专家,共同探讨了数据与商业的融合,探讨未来数据世界的可能性。除主会场外,大会设置“大数据背景下企业商业智能实战”,“大数据与经济”,“基于导购的大数据应用”,“大数据时代移动互联网的创新实践”,“大数据下的互联网金融风控管理”五大分论坛。linkedin数据分析部资深总监张溪梦带来的分享是“大数据分析规模化与产品化的演变与战略”,以下为演讲实录:
大家好,很高兴见到大家,在今天的一个特殊场合,我非常感谢阿里巴巴品觉能邀请我来,跟那么多资深的专业人士见面,我在linkedin待了四年,谈不上分享,只是一些跟大家交流一下自己的思想。
今天讲的东西,说的是这句话,庙算多者胜是我把孙子兵法退一步讲,孙子兵法讲的是当做一件事之前必须要做分析,分析多的人胜的几率就大。今天大数据给我们的一个平台,不但让我们做多种分析,还要做大规模的分析,争取把张良、管仲、子牙,还有诸葛亮做到每一个人的旁边去,这就是我们今天今天大数据分析一个基本的使命。
基本介绍一下,我叫simonzhang,大约在linkedi工作了4年,以前我是易倍也工作了3年,在做产品分析。之前最早的是12年之前是一个医生,然后做了两年手术。我觉得非常不好意思,实际上我非常不喜欢做医生,所以就彻底离开了,因为脑子太笨跟不上那个速度。
去美国的原因主要是当时因为我特别喜欢电脑喜欢打游戏,后来慢慢喜欢电脑,喜欢电脑以后慢慢接触互联网,互联网听到很多时尚时髦的东西,包括电子商务,我想我能不能也去学学电子商务做电子商务,这是我最早出国的动机。
linkedin数据分析部资深总监张溪梦
说数据之前先讲讲linkedin,现在在座各位有多少在linkedin上面使用的。大约20%,对不起linkedin,我们需要我们能100%让大家举起手来。到现在为止linkedin有2.7亿的用户,400万的公司,大约90%左右的top100前的企业在应用linkedin的服务,很多人都问我linkedin的社交网络挺虚的,没想到做到今天,怎么回事?
讲一讲linkedin的商业模式,linkedin的原则的商业战略和商业模型,就是建立在这么简单的环上面,只有三个环节。第一个用户的增长以及用户的体验,还有用户大量的使用linkedin。第二步用户的增长和体验增加了很多的后台的数据和前台的数据。第三步linkedin作为一个公司,从这些新的数据里面产生了更多的解决方案,产品,更好的客户体验,这些客户体验产品和解决方案,再一步推动了商业的增长,用户的体验,用户的增加,进一步产生了更新的数据。您看他那个模型,数据实际上是整个linkedin商业环境必不可少的组成部分,它不只是一个虚的一个时尚的名词,而是变成整个企业的产品线。我觉得我非常幸运能加入linkedin这个公司,比如说我们的ceo他每天起来很早,首先要看整个公司的运营情况,如果那个报表如果我要看的话可能需要看15分钟左右,因为信息量很大。他的工作就是一分钟之内,就能从非常复杂的一个报告里面找到12345这些地方有问题,赶快发到产品经理、市场推广、销售人员那里,去问为什么会发生这件事,为什么我们增加了为什么我们减少了,为什么这和我的期待不太一致,下面是工作是推到下面一个程序。同时在我们公司内部,所有的销售人员,市场推广人员,产品经理,开发人员,以及客服人员,他们都有大规模的数据来辅助他们做更好的工作。
讲一下linkedin赚钱的业务,我的组织在过去的三年里面,从我一个人增加到今天大约有70个人左右,在linkedin有四个赚钱业务,第一个是人力解决方案,在linkedin可能会受到linkedin的邀请,邀请你加入一个很好的公司。有些专业人士在寻找工作,特别是在欧美美国linkedin会给他们发送非常相关的工作,能让他们在职业发展上做得非常成功,这是第一个解决方案。第二个是市场解决方案,普通的讲是广告,但是linkedin在广告上不同于谷歌、雅虎这些大型的互联网公司,我们讲的是精准营销的概念,因为在linkedin上面,很多人他并有非常非常多的使用,假设我举一个例子,比尔盖茨作为微软董事长他非常忙,他没有时间在linkedin上每天2小时,他可能只会在一个星期内看一次,这只是我举一个例子,但是他看的这一次,如果那个推广广告把这个变现的话,这个价值不是10元、100元、1000元可以衡量的。第三个服务叫销售解决方案,实际上这个产品是在过去两年之内通过我们内部的分析的产品,衍生出来的一块新的业务,这块业务实际上很简单,就是帮助全世界所有的做销售的人员变得更加有效率和更成功,在今天演讲的结尾我会跟大家分享一下我们到底是怎么做到这一点的,很容易理解。第四个业务是linkedin的b2c的业务,现在linkedin上有大量的求职者,销售人员,市场推广人员,各种不同的职业人士,linkedin在上面提供了很多这种非企业级的付费服务,能帮他们达成在工作上更有效率的目标,让他们比如说销售更多的产品,做更好的融资,或者是招聘更有价值的人,这是四个解决方案。
下面我们就来谈一谈数据分析,很多人说simonzhang你要去讲大数据,我觉得大数据本身没有任何意义,数据对我们来说就是硬盘存在电脑里面,越大硬盘越多成本越高耗电量越狠。数据本身之后必须要讲一下分析。什么是分析?其实分析已经被定义了,至少在中国历史上已经几千年了,我引用了一段乐事民讲的一段话,他说人以铜为镜可以正衣冠,以古为镜可以知兴替,以人为镜可以知得失,这就是分析的绝的第一步,也就是用历史来预测未来。我们可以分成几个步骤的话有五个步骤:第一步是必须要理解以前发生的这件事,历史上发生过什么事?第二步明白历史上为什么会发生这件事。第三步目前当下正在发生的什么事。第四步未来预测将要发生什么事情?讲到这里的话,都能预测了非常厉害了。实际上对商业价值的产出来说,第一步到第四步基本的商业价值是零,我预测simonzhang今天早上会吃饭,明天早上坐飞机回美国,这个根本没有问题,因为simonzhang今天晚上肯定会吃饭,美国肯定要回美国,这个根本没有问题,没有任何价值。而是要把未来变得更好,这才是分析本身产生价值最重要的一环。其次一个,您发现到第一到第五步之间复杂程度增加了,好的分析师能改变未来,一般的分析师能改变现在,差一点的分析师连历史都不知道。
再下一步,数据的量。很多人都讲大数据真大,越大越有价值,实际上数据在过去的几年增长了不同的阶段,我在这里划分了一下和linkedin相关的数据,这不是代表产业的发展方向。第一步就是交易数据,以往大家都用兆字节来表示来展示。第二步crm,在美国企业里面讲营销、销售,一个人到底是谁,他在哪里住,大约月收入多少钱,在什么公司,这些数据我们叫gb来衡量。再下一步就是网络数据,电子商务的网站,淘宝或者阿里是完全不同的级了,普通的互联网公司,数量级是tb来衡量。第四步就是社交网络数据,推特、脸谱为首的这些社交网络数据,他们产生的数据更大了。大家知道社交数据里面最重要的是关联,品觉能不能认识simonzhang,simonzhang认不认识孙权。假设有关一个真正的全体我完全不认识你们,我只知道我自己是搞分析的,但是我的社交网络的关系,假设我认识在座的30%的人,我完全不知道大家怎么使用linkedin的,我也完全不知道您在哪个地域工作,也不知道你的专业背景,那么我用大数据的基本信息来推敲在座的背景使用度还有职业发展的位置?我觉得我可能能猜出10%—15%之间,就是只依靠社交网络和我一个人的背景,这就是网络数据有一个爆炸性的质量和价值增加的过程。再刚才讲的大,大就是慢,就是复杂,就是成本提高,就是没有效率。中国的孙子兵法讲到兵在精不在多,数据再大没有意义也是没有完全没有价值的,所以我们要把大数据做成小数据。
回到下面的一个就是速度,讲分析我们要讲到速度,为什么要讲速度呢?刚才品觉已经跟大家分享了,在数据本身我们讲3v,本来来说就是速度的体现,我讲的速度不是数据存储的速度,而是商业需求的速度,商业需求速度在今天互联网出现以后变成了100亿倍的增长,以前的话比如说像姜子牙做决策的话可能得思考一年,姜子牙思考了70年最后遇到了周文王,现在不一样,现在每个人需要作出非常非常迅速的决策,非常多的决策,每个人都需要决策,这就要求我们在速度上要跟上商业的发展。所以说,兵法里面也讲了一句话,兵贵胜不贵久,就是越慢越没有价值,越快越有价值。我们公司最早的时候用的是最慢的一套br,5分钟、2小时、一天,甚至彻底死机了这个档次。两年半以前我们改变了这种思路,做了一套系统,响应时间是在5秒之内的,我们发现用户的使用度从以前的每天平均10个人,增加到现在每年1000个人,这是100倍的增加,因为销售人员就说我需要一个东西不需要等,所以说速度是做大数据成败的一个关健因素。
咱们再往下跳一下,数据的多样性。多样性在linkedin本身来说,举一个例子,我们行为的例子,点击率,看了看这个页面,喜欢不喜欢。然后职业背景,这个人在哪里工作,哪个公司,基本的职位是什么,从哪个公司来得,职业背景大概是什么样子,这些就是叫职业背景数据。第三个是社交关系网的数据,喜欢什么人,喜欢什么人发表的文章,他在追踪某个人。第四块专业内容数据,每天在linkedin发表了大量的文章,谁看了什么样的文章,他推荐给别人什么样的文章,他自己喜欢读哪一种的消息,同时他点了哪种内容的广告。这四种东西混合在一起的时候大家就发现有非常结构化的,比如说几点做了什么事。有非常非结构化的,比如说内容本身或者简历本身就是一个纯文本文件。其中还有半结构化的,大家看看简历是完全没有结构的吗?我相信大家完全有结构的,公司第一个第二个第三个,教育第一个第二个第三个,时间什么时候去的什么时候走的这种半结构化的简历。这是非常复杂的,如何从复杂中抽出精华来,是我们做大数据的人必须要做到的事。
我可能说得比较快,因为大家时间上我希望能尽量缩短我的表达。
再讲一下传统的数据分析的金字塔结构。这个东西是以前大约我在4—5年以前,我看到的一个管理咨询公司发布的报告,传统的数据分析分成五个不同的层次:第一个是数据与数据质量的管理和整合。比如说这个里面包括所有的传统的数据的采集、搜集、汇总、存储、计算,在硬件结构上的一个层面。第二个层面一般的来说像br,包括基本上就是做报表了,有很多公司。再往下走叫专门的分析,这块部分基本上就是大家分析师用基本的数据来回答问题,帮助不同的部门做一些简单或者快速的决策,比如产品经理问我这个配置我红的纽好还是蓝的纽好,然后销售人员说你知道阿里巴巴去年雇了多少人嘛,我想跟他们谈谈推广的服务。然后市场人员问我,美国的人口有多少人是在ceo级别的,有多少人在经理级别的,这种问题层出不穷,五花八门,很多分析师在做这个工作。再往上面我们叫深度分析,基本市场上分成三大不同的流派,第一个管理咨询,战略分析,他对业务本身有很深刻的影响和预见性,他需要数据来拟合他要准备建立的这个故事,帮助公司做长远的园景计划。第二个流派我讲的叫统计流派,比如说传统的银行,保险,零售,这些公司在过去的几十年已经积累了非常非常深厚的经验,就是用统计的模型来找到非常相关的客户,发给他们正确的营销的不同的信息。还有减低风险,贷款的额度。第三个流派是最近这几年出现的,机器学习,他不是传统流派的统计法,他是大规模的机器学习,再加上开发,对传统的数据进行开发和分析。比如说linkedin做了你可能认识人,他不是用简单的模型,而是一种社交网络的,这是传统以前不曾出现的。说完了三个基本流派之后,在往上走,商业洞察。这个环节基本就是我们辅助各种不同的部门来做决策。
我想大致讲一下为什么传统的金字塔不工作。首先这个金字塔完全是一个不全面的,他是断裂的。首先金字塔下面很多没有涵盖,上面也缺失了很多重要的环节。第二个问题是一般的来说,上面分析是分析师这些人在做的,基本上就变成了中国非常有趣的例子,小时候我看故事会,大约30年以前了,有一个打仗的一个元帅被敌人的箭涉胳膊上了,然后就说不行了,医生我快死了,医生快救我了,医生说什么伤啊,然后医生说我帮你,拿把剪子就拿来了,我是外科医生把外面的箭剪掉了,然后外面的事解决掉了,里面的事你找内科了。基本分层的结构就是大家我把我的事做完了传递给下一家,这样就存在很大的问题。第二个问题是这个金字塔结果下面会花很多很多的时间,大约会要占用我们95%的时间,这是我们以前在linkedin做的内部调查,问所有的数据分析师和数据科学家,他们花多少时间在金字塔?回答85到90%是在下面,只有5%到10%的时间在上面。最后一个金字塔的问题,因为他那么慢那么复杂那么混乱,导致了只有极少数的人才会有数据帮他们做决策。
回到咱们大数据的这个里面,后面是个大冰川,实际上这就是大部分人认为非常时尚的大数据,这个大冰川大家注意一下,有海平面上面的普通人一般能看见的,下面是专业人士能看见的。linkedin我们内部大约有起码20种不同的数据库,就是完全不同的技术的数据库,还不包括同样一种数据库有不同的应用,25种以上。然后呢,上面的比如说商业的这些人士,比如做产品的,做市场的这些人,他们看到的是什么呢?这个太慢了,给我发过来的一张报表基本就是没有任何意义,我跟simonzhang约好东西三个礼拜还没有回答我,他们看到的是冰川上面的东西,实际上真正的我们的内部企业用户,包括linkedin的本身的这些客户,他们需要的不是一个大冰川,他们需要的最后是冰激淋,就想把结果出来就行,他不需要大冰川。
怎么能做到这个冰淇淋呢?咱们讲讲数据分析的变革。基本大数据分析的三个原则,这个基本的原则是我大约加入linkedin9个月以后我们决定下来的,我们如果要做一件最重要的事的话,那个事需要有三个属性:第一个简单,他出来的结果必须要非常非常简单,没有任何花哨的东西,任何人都能够看明白看懂。第二个迅速,就是刚才说的速度的问题,越慢结束度越低,越快接受度越高。当然在linkedin使用的是蓝图法则,3秒钟的法则。第三就是要规模化,规模化各这的角度来说,我们当时思考的方法是这样的,希望linkedin内部所有的员工每一个人都能够用数据来分析帮他们做决策,很快的做决策。
咱们来讲一讲,咱们现在回到刚才金字塔里面,咱们继续说该怎么做到这一点:第一步我们需要打一个真正的金字塔出来,我很快的来跳一下。首先一个作为分析师本身来说,他不应该从数据开始,作为分析师本身来说,他必须要从客户开始,必须要从产品开始,必须要从市场开始,必须要从销售开始。也就是说明白他们怎么能做到这件事。第二步他必须要明白如何在这种产品面,标记未来的事物,标记比数据本身重要得多。也就是说分析师本身要分析自己以后要分析什么,这样才能把正确标记加到数据库里面去。第三步他必须要明白,数据库之间的公用,流程,每种数据是怎么分工的。下面就干活了,传统分析师都可以干这个。在linkedin有一个不成文的共识,你做的东西不仅仅是有趣是不够的,必须要注重执行性。有趣是没有意义的,必须要注意到执行性,我分析到这个结果以后到底能做什么,这是很重要的。说完了做以后咱们就走到决策,决策本身一定要传达增加商业的价值,或者必须要为客户增加价值,为商业增加价值,为我们团队增加价值。第一步的话金字塔建立。
第二阶段金字塔刚才说了是一个漫长的过程,但是我们必须要一步一步的建立。第二步是规模化的一个过程,就是金字塔这个东西好多人想做什么呢?金字塔底下全都不管,直接跳到上面去,从上面再往下便来走,因为这样来说好象他做了更重要的事情,把草都扔掉了,把金子抓过来,实际上这是不可能的,我们必须在金字塔每个环节一个步骤也不应该遗漏的把它变成菱形,这个过程就是需要用科技来把金字塔变成一个非常小的底,而大的中心,最小的一个尖的一个过程。举个例子,linkedin我待的九个月之内和另外一个同事合作,完成了500个不同的需求项目和模型,当时的问题是我们在一年之内被评为优秀员工了,两哥们天天工作不睡觉了,但是最后结果是我们当年直接支持两百个人,如果大家做一个数学的话,500÷200,每年我才回答2.5个问题,这不是数据驱动,绝对是非数据驱动。后来我们决定是把整个做一个系统,来模拟以前我们两做的大部分工作,这个系统响应3秒钟,简单的规模化了,大概花了三个月,五个人,在内部支持销售的,在今天为止每天这个系统可以服务1000个销售员工,大约用这个系统十次,用一次大约时间是3秒到一分钟,你我想想我们两个人得需要做一年的东西,现在这个系统一天就能做到以前我们两个人做不到的事情,这就是一个规模化的结果。当年的话出来结果是我们销售增长了175个百分点。
再说下一步,产品化。内部的东西大致做到ok了,但是下一步的话应该怎么做?这个问题是一个经常有人会问的问题,把内部积累的这些实践、经验和产品和规模化的东西,要做到网站上去,要进来大量自然的用户、企业的用户,比如说我们以前做了销售的分析系统,在去年我们linkedin已经开始了一个新的业务,就是用数据帮助全世界所有的销售人员变得更成功更有效率。
第四阶段没有结束,一个产品不代表全世界。我们要不断的开发新的数据产品,这是一个非常痛苦和挑战的过程,我们又发现了一个非常意思的方面,这是在最近的一年才发现的,当我们做第一发现了以后,做第二个就非常容易了,然后第二个产品会利用第一个产品的结果,第三个又用第二个结果,结果造成了数据产品内部的网络化、矩阵化,最后人与人之间的交流化、互动化、合作化,这一步就是下一步我们准备要做的,就是把所有的产品关联起来,让他互相为互相提供价值。实际上这都是建立在一个平台上面的,数据是一致的,产品是多样性的,服务的人员他既是同一个人又是一个同样一个人不同的面,我做一个人来讲,我昨天跟程杰还有品觉还有皮特我们在聊天,一个人有很多的面,作为一个父亲来说需要为我的孩子花钱上学,我作为上班族来说我需要买汽车上班,所以人的需求是不同的,做同样的产品挖掘不同的数据。
最后一个我们如何用linkedin企业的数据做到了帮助销售人员提升业绩,销售人员需要做的事情很简单,就一件事,为公司增加销售额,为自己挣更多的钱,就那么简单,就一件事。怎么能做到呢?首先销售员问的是同一个问题,全世界据linkedin内部分析和外部第三方分析,大约有3亿家公司,我相信这个数据绝对小于淘宝的数据。他们问的第一个问题,我到底要向哪个企业来销售,他大约对我们企业来说值多少钱?第二个问题在公司里面的话,企业都很大,因为linkedin大致在做b2b,我到底要把这个东西很谁交流,卖给谁?谷歌3万人员工,不可能给他们每个人打电话,必须找到相关的人。第三步怎么接洽,我给他直接打电话吗?直接发邮件?直接查电话号码本找到名字给他打电话?绝对不行,必须要找到关系,能够把销售员接受给他。第四步派哪个销售人员去,因为linkedin内部一千个员工,外面比如说好几百万公司,谁去哪个公司,这是里面有很大学问的,不是每个人的社交网络和关系都和每个公司是对等的,有的人熟悉it,有的人熟悉医疗,有的人熟悉保险,所以需要通过内部数据来分析哪个人适合哪个公司。最后linkedin需要讲一个公司,比如说我要去谷歌,谷歌对linkedin假设两千万美金,然后到了里面需要找他们的hr,然后我的关系张三李四认识他,李四跟他关系最强,然后通过我的朋友李四介绍我接洽,第四步销售人员我们派simonzhang去而不是要派皮特去,整个故事是动态的,是灵活的,而不是一大堆报表、文本文件,网页的链接。但是这一步做完了以后我们还没有结束,真正的是时间是世界上最重要的变量,也就是昨天品觉讲的天的问题,天地人天就是时间,昨天茅塞顿开啊。我们在正确的时间把相关的信息推给正确的人,让他去做正确的事,在这里我需要举一个例子,在公司里面企业之间有很多决策人,一般的销售员工需要把这个决策人搞定了就能有业务,但是这个决策人不会在那个位置上做一辈子的,他是会离开、转岗、提拔的时候,那么我们在linkedin里面做一个分析,立刻通知这个销售员工,那边的hr也许会换工作了,现在你有两个问题需要解决,第一个下一个人过来是非常危险的,可能这个业务就没有了;第二个问题他去下一个公司的话,可能是我们更大的业务,赶快去接洽吧。所以说给大家举这个例子就是整个的数据分析,实际上是一个结果导向的。
以前simonzhang一年才能支持500个员工,第二步我们内部支持4000个员工,现在我们第三步发展,让这个数据能够支持整个linkedin的接近2.8亿的用户,这就是我们在linkedin做的基本的事情。谢谢大家!