大数据的来源:
就说国内BAT三家公司大数据的来源,之前阿里和腾讯(不像百度)其实是没有用户的即时定位信息的(因为这两家的地图软件其实还是没有什么人用的吧,如果有人想问卫星是不是LBS信息的来源,提前回答,其实微信如果你不开附近的人或者摇一摇的话是不会有定位权限的…即使是开了权限,大多数情况下提供的lat/lonpair也是基于cellularpositioning而不是satellitepositioning,精确度不够。)
在打车软件这里介入之后,恰好帮阿里和腾讯不上了用户模型里缺失的最后一环,在拓展了打车应用后,现在阿里和腾讯就拿到了每个用户的大量在不同时间,地点(很可能还是连续的)的地理定位(LBS)信息(更赞的一点在于这个信息其实不光是spatial,而是relatedtootherthings的)。
再考虑到阿里依靠支付宝拥有的每个用户的信用记录、购买记录、实名、shoppingaddress(准确性最高的一种信息没有之一)以及腾讯有的每个用户详尽准确的关系网……补上即时定位信息这个短板之后,这两家对用户信息掌握的程度又上了一个巨大的台阶。
结合LBS数据后的大数据有什么用:
从用户的地理信息数据里能够挖出来的信息是难以想象的,尤其是如果公司本身还拥有与该用户相关的其他大量信息的话,配合用户的地理定位信息使用效果奇佳。想象一下如果很多industry的公司拿到详细的地理信息与用户其他行为的关联的话..世界真是太可怕了麻麻我要回火星。
说的太晦涩了,举个例子来说明今后对大数据的应用:
比如假设我最后发现好多所有半夜两点钟在人民广场打车回家,平时在淘宝上给网游充值的,淘宝送货地址在外环以外合租房的屌丝如果半夜两点钟还不回家的话有极大的可能性是在吃烤串。结合大数据的recommendsystem,微信就会推送一条消息,说周边有一家烤串店很好吃,如果资料显示你有喝啤酒习惯的时候,等你吃烤串的时候再推荐一瓶某品牌的啤酒。(真的只是假设…求不吐槽..)
在谈完大数据如何获得,以及大数据如何使用后,我们再谈谈大数据是否能在合适的场景以合适的方式准确地把靠谱的数据以靠谱的方式推送给靠谱的人。
大数据会不会因为采集了一群奇葩的人的数据而导致会有bias
再拿recommendsystem来说,就好像personalizedcollaborativefiltering一样,不会因为你采集了一大坨奇葩的人的数据,就对其他人群的推荐结果产生任何影响。相反,你对于任意一个单体user(item)掌握的数据越多,那么针对该user(item)以及其nearest
neighbors的prediction的性能就会越好】然后采集到的lat-lonpair可以用各种分法来clustering/classifying(举例:可以判断用户此次打车是上班还是下班还是粗去玩...)
未来大数据的使用方法就是:
把现实事件抽象成数据,进行合理的处理之后给出结果数据,然后再把结果数据还原成为行为建议。
最后讲个故事,如果大数据应用到生活中,未来会怎么样:
你一早起来,发现快迟到了。琢磨着今天是开车呢还是挤地铁去上班比较快。听各种广播、看各种地图上的路况,你只能知道堵不堵,可是真不知道得多长时间。这时候,你拿出手机,选择目的地之后,收集上周本日,上上周本日,同时段,同路段的N辆出租车的运行时间,经过各种算法处理,给了你一个平均开车花费的时间。你一看,我去咧,开个车比地铁都慢,果断走向地铁站。你到了公司,经过一上午的辛苦working,中午想改善个伙食,周围的饭店已经吃腻,远的地方又不知道味道如何。于是你又拿出手机,看看中午时段,自己周围有多少人打车出行,都是去哪的,多少人是往返,也就是去吃饭的,他们对自己吃的这顿饭评价是几颗星……吃完了,你深感满意,于是你对这顿饭进行了评价,同时又叫了回程的出租车,两次叫车记录,加上你添加的“吃饭”标签,以及餐馆信息和评价,作为一次完整的出行,被某台服务器记录在案。下班了,哥们儿几个商量周末聚餐的事情,有关在哪里聚餐的事,愁破了头。陆家嘴?住松江的不干,徐家汇?住五角场的不干……有车的人,对于是开车还是坐地铁也都是“IFXXX”式叙述。经大家讨论,你们这一群栖息在上海各个区的家伙决定,为了大家都不跑太远,大家只好在peoplesquare铺个席子吃饭(玩笑莫喷…………)纠结之后,你又拿出手机,打开App,输入了若干人人等的手机号码,对于谁可以开车,谁只能公交也进行了标记。几秒钟之后,凝聚了工程师无数心血的算法,根据那些手机号码平常的打车记录,划定了这几个货最有可能的,家的位置,然后基于以上,列举出了若干聚餐的最佳选择,并对谁开车,谁地铁,谁打车都进行了安排。大家惊为天人,全票通过。你点击接受方案,然后针对每个人的建议行程安排,就被发送至每个人的手机,需要叫车的,也自动进行了预约。
注释:relatedtootherthings是一个cognitive的概念,其中包含的更多是人类本身对于这个地点的认知。。。比如假设在一个地图软件里,一个<x,y>点,包含了经纬度,名字(假设是“小杨烤串”)然后可能有其他一些信息,比如能不能停车啊,人均消费啊什么的。。。这都是spatial的【然后这些信息在GIS数据库上都是referencedby点或者线或者polygon】。。。。但是每一个具体的用户对于小杨烤串的信息【比如review啊,他们为什么要来小杨烤串的原因啊,喜欢点的菜啊,甚至于在小杨烤串表白被拒的记忆啊什么的。。都是relatedtootherthings的】【relatedtootherthingsData在这里有一个有趣的特性是,他们是不一定与一个特定的地理对象相连。。因为每个人对同一个概念,对应的地理对象不一定相同。就像【上海市中心】这个概念,大家对应的地理对象就不一定是同一个。