众调网
发起问卷
众调网

首页 >  用户画像数据建模方法 > 基于大数据技术的手机用户画像与征信研究

基于大数据技术的手机用户画像与征信研究

  作者

基于大数据技术的手机用户画像与征信研究

引言

随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临。用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措。用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签的累积;另一方面,在运营商涉足的消费金融领域,对手机用户所进行的个人信用评价,是对手机用户画像中的诸多特征实施再组合与分类的应用过程。

◆◆◆

1.手机用户画像与隐私保护

所谓用户画像,是指单个用户所有信息标签的集合,即通过收集与分析用户的人口属性、社会交往、行为偏好等主要信息,将用户所有的标签综合起来,勾勒出该用户的整体特征与轮廓。在互联网经济条件下,满足消费者个性化需求成为运营商差异化竞争的主要手段,用户画像可以较为精准地发现客户类型,成为电信运营商避免管道化风险,实现“数据驱动业务与运营”的重要助力。

用户画像是个形象的比喻。在大数据技术的帮助下,我们可以了解手机用户的更多信息,但由于实施成本和隐私保护的限制,这个画像其实不是全息的“照相”或“录像”,是按需设计的,不可能无限细化,即用户“画像”不考虑成本与需求而具有超高“像素”是不现实的。一般而言,用户画像与客户分类密切相关。在大数据分析中对客户群进行分类,如聚类分析、判断逻辑分析等,可以按特征将用户划分为不同的类别;这些多维角度的客户分类,形成了一系列不同的属性标签。对于单个客户,正是这些分类范围的相互交集,即是单个客户身上的众多标签的累积,使得客户形象逐渐丰满,依稀呈现。同时,众多特征的迭加也可视同从量变到质变的“涌突”现象,在标签信息的基础上,可以再从各项特征中重新按需组合,形成相对完整的“大属性”标签,实施进一步的分类。从这个角度来看,手机用户的个人信用评价,也是个手机用户画像中的诸多特征再组合分类的应用过程。

就电信运营商而言,应本着风险防范原则,首先加强系统安全的日常管控与监查,具体包括:流程规划、权限分级、下载监控、合规巡检等内容(见表1)。其次,利用大数据技术做好威胁情报与安全数据的解析工作。近年来,随着网络安全攻防技术的不断演化,出现了依托社会工程学等方法的APT(AdvancedPersistentThreat,高级持续威胁)方式,APT不单针对用户信息,而是出于特定目标长期地威胁整个网络系统的安全。APT的出现,促使电信运营商的数据安全理念从以漏洞为中心的实时防御,发展到以威胁情报为中心的安全解析管理。安全解析管理要利用大数据技术,着重分析挖掘业务系统中:①业务流程类数据:包括企业组织结构、业务环节构成、业务链关联、员工层级与分工权责、出勤在岗记录等,这些数据往往难以从机器中直接获取,且有助于对潜在威胁点的搜索与定位;②网络数据:包括FPC(fullpacketcapture)PSTR(Packet),会话或flow数据;③设备、主机及应用的日志:包括WEB代理日志、路由器、防火墙日志、VPN日志、windows安全及系统日志等;④报警数据:即检测工具发现异常而发出的通知等。通过全面的数据解析,可以及时发现入侵迹象,力争在攻击者完成使命前成功地阻止其活动并完成溯源。当然,前面提及的日常实时防御仍是安全管理的基础,构成了安全防守的纵深,否则后面的安全解析也无从谈起。

最后,出于保护个人数据隐私的目的,做好数据脱敏工作。数据脱敏主要对应于数据分析应用与发布的环节,目前主要技术有:水印、泛化、加密、失真、归并等。其中,水印是指对局部信息的掩遮;失真是指采用添加噪声等方法对原始数据进行扰动处置,但还要保持原有的数据统计方面的性质不变;加密是应用密码技术对数据进行封装,这种方法保护效果最好但开销较大;泛化是对数据进行更概括、更抽象的描述,如对于年龄18岁,可以泛化为年龄取值区间为[14,25];归并则是将量化的数值指标按一定的标准进行分类,形成属性指标参数,如价值5000元以上手机型号,被划分为高档手机类,记为参数1,归并方法兼顾了失真与泛化的要求,在用户画像中常被使用。

表1:电信运营商数据安全与隐私保护

安全保护项目

主要内容

隐私保护

水印、加密、失真、泛化、归并等

基于威胁情报的安全防御

全方位安全监测、与安全相关的数据收集与分析(包括业务流程数据、网络数据、设备与应用日志、报警通知等)

基于漏洞的日常管控与监查

防火墙、查杀病毒木马、流程规划、权限分级、下载监控、高危操作复核、合规巡检、安全审计等

当前,许多与民众生活息息相关的部门如公安户籍管理、社会保障、住房公积金管理等,都涉及到为数从多的个人家庭住址、社会关系、职业经历、个人收入等敏感信息,成为黑客们首选的攻击目标;但这些部门并没有因噎废食,在不断完善个人信息安全与隐私保护技术的前提下,充分利用大数据技术广泛开展综合业务为民服务。应该说,其它部门能够做到的,电信运营商也有能力做到。

◆◆◆

2.主要技术来源与技术框架

2.1主要数据来源

手机用户画像的数据可以分为四大类:人口属性数据、社交网络数据、行为偏好数据和其他方面数据。

2.1.1人口属性数据

人口属性数据是指手机用户的姓名、年龄、性别、手机类型、手机用户唯一标识、订购套餐类型等基本信息,以及由此延伸的手机用户的实际话费、手机号码注册地、身份证居住地址等。2015年9月1日起手机卡实名登记制实施,原有的“临时账户”、“集团卡”、“代办卡”,以及手机卡登记信息不完整、机主姓名与实际持用者信息不匹配的现象将被制止,这部分的信息将成为手机用户画像的重要基础数据。

2.1.2社交网络数据

手机是人们交往的重要通讯工具,从手机用户的主被叫通讯记录中可以描绘出该用户的社会交往网络。社交网络的研究分为两种形态,第一种是以某个人为核心点,重点探讨研究其他各节点和核心点的连接互动关系以及连接强度,称为“自我中心网络(ego-centricnetworks)”。第二种形态是以整体网络为核心,在特定范围内所有成员所构成的关系网络,称之为“社会中心网络”(socio-centricnetworks),研究重点在于网络结构以及信息如何在网络内部扩散。社交网络技术方法有静态和动态交互法,通用研究工具有Ucinet、Pajek、Nwb、Nodexl和Gephi等软件。

手机用户画像的社交网络主要研究的是第一种形态网络,即以个人为中心的社交网络。可以根据是否一段时期有主被叫、通话时间长短、通话发生的时间等因素来标注社会交往的连接紧密程度以及关系的稳定性。例如,有人认为通话记录中,主叫较多的手机用户可能处于相对的支配地位,但仅凭某单项指标则容易发生误判,主叫多的可能是从事物流业的快递员;而被叫较多的手机用户,也有可能是导游或会议组织的服务人员。所以,有必要综合考虑其它因素,如一段时期内的双向通话的时长等。另一方面,根据“物以类聚,人以群分”的思路,手机用户的社交网络中有紧密连接关系的群体的一些相关信息,如ARPU值、手机型号的整体价格水平等也可以间接反映该用户所处的社会环境与地位。另外,社交网络也可以缓解信息不对称问题,对手机用户行为产生“声誉约束”的影响。

2.1.3行为偏好数据

手机用户的上网行为可以有两种方式获取。一是通过电信运营商自身经营的网站日志进行挖掘。如中国电信的“号码百事通”网站上有旅游、团购、演出、购物、民生信息查询,以及水电、有线费支付等模块,手机用户登录该网站浏览及进行购物消费,其行为数据可以在网站日志中留下记录。二是通过手机上网的信令分析。与前者网站日志分析不同,这部分行为数据的收集过程比较复杂,目前主要是进行Gb口信令分析。常用Wireshark和Compass等信令解码分析系统,对采集到的Gb口信令数据进行解码翻译,并且对访问的网站域名或通过文本和图片分析对用户所访问的网页内容进行识别,最终实现上网行为的分析。手机用户GPRS上网流程经过5个步骤,分别是附着过程、PDP激活、WAP连接、数据传输与释放连续。Gb口信令采集主要在于“WAP连接阶段”,上网信令数据获取的方法包括:分类采集、交换机端口镜像采集等。手机用户上网涉及的数据有:开始上网时间(也称上线时间)、结束上网时间(下线时间)、用户上线所在小区、所浏览的网站类型、浏览网站所传输的流量等。

同时,利用通信基站定位技术,在用户允许的条件下,可以记录查询用户的位置与活动轨迹。

2.1.4其它异常数据

例如:在手机实名制下,某用户拥有多个手机号码(10部以上),或者较短时间内频繁地更换手机号,以及话费欠缴,为了区分无意欠缴,要重点关注话费欠缴累计逾期次数和最长逾期记录。

当然,用户画像的数据可根据应用场景的需求,进一步进行衍生组合。例如,对于某手机用户的社交网络,可以在(2.1.2)项中分析出关系稳定而且亲密的网络成员(intimaterelationship)的基础上,进一步分析这些成员的(2.1.1)项中的年龄结构和套餐、(2.1.3)项中的上网行为等,特别是结合(2.1.4)项中有极个别联系的成员异常情况,已成为侦察破案发现线索的主要渠道之一。

2.2MPP+Hadoop大数据技术框架

用户画像不是全息的,而且大数据的特点是数据量大但往往价值稀疏,所以,要从海量数据中挖掘有价值的特征属性,前提是设计提供性价比可以接受的大数据技术解决方案。

类似于经济学中的现象,曾经有个“三元悖论”一直困扰着数据存储与查询分析的资源协调与管理,也就是说,由于自身属性特点,Hadoop和MPP目前只能满足以下的两项功能,而不能满足全部要求。具体来说,数据分析主要实现以下目标:

(1)实时。在这方面,单节点执行系统具有明显优势,这方面MPP表现突出,其他方式会一定程度上弱化实时性能。虽然新近出现的spark技术帮助hadoop提高了实时性能,但实施成本过高,相关技术有待进一步的成熟完善。

(2)可扩展,即要按数据量的增加而扩容。MPP扩容到一定程度后因传输等因素将会受到限制,而Hadoop的Mapreduce在此方面表现较好。

(3)对数据复杂查询与复杂分析的处理能力。Hadoop和MPP均可以通过算法实现此功能,但会有难易与熟练程度上的差别。

图1:运营商“MPP+HADOOP”大数据技术框架

电信运营商运用的“MPP+Hadoop”混搭模式可以较好地解决这一问题(所图1所示)。其中,MPP主要针对BSS域(业务支撑系统)的相关数据以及部分的OSS域(网管支撑系统)数据,主要包括用户身份信息、费用账单、欠费信息、套餐信息、登记住址以及接入网络类型、用户终端类型等具有准确性和实时性要求的数据信息。Hadoop主要针对MSS域(管理支撑系统)、NSS域(网络安全系统)以及部分OSS域(网管支撑系统)的数据,主要包括活动位置轨迹、上下线时间、通信时长、次数、访问应用时间、上网偏好、投诉信息、用户感知状态、社交网络、安全威胁情报等。

◆◆◆

3.用户画像在征信方面的应用实例

2015年3月中国联通与招商银行下属的永隆银行出资组建了招联消费金融公司,积极开展互联网消费金融业务。这种消费金融业务由于具有无担保、无抵押的特点,可以采取相对灵活的信贷政策,进而扩大了信贷范围,但也面临着一定的风险。为提高履约水平,电信运营商有必要从用户画像角度对个人消费信贷进行征信管理。

个人信用评价实质是一个类别识别问题。由于个人征信的基本过程,是将分散于不同来源的局部信息,整合成为可以完整描述消费者信用状况,因此电信运营商的用户画像方法同样适用于个人信用测评(如图2所示)

图2:手机用户画像在个人征信中的应用流程

可以这样理解,所谓用户画像的应用,是根据情景需要对用户标签的再归并组合以及对标签重要性重新排序的过程。一般以为,用户画像的样本可以从银行个人信贷的记录中进行筛选,但这种对已发放贷款的回收情况来进行逻辑判别,实质上会陷入“先验性误导”中。因为,所选取的有贷款业务的用户已经被银行风控部门进行了必要的审查和筛选,由此发生的信贷逾期呆坏账,是基于贷前审核通过后的样本,不是真正的完整的初审样本。这里,我们以人民银行安徽省分行为例,对省内部分申请贷款的个人用户进行实证分析。首先,选取3525个申请个人贷款的手机用户为样本,运用两种方法进行信用评价,其中,一种方法是银行根据现有的申请人的审核资料进行征信,另一种方法是通过手机用户画像的方法进行征信。具体步骤如下:

3.1先由银行风险管控部门人员根据银行自身的信用评级标准(层次分析法,简称AHP法)对所有样本进行打分;具体指标如表2所示。一般分为9级,为了进一步简化区分,我们以银行最终放贷决定为依据,将样本分为“可予授信”样本和“不予授信”样本两种。(当然,可授信样本中也不能保证以后就不发生呆坏账,一定程度的小额坏账率也是银行业务中的正常现象)。

表2:银行传统APH法的个人信用评价指标

个人信息

①年龄、②工作岗位、③性别、④学历、⑤健康状况等

收入水平

①个人年收入、②家庭年收入等

财产情况

①住房、②存款、③其他资产等

支出情况

①赡养人口、②债务负担等

个人信用历史

①违法违纪情况、②信用违约记录等

3.2根据征信应用的情景需求,将手机用户画像的量化具体指标进行重新归并与组合,如表3所示。

表3:基于应用需求的手机用户画像指标归并与组合

应用需求

指标组合与归并

个人信息是否真实

年龄与行为特征匹配(0,1两档)、手机号与地区符合(0,1两档)、社会交往正常(0,1两档)等

个人经济状况

终端类别(1-5档)、套餐类型(1-3档)、近期用户ARPU值(1-5档)等

信用状况与环境

双停时长与频数(1-3档)、社交网络ARPU均值等(1-5档)等

……

3.3将所有样本进一步分为两部分,一部分为测试集,样本数占60%;另一部分为检验集,样本数占40%,并让这两个样本集中的可授信和不可授信样本占有相同比率。

3.4以银行传统评级结果为依据,运用监督学习算法中的支持分量机,对测试样本中的手机用户画像特征进行维度约简,找出关键属性值组合。在分类过程中,变量多所获得的信息也相对多,其判断正确性也将会比较高。但是变量多,代表着收集样本的成本和时间增加,最好的方法是能以较少的变量,却能获得不错的判断正确性。在个人征信中有效的用户画像指标如表4所示(由于条件限制,没有实施手机用户上网行为数据的采集与分析)。

表4:用户画像指标在个人征信中的有效性

用户画像信息

考量标签

对个人信用评测有无影响

还款能力

还款意愿

欺诈识别

身份证信息

身份验证

T

T

T

手机号码

身份验证

F

F

T

常驻地址

身份验证、行为轨迹

T

T

T

套餐信息

身份验证、行为轨迹

T

F

F

终端类别

身份验证

T

F

F

增值业务订购

行为轨迹

T

F

F

主被叫时长

行为轨迹、社交网络

F

T

T

对端号码

行为轨迹、社交网络

F

T

T

关系久密成员的人均ARPU值

身份验证、社交网络

T

T

T

手机欠费记录

其他异常

T

T

T

……

……

…..

……

……

注:T表示有影响,F表示无影响

3.5按上述得到的手机用户画像的属性值组合,对检验样本进行分类,并将分类结果与传统的银行AHP法进行对比,符合率达到94.35%,效果基本达标(如表5所示)。

尤其需要注意的是,手机用户画像法的可予授信样本数小于银行传统方法的可予授信数,说明该方法授信标准更严,更趋保守,具有较好的稳健性。从中可以发现,运用手机用户画像的方式进行征信在“薄信息”状态下,具有较高的有效性。当然,在“厚信息”情景中,也具有一定的信息补充功能,综合利用效果更佳。

表5:两种方法的结果对比

可予授信

不予授信

有效性

银行传统APH法

1182

228

94.35%

手机用户画像法

1117

293

◆◆◆

4.结束语

在“互联网+”的背景下,大数据技术在电信运营商的业务应用领域将不断拓展,而智能手机技术和功能的不断推陈出新,进一步触发了消费模式的转变、产业链的开放和更大范围的数据融合。在妥善解决个人信息安全与隐私保护的前提下,以客户为中心的手机用户画像研究,有利于运营商充分利用现有的数据资源,有效实现精准营销和个性化服务,同时在个人征信方面也可实施有益的探索与实践。

作者简介

丁伟,高级工程师,博士,主要从事投资规划和大数据分析工作;王题,高级工程师,硕士,主要从事通信网咨询规划设计工作;刘新海,副研究员,博士,主要从事信用风险管理、大数据和互联网金融。韩涵,助理研究员,博士,主要从事智慧城市、应急通信和大数据分析工作。

◆◆◆

参考文献

[1]胡坤.刘明辉.宫雪.刘镝.电信运营商应用数据的安全管控与隐私保护研究[J].信息通信技术,2013(6)

[2]乔宏明.梁奂.运营商面向大数据应用的数据脱敏方法探讨[J].移动通信,2015(13)

[3]李景文.宫大鹏.王睿.苏雷.陈宁江.基于Hadoop的OSS域数据建模与采集方法研究[J].电信科学,2015,(1)

[4]辛晃.易兴辉.陈震宇.基于Hadoop+MPP架构的电信运营商网络数据共享平台研究[J].电信科学,2014,(4)

[5]陈清金.张岩.陈存香.云计算环境下的大数据分析[J].邮电设计技术,2015(5)

[6]魏进武.靳淑娴.张基恒.李卫.大数据关键技术及运营商落地建议[J].邮电设计技术,2015(5)

[7]张雄.基于Gb口信令分析的手机客户上网行为的应用研究〔D〕.广州:华南理工大学,2012

[8]张慷.手机用户画像在大数据平台的实现方案[J],信息通信,2014(2)

[9]庞然.WAP日志挖掘的研究及应用[D].北京:北京邮电大学,2008

[10]陈波.征信系统中基于迭代SVM的自动相似记录匹配方法[J].金融电子化2010(4)

[11]代亮.许宏科.陈婷.钱超.梁殿鹏.基于MapReduce的最小二乘支持向量机回归模型[J].计算机应用研究.2015(8)

[12]刘新海.丁伟.美国ZestFinance公司大数据征信实践[J].征信,2015(8)

[13]赵华.金铎.徐雄.电信运营商开展互联网金融业务探讨[J].广东通信技术,2014(10)

[14]林清泉.张建龙.杨丰.中国信用体系建设中的个人信用模糊评估[J].山西财经大学学报,2007(2)

[15]余晓平.裴韬.手机通话网络度特征分析[J].物理学报,2013(20)

[16]张玉才.宋新平.罗瑜.基于模糊支持向量机的客户信用评估研究[J].统计与决策,2008(7)

[17]徐金垒.方志祥.萧世伦.尹淩.城市海量手机用户停留时空分异分析〔J〕.地球信息科学学报,2015(2)

[18]Howtoconquer‘bigdata’withMapReduce&MPP.http://venturebeat.com/2013/03/19/how-to-conquer-big-data-with-mapreduce-mpp/

[19]Bigdatadebate:willHBasedominateNoSQL.http://www.informationweek.com/software/enterpriseapplications/bigdatadebatewillhbasedominatenosq/240159475

如有版权问题,请联系我们删除。

基于大数据技术的手机用户画像与征信研究
作者:丁伟 王题 刘新海 韩涵感谢丁伟的投稿,大数据文摘对优质内容一向渴求,欢迎大家投稿。内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营...
基于大数据技术的手机用户画像与征信研究
百分点研发总监苏海波:构建用户画像可降低企业营销成本
提到用户画像这个词,好多人都有点印象,但是对具体概念并不清楚。眼下,大数据已经上升为国家战略,但大数据和用户画像之间是什么关系?用户画像又能达到怎样的目的?...
百分点研发总监苏海波:大数据用户画像的方法及营销
大数据应用:用户画像建模方法
如何对用户行为数据构建数据模型,分析出用户标签,将是本文着重介绍的内容。 3.2 目标分析 用户画像的目标是通过分析用户行为,最终为每个用户打上标签,以及该标签的...
用户流失预测模型 用户移动端行为数据的价值与应用
金融行业使用大数据为客户构建360度画像以及具体实现方案
首先就得建立用户的画像,整理用户的行为习惯等个性化的信息,将用户进行分群分类。...3. 数据建模方法 下面内容将详细介绍,如何根据用户行为,构建模型产出标签、权重...
是一家利用大数据技术为金融行业提供客户全生命周期
用户画像数据建模方法(转)
如何对用户行为数据构建数据模型,分析出用户标签,将是本文着重介绍的内容。 3.2 目标分析 用户画像的目标是通过分析用户行为,最终为每个用户打上标签,以及该标签的...
用户画像数据建模方法
如何挖掘真实的用户画像?
但要从两个方面理解它,一是用户画像是描述用户的数据,“用户”并不能直接定义为一个人,而需要在某个特定场景中;另一方面用户画像是数学模型,通过...
怎么才能挖掘用户的真实需求
为您推荐
众调网 众调网微信

微信扫一扫关注