数据挖掘技术在电信业客户流失预测中的应用
![](/assets/7a34688/images/icon/s-doc.png)
VIP免费
数据挖掘技术在电信业客户流失预测中的应用
摘要:通信行业竞争激烈,对客户流失的预测日益重视。本文在通信行业的实际客户数据的基础上,利用决策树和k-平均
聚类算法建立依据客户分类的客户流失模型,解决了电信业对客户流失预测困难的难点,以便及早的采取措施挽留客户。
关键字:数据挖掘;客户流失; 决策树;k-平均算法
Abstract: Under the fierce competition in telecommunication, the Churn predication is paid more and more attention. Based on the
a c t u a l c u s t o m e r d a t a i n t e l e c o m m u n i c a t i o n , t h i s p a p e r u s e s t h e d e c i s i o n t r e e a n d k - m e a n s t o c r e a t e t h e C h u r n p r e d i c t i v e
model, resolves the difficulity on perdicting the Churn. Thus it can take effective strategies to prevent the customers
leaving.
Key words: Data Mining; Churn; Decision Tree; K-Means
0引言
电信业的客户流失在市场发达环竞争充分地区非常普遍,而在中国目前相对垄断和竞争不充分的环
境里,客户流失现象与发达国家尚有差距。但有数据表明,近年来各运营商客户流失率逐年上升。随着全
运营牌照的发放,特别是3G格局明确后,各运营商都有了许多满足市场的手段;新电信法出台后,部分国
外运营商,特别是那些虚拟运营商和增值业务运营商将中国潜在的巨大发展空间作为新的战场,参与的游
戏的人多了,对客户的抢夺手段也多了,中国运营商之间的客户流失大幕拉开了。第三方报告显示,
2004年,中国移动的离网率大致为12.6%,联通G网的离网率为29%,联通C网的离网率为11.5%,虽说离网
率还不是真正意义上的流失率,但却是流失的基础[1]。这里还不包括PHS的流失,移动和固网之间,各个
移动网络之间,因此客户流失还只是刚刚开始。然而有限的客户流失管理工作基本处于探索阶段,仅仅关
注其中的个别点,例如投诉问题解决等,并没有形成从发现客户流失倾向到客户维系挽留的闭环处理流程
同时,现有的客户流失管理工作存在手工操作、未形成自动化、数据准确性差、效率低等诸多问题。虽然
各个运营商都已经规划了各自的客户关系管理系统并逐步实施,但是,市场的变化要求企业IT建设更加灵
活、快速,满足企业市场竞争的需求,因此如何快速有效的建立客户流失预测模型在客户发生流失之前及
早的挽留,这是当前运营商建设的重点。
1数据挖掘
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取
隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[2]。根据数据挖掘的任务,可分
为预测模型的发现、数据的总结、分类、聚合、关联规则的发现、序列模型发现、依赖关系或则依赖模型
的发现、异常和趋势的发现等[3]。常用的数据挖掘方法有决策树、聚类、关联、神经网络、可视化、模式
识别、遗传算法、不确定处理等。本文以上海移动通信为研究对象,用数据挖掘技术中决策树和聚类算法
建立客户流失预测模型。
决策树算法是数据挖掘的有效算法,决策树是这样的一棵树,该树的每个非叶节点均表示考察数据项
目的测试或决策。根据测试结果,选择某个分枝,为了分类一个特定数据项目,必须从根节点开始,一直
向下判定,直到达到一个终端节点(叶子节点)为止。这样,一个决策就形成了。本文通过数据挖掘工具建
立客户流失预测决策树。
客户分类一般采用聚类(clustering)方法[4]。聚类就是对大量数据进行分类,使同类内的数据相似度尽
可能大,相异度尽可能小,而不同类之间的数据相似度尽可能小,相异度尽可能大[5]。
本文采用了 -平均聚类算法来对客户分群,它是解决聚类问题的一种经典算法[6]。它的主要优点是理
论可靠、算法简单而且能够有效的处理大量数据的场合,而且具有较好的可升缩性和较高的效率,适合于
通信行业的客户分类。
-平均聚类算法是根据聚类中心的均值进行聚类划分的。输入是包含个数据对象和指定的集合 ;输入
是满足方差最小标准的 个聚类[6]。它的算法过程是:(1)从 个数据对象中选取 个对象作为初始聚类中
心;(2)循环过程(3)、(4),直到每个聚类不再变化;(3)计算每个聚类对象与聚类中心的距离,根据最小距
离把对象归类到最相似的类中;(4) 重新计算整个聚类对象的均值,作为新的聚类中心。-平均算法的实
现过程如下:输入 和数据对象集合 ,输出 个聚类中心及 个聚类对象集合 :
摘要:
展开>>
收起<<
数据挖掘技术在电信业客户流失预测中的应用摘要:通信行业竞争激烈,对客户流失的预测日益重视。本文在通信行业的实际客户数据的基础上,利用决策树和k-平均聚类算法建立依据客户分类的客户流失模型,解决了电信业对客户流失预测困难的难点,以便及早的采取措施挽留客户。关键字:数据挖掘;客户流失;决策树;k-平均算法Abstract:Underthefiercecompetitionintelecommunication,theChurnpredicationispaidmoreandmoreattention.Basedontheactualcustomerdataintelecommunication,t...
相关推荐
-
VIP免费2025-01-09 9
-
VIP免费2025-01-09 6
-
VIP免费2025-01-09 6
-
VIP免费2025-01-09 6
-
VIP免费2025-01-09 6
-
VIP免费2025-01-09 9
-
VIP免费2025-01-09 8
-
VIP免费2025-01-09 7
-
VIP免费2025-01-09 8
-
VIP免费2025-01-09 7
作者:朱铭铭
分类:高等教育资料
价格:150积分
属性:5 页
大小:204KB
格式:DOC
时间:2024-09-20