您所在位置：网站首页 > 办公文档 > 调研报告 > 基于机器学习的个贷客户精准营销设计

基于机器学习的个贷客户精准营销设计.docx

12页

卖家[上传人]：I***

文档编号：220380769

上传时间：2021-12-08

文档格式：DOCX

文档大小：128.74KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

12金贝

下载

/ 12 举报版权申诉马上下载

文本预览

下载提示

常见问题

基于机器学习的个贷客户精准营销设计李召蝶董如哲摘要：随着国民经济的快速增加以及人们金融观念的转变，我国个人贷款需求呈现稳健上升的态势如何从海量客户中精准识别目标客户，如何通过合适的途径将营销信息推送至客户，已经日益成为商业银行面临的重要问题之一本文通过对某银行某次12万客户的营销活动数据分析，利用GBDT（梯度下降）+LR（逻辑回归）方法，根据营销渠道将数据分层训练，进行客户精准营销响应预测，大幅提高了营销效率同时在固定成本约束下，实现营销效果最佳的资源配置最优解关键词：精准营销;GBDT+LR;最优化;营销策略1.背景及意义传统商业银行如何在信息时代通过精准营销，准确定位客户，提高产品覆盖度？依托大数据分析，可推动商业银行精准营销基础上的“客群化”经营，匹配客户特征直达C端，实现存量客户挖掘、睡眠客户唤醒、潜力客户提升转化，构建获客活客轻入口，提高营销效率，助力全量客户维护与拓展，增强个人业务可持续发展能力和市场竞争力本文依托某银行在2018年某月开展的个人贷款营销活动数据进行分析构建通过机器学习建模过程，大幅提高了传统营销的效率，具有一定的现实意义营销活动数据基于、短信和邮件三种渠道（成本不同），对客户推送营销信息。

不同渠道营销效果，在response进行贷款的响应客户中，Phone Call（）渠道相比SMS（短信）和Email（邮件）效果最为明显，此渠道成功客户数占全部成功客户数的59%，其次为SMS和Email未接触客户接触客户2.分析流程图Setp1：将数据集规约形成两个样本，训练数据集样本和测试数据集样本Setp2：对Step1形成的训练数据集预处理和特征工程、特征选择过程具体包括缺失值处理、重复值处理、生成衍生特征、独热编码等Step3：利用Step2形成的已完成数据预处理的训练样本，使用GBDT+LR方法根据不同渠道分别建立客户响应模型，对建立好的模型进行解释与评价，利用测试训练集对模型进行诊断Step4：利用另一个目标变量是否触达客户建立GBDT预测模型，作为全量客户全渠道预测的数据基础Step5：根据Step4所形成的数据进行分析，依据不同标准对建立营销方案，并针对反馈效果监测、调整模型3.数据准备与预处理3.1.数据清理在数据建模过程中，数据的准备和预处理往往占据着最为重要的地位，同时也会消耗最大量的时间在此，我们主要通过将少值域数据有序离散化、利用决策树算法进行数据分箱、利用业务知识将变量分组，结合分组情况对数据进行相关性检验与过抽样等创新性方法对数据进行了前期处理工作。

3.1.1.数据变换首先将数据按照4：1的比例分成训练集与测试集，以下数据变换完全是基于训练集的1）确定是否存在重复值数据清理包括重复值的删除与缺失值的处理等工作首先，观察数据中是否存在重复值，经过分析，数据中不存在完全重复的观测2）数据重编码对于数据中的字符型变量重编码，将所有的Y值替换为1，N值替换为0此外对于营销渠道、性别、教育水平、工作类型，依次编码为1、2、3、4等3）缺失值处理随后，查看变量中的缺失值个数，决定如何对待缺失数据统计发现，大部分变量缺失值在10%以下，但也有几个变量缺失值超过了70%首先，根据业务特征推测数据缺失原因，进而确定处理规则经过筛选，大部分存在缺失值的变量不包含0值，如total_investment_bal （当前持有理财产品数额）等，可以推断这部分缺失值是由于客户无相关交易内容所致，故此部分缺失值可用0值填充此外，仅变量 “信用卡当前还款期内账单额”同时存在空值与0值经观察发现，此变量取空值时，对应变量“当前信用卡额度”也为空值，故这部分空值是为无信用卡导致的无交易额因此，可创造一个衍生变量“是否持有信用卡”来标识这部分空值自此，缺失值处理完成3.2.变量筛选与属性构造通过对客户前六个月历史数据进行分析，发现很多数据具有较强相关性（相关系数超过了0.8），不能够直接进入模型，需要對数据进行变量筛选。

基本原则为：6月份的数据全部进入模型，同时基于1-6月的数据，构造近三个月/六个月数据指标，代替1-5月的数据进入模型，以降低变量中的自相关性具体方法如下：（1）开户时间、受教育水平、性别、工作类别等四项变量选择6月的数据进入模型，其他月份的数据删除2）当前是否持有房贷，是否持有保险产品等两项变量选择6月数据，此外构造新变量：房贷（保险）持有类型，分为：（3）9个数值型流量数据变量当前存款数量、持有理财产品数额、信用卡当前还款期内账单额、当前信用卡额度、信用卡上一个还款期账单额、账户本月取款或者转出数值、通过ATM取款或者转出数额、本月取款或者转出次数、本月账户存款或者转入次数等9个数值型流量数据，构造近三个月、六个月均值指标和偏离度指标其中，三个月存款余额偏离度=6月存款/（4、5、6三个月存款均值）偏离度指标用来衡量该变量的变化趋势公式如下：（4）信用卡额度使用率和ATM渠道偏好等两个经验指标根据业务经验，信用卡额度使用率是一个衡量贷款意愿和提款金额的重要指标，定义为：额度使用率= 信用卡当前还款期内账单额/当前信用卡额度，并构造三个月、六个月额度使用偏离度指标同时，设置ATM渠道偏好指标，定义为：六个月通过ATM取款或者转出数额总数/六个月账户取款或者转出数值总数。

3.3.数据变换3.3.1.CART决策树分箱在对变量进行了筛选和重新构造后，我们对连续变量进行了基于决策树的变量分箱处理CART是二叉树分类算法，每次仅进行二元分类对于连续性变量，方法是：依次计算相邻两元素值的中位数，将数据集一分为二，计算该点作为切割点时，分割前后，基尼值的下降程度每次切分时，选择基尼值下降程度最大的点为最优切分点，再将切分后的数据集按同样原则切分，直至终止条件其中，我们将最大分级限定为12级，同时，一个叶节点所需的最小样本数定为5%，防止在分箱阶段出现过拟合3.4.变量选择3.4.1.依据相关系数粗筛变量我们依据变量与分析目标的相关性，对变量进行进一步的筛选其中，除了本身包含字符型数据的分类变量外，我们将值域小于等于20的变量全部视为离散型变量，其他则视为连续变量对于连续变量，使用方差分析（ANOVA）筛选出显著变量，其中显著性水平设为5%对于离散变量，使用列联分析方法，同样以显著性水平5%为标准最终，共筛选出50条连续变量与 13条离散变量3.4.2.IV值筛选IV定义：IV值（Information Value），即信息价值指标，衡量了某个特征对目标的影响程度，其基本思想是根据该特征所命中黑白样本的比率与总黑白样本的比率，来对比和计算其关联程度，计算公式如下：通过计算我们筛选出IV值大于0.02的变量进入模型，生成的部分IV值如下表所示。

3.4.3.变量聚类从全部的相关系数矩阵中可以看出，目前变量之间依然存在较强相关性，可能导致模型出现多重共线性问题因此，通过变量聚类算法，筛选最终进入模型的变量特征，筛选原则为：4.个人贷款营销响应预测模型4.1.GBDT+LR模型的设计与训练4.1.1.模型设计思路根据业务经验分析：首先，客户是否贷款与客户是否具有资金需求有着直接的关系，所以针对响应客户（response = 1），对其相关信息建模可以得到客户的贷款倾向概率;其次，建模的目的是为了最大化响应客户人数或者金额对样本数据的响应客户进行分析，我们发现，采取不同的营销渠道，客户的贷款金额没有显著差别业务上来讲，客户的贷款金额应该与客户本身的资金需求量有关，而与客户获取贷款信息的渠道无显著相关性因此贷款金额最大化问题的求解可等效转化为贷款人数最大化问题的求解，即响应客户数量的最大化营销渠道的选择决定了贷款信息能否发送至客户，而营销数据能否触达客户对于营销成功率有着显著影响但是，之前的营销活动是随机选择营销渠道，没有考虑到不同客户的渠道偏好例如，对于一些客户，营销往往会被当作电信诈骗直接挂掉，于是耗费了大量成本但是没有产生收益;而对于一些老年客户，邮件发送往往根本无法触及，诸如此类。

通过不同营销渠道向客户传递贷款信息，客户的选择可能截然不同，因此确定合适的营销渠道也是至关重要的但是，目前的数据中，单个客户仅有一种营销渠道，若该渠道无法触及客户，我们无从确定更换另两种营销渠道，客户的响应情况是否有所变化于是，我们的模型将分为两大部分来进行：首先根据原始数据的营销渠道（、短信、email）将数据分成三个部分，在第一层模型，根据是否触达（contact_ind）变量对三组数据分别训练，形成三个不同渠道下的客户触达模型;随后，在第二层模型通過对客户响应情况（response）与相关信息建模分析，得到三组客户相应模型;最后，对全量客户数据分别使用这三个模型，以确定客户的最大响应概率于是，我们得到了三组模型，每一组模型即为客户在该营销渠道的响应概率随后，我们将全部数据分别带入这三组模型，最终可以得到全部客户在所有渠道的响应概率客户的最高响应概率所对应的模型即为应采用的营销渠道，最终达到全局最优解因此，此模型结构的实质其实是三个以一个GBDT模型作为某重要变量数据生成器的GBDT+LR双层结构模型同时，该模型会根据营销渠道的不同进行三类并行计算，以输出概率最大的模型作为渠道选择的依据。

具体模型结构如下图所示：4.1.2.关于GBDT+LR本质上GBDT+LR是一种具有stacking思想的二分类器模型，因此可以用来解决二分类问题这个方法出自于Facebook 2014年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook综合使用GBDT与Logist模型，既提高了模型的精准度，又兼顾了模型的解释性，Logist模型也可以控制GBDT的过拟合倾向具体结构见图：在本文的模型设计中，一共三组33个变量作为第一层模型的输入，通过sklearn.preprocessing模块的OneHotEncoder进行定性特征值数量为50的转化后，可将特征进一步提升到1600维用于分类4.1.3.模型效果模型训练结果的验证是基于占全部数据20%的测试数据集进行的效果评判标准包括ROC曲线、AUC（ROC曲线下方面积）以及正类F1得分1）模型参数调优为进一步挖掘模型的潜力，本文使用GridSearchCV，根据贪婪算法，进行具备最优化调优通过参数配置分别对GBDT模型、LR模型、双层混合模型进行了性能调优，在GBDT树模型算法中，影响模型性能较大的参数主要有MAX_DEPTH、N_ESTIMATORS、max_features等。

其中max_depth是指每棵的最大深度，n_estimators是指在GBDT中创建决策树的个数，learn_rate指每次学习的步长，通常与n_estimators共同调整，max_features是指每棵树所能使用特征的最大个数因此，模型在以下参数范围内进行参数搜索，以找到使模型在训练集上表现最优的参数组合在逻辑回归模型的调优过程中，我们允许模型的class_weight参数在None默认值与balanced之间进行调整，允许模型在是否调整分类权重间进行选择，用以降低样本失衡的影响;允许模型通过solver参数选择包括newton-cg，lbfgs，sag，liblinear在内的更多优化算法进行拟合4.1.4.模型稳定性和模型选择经过参数调优之后，我们将模型分别应用到验证数据集上用以最终确定流失预警模型的选择在验证集中，A。

点击阅读更多内容