担任持车牌消费金融模型专家一职,发明金融风控模型算法,和中科院,网易云,腾讯,百度,爱奇艺,清华大学坚持长时刻项目协作;和同盾,聚信立等外部数据源公司有项目对接。了解消费金融场景业...
银行,消费金融,小额贷,现金贷等线上告贷场景的风控建模,数据剖析相关作业人员,贷前批阅模型人员;大学生fintech建模比赛,论文,专利。
1.每天确保1-2个小时学习时刻,估计7-14天能够学习完整门课程。 2.每节课的代码实操要确保,主张不要直接复制粘贴代码,自己实操一遍代码对大脑回忆很重要,有利于稳固常识。 3.第2次学习时要总结上一节课内容,必要时做好笔记,加深大脑了解。 4.不明白问题要罗列出来,先自己上网查询,查不到的能够咨询教师。
此课程用python代码对LendingClub渠道告贷数据剖析和用户画像,针对银行,消费金融,现金贷等场景,教会学员用python完成金融信贷请求用户数据剖析。项目选用lendingclub 12万多条实在信贷数据,包含用户年收入,告贷总额,分期金额,分期数量,职称,住宅状况等几十个维度。经过课程学习,咱们发现2019年四季度时分,美国多头假贷状况十分严峻,为全球体系性金融危机埋下种子。
作者Toby:持车牌消费金融模型,和中科院,中科大教授坚持长时刻项目协作;和同盾,聚信立等外部数据源公司有项目对接。了解消费金融场景事务,线上线下事务,包含现金贷,产品贷,医美,反诈骗,轿车金融等等。模型项目200+,拿手Python机器学习建模,关于变量挑选,衍生变量结构,变量缺失率高,正负样本不平衡,共线性高,多算法比较,调参等疑难问题有杰出解决办法。
Lending Club 创立于2006年,主营事务是为商场供给P2P告贷的渠道中介服务,公司总部坐落旧金山。
公司在运营初期仅供给个人告贷服务,至2012年渠道告贷总额达10亿美元规划。
2016年上半年Lending club爆出违规放贷丑闻,创始人离任,股价继续跌落,全年亏损额达1.46亿美元。
2019-2020年公司事务被逼转型,或许和美国高负债率,用户违约率上升有关。
作为P2P界的开山祖师,Lending club跌宕起伏的展开前史仍是挺吸引人的。
此处介绍一下什么是P2P。归纳起来能够这样了解,“一切不触及传统银行做前言的信贷行为都是P2P”。简略点来说,P2P公司不会出借自有资金,而是充任“中间人”的人物,衔接告贷人与出借人需求。
告贷人快乐的是拿到了告贷,并且进程快速便当,免遭传统银行手续许多的摧残;出借人快乐的是借出资金的出资报答远高于存款利率;那么中间人快乐的是用服务换到了流水(拿的便是事成之后的抽成) 最终完成三赢。
P2P初衷是好的,但随着许多渠道树立蓄水池,违规操作和房贷,构成几十万人上圈套。2018-2019年国内对P2P监管越来越严,到了2020年,P2P根本清退。只要持车牌的公司才干放贷。
告贷人提交请求后,Lending Club 会依据告贷规范进行开端检查。告贷人需求满意以下规范才干告贷:
3.信誉陈述反响以下状况:至少有两个循环账户正在运用,最近6 个月不超越5 次被查询,至少36 个月的信誉记载
告贷分为A、B、C、D、E、F、G 7 个等级,每个等级又包含了1、2、3、4、5 五个子级。
阐明:部分重要的特征变量好像缺失,屡次下载的数据会集短少fico分数、fico_range_low、fico_range_high等与fico相关的特征,所以在构成定论进行总结的时分,这些特征的定论将从相关的陈述中获取。
1.128412行数据,23个特征变量(抽选比较重要的变量,原始变量有110多个)
调用data.describe()函数对数据描述性计算,调查各个变量的计数,平均值,规范差,最大值,最小值,1/4位数和3/4位数值,并调查一下异常值。
6.id与desc特征的数据缺失率高达0.99,直接标明这两个特征能够删除去。
相同能够依照这种办法对浮点型的数据进行数据预览,得到均值、规范差、四分位数以及数据的缺失比重等信息。
咱们调用hist函数能够对数据的一切维度制作直方图,一望而知调查一切变量数据散布。
首要咱们来看一下2018年第四季度事务展开状况,主要是放款笔数,金额,期限等状况。第四季度放款笔数和放款金额略有下降,事务上是有意义的,年末坏账率会上升,渠道会收紧。特别是在国内,年末收紧起伏比较大。
经过seaborn,scipy,pandas三个包,咱们制作了一个正太散布图,调查lendingclub渠道给个人告贷金额大多在1万-2万美金,较高金额的告贷数量较少,此渠道主要是小额贷为主。
经过制作饼状图,咱们得到lendingclub渠道告贷周期分为36个月与60个月,主要以36个月为主,60个月的比重31%左右。在p2p渠道上以短期告贷为主,长时刻告贷也有,利率较高,但周期较长。借出人收成利息,承当危险,而借入人到期要归还本金。告贷周期越长,对借出人来说危险越高。
在国内的环境下,借出人不只要承当推延还款的危险,还要忧虑渠道跑路、本息全无的高危险;对借入人来说,由于国内短少健全的征信体系,告贷方违约及重复违约成本低。
对国内的状况不再多说,论题绕回来。国外的部分国家已有健全的征信体系,一旦违约还款,违约率不断上涨,个人征信也会保存记载,对后序的告贷、买房有很大的影响。所以假如告贷周期较长,且假如没有固定的作业和固定的收入的话(即便有不决收入也不一定按期归还),归还本金充溢变数,很有或许违约。
从图中能够看出,告贷人中工龄为10年以上频率最多。那么,咱们能够考虑一下,为什么工龄超越10年的人有告贷需求呢?且占比这么高?
那么能够猜想一下(个人定见),首要或许是工龄越长,告贷经过率越高(挑选后占比较高),这或许和lendingclub贷前批阅战略有关。
经过上图发现,美国告贷人收入水平中年收入在0-5万美元的占比榜首,30.53%左右。其次是5万-10万区间,11万-30万年收入区间占比逐渐变小。得到这张图并不简单,是对数据进行深度清洗后得到的。特别是调用了pandas的cut函数,对收入变量进行分箱处
lending club会对客户收入进行验证,这十分值得国内渠道学习。告贷人的收入水平信息分为三种状况:现已过LC验证,收入来历已验证,未验证。这三种状况现在从图中看出LC验证,收入来历已验证,未验证的收入数据仍是有明显差异。别的告贷等级与收入水平在全体上呈正相关的趋势。上图由seaborn的的factorplot函数生成。factorplot函数是用于多因子剖析的,十分有用。
一半用户房子状况是典当告贷,只要10%用户具有彻底的产权。看来美国房奴大军不小呀!接着用pandas的stack和unstack函数对grade和home_ownship两个等级变量做数据深度清洗,然后制作下图。经过调查告贷等级越高用户按揭占比越高,租房占比越低,反之亦然。自有住宅占比每个等级略有不同。
上图中debt_consolidation(能够了解为债款整合,借新还旧)占比榜首,占比第二高的credit_card也归属为同一类。不同渠道新债还宿债归于多头假贷行为,多头假贷会进步用户负债率,而负债率会引发经济体系性危机。经济危机会进一步进步社会基尼系数,引发社会动乱。多头假贷是一个十分灵敏的目标,不管公司仍是地方政府都应该监控此目标。
从前史经验看,举债展开导致住户部分高杠杆和过快的债款增速,与债款危机明显相关。如日本平成大惨淡,韩国信誉卡危机,美国次贷危机,均是居民担任短期内快速上涨,导致收入,储蓄及财物价值无法偿付债款,然后构成金融体系系危险。
美国上个世纪开端就发起超前消费观念影响经济,传统储蓄观念备受冷酷。但人有不愿意还钱倾向,债款越高,金融危机危险越大。2019年美国债款占GDP比重现已高到106%,也便是说美国发明的社会财富还不行还账。1970年时,债款只占GDP38%左右,由此可见华尔街贪欲程度,能够用too much, never enough来描述。很巧的是,咱们在lending club数据剖析时就发现了这猫腻,发现大多告贷人告贷意图便是新债换宿债。不管新冠状病毒是否迸发,美国金融体系现已存在严峻体系危险,并且其他国家也存在类似问题,仅仅负债程度不一样。
专业人士预测到2025年,美国负债占GDP比重或许到达140%,负债出现逐年上升趋势。
居民负债率上升,有钱人却经过房贷和钱银宽松方针获利,然后导致社会基尼系数不断上升,社会贫富差距拉大,最终导致社会动乱和战役。下图是几年前全球基尼系数,能够看到美国基尼系数在40-50,实践数据或许更大。
归纳收入水平与告贷用处得到上图,咱们能够发现在第四季度中,人均收入水平较高的人群告贷用于小生意,家庭生活改进,房子等。而告贷为了债款整合(占比榜首)的人群的人均收入水平在全体的中下。收入最小的一般用于医疗开支或车辆相关。这也直接证明了多头假贷的收入会越来越低,堕入贫穷圈套。
数据剖析和画像后,咱们能够用上述变量建模。建模型并非一切变量都运用,需求做变量挑选作业。变量相关性剖析便是最根底的变量挑选过程。咱们用seaborn的heatmap函数制作出下图变量相关性热力求后,咱们发现部分变量出现0.9高相关性
除了python,excel也能够制作变量相关性热力求,下图由excel生成。
变量相关性取值从0-1,值越挨近0,两个变量相关性越低;值越挨近1,两个变量相关性越高。下图是变量相关性数据散布。
金融现金贷用户数据剖析和画像_介绍视频金融现金贷用户数据剖析和画像_介绍视频
python金融风控评分卡模型和数据剖析概述(必看)python金融风控评分卡模型和数据剖析概述(必看)
「仅限付费用户」点击下载“金融现金贷用户数据剖析和画像脚本和数据.rar”
告贷金额和趋势剖析-2018年Q4信贷略有缩紧告贷金额和趋势剖析-2018年Q4信贷略有缩紧
产品周期剖析-看来lendingclub是短周期假贷产品周期剖析-看来lendingclub是短周期假贷渠道
住宅状况与告贷等级-本来美国大部分都是房奴住宅状况与告贷等级-本来美国大部分都是房奴
年收入剖析-许多美国人年薪5万美金左右年收入剖析-许多美国人年薪5万美金左右
告贷人收入水平_告贷等级_收入核实多因子剖析告贷人收入水平_告贷等级_收入核实多因子剖析
告贷用处-美国2018年金融危机浮出水面告贷用处-美国2018年金融危机浮出水面
箱型图box plot-最常用异常值查验办法箱型图box plot-最常用异常值查验办法