资源预览内容
第1页 / 共26页
第2页 / 共26页
第3页 / 共26页
第4页 / 共26页
第5页 / 共26页
第6页 / 共26页
第7页 / 共26页
第8页 / 共26页
第9页 / 共26页
第10页 / 共26页
亲,该文档总共26页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数学建模论文小组成员介绍:相关学科成绩姓名学 院年级 专业学号联系电话高 等 数 学线 性 代 数概 率 统 计数 学 模 型数 学 实 验英 语 四 级英 语 六 级范兴容自 动 化06 级 自动化200649201365761578783858794张 伟自 动 化06 级 自动化200647781364761980062656275530刘 圆软 件 工 程06 级 软件工程20065404136583401749192904991银行贷款发放信用评价问题银行贷款发放信用评价问题摘要摘要本文针对商业银行在发放贷款的过程中,如何利用一定的判别准则对申请贷款企 业信用度进行打分的问题,建立相应的数学模型,给出判别准则。 首先,对商业银行现有的 600 个申请贷款企业背景资料及打分情况的数据进行预 处理。巧妙地构建字符型取值数值化公式,合理的将离散型变量(取值均为字符型) 取值数值化,以及利用 spss 软件对 15 个自变量和 1 个因变量做相关性分析,筛选出 12 个属性变量。此外,通过回归分析对数据进行深挖掘,利用 MATLAB 软件对背景资料数据作时序残差图,考察分析时序残差图发现有 64 个奇异点,在Logistic回归模型中将对应的 64 个样本点予以剔除。 然后,对预处理所得的背景资料数据,建立Logistic回归模型,利用spss统计软 件对模型求解,得到各属性的权重系数。以谋求判别结果与原始结果吻合度最大为原 则,给出了判别准则。 随后,鉴于背景资料信息不全的情况,本文利用算子的思想,构建“缺省信WAA息均值” ,同时定义相应的“缺省信息运算法则”,对Logistic回归模型进行修正。j利用C+软件编程,重新求得修正后的各属性权重系数。本文特从600个申请贷款企业 随机抽取75个样本,随机丢失若干属性信息,同样以谋求判别结果与原始结果吻合度 最大为原则,给出修正后的判别准则。 接下来,通过C+编程,利用给出的判别准则对剔除64个问题样本点后的536个企 业重新打分,结果与原始打分相比,吻合度达到98.5%。对被剔除的64个企业单独重新 打分,发现与原始结果完全相反,实际是对问题样本点进行了纠正,打分准确度达到 100%。同样使用判别准则求得前53个待申请企业打分值。分析修正判别准则对随机抽 取75个样本打分结果,发现对不发放贷款的企业的原始打分与重新打分完全相同,实 现了风险最小化原则,再使用修正判别准则求得后37个待申请企业打分值。 最后,我们就模型存在的不足之处提出了改进方案,并对优缺点进行了分析,根 据数据分析结果,为银行高层管理者写一份报告,使判别准则得以被采用。关键字关键字 信用评价 Logistic 回归模型 判别准则 缺省信息运算法则2一、问题的提出一、问题的提出商业银行计划给有需求的企业发放贷款时,为了有效地减少金融风险,要求每个 申请贷款企业提供企业经营状况的相关资料,并根据这些资料,对这些企业进行打分, 以确定是否为其提供贷款。 考虑以某银行现有 600 个申请贷款企业的背景资料及打分情况,为保护商业秘密, 资料中的属性(变量)已换成没有任何意义的代码。如 b,30.83,0,u,g,w,v,1.25,t,t,01,f,g,00202,0,+ a,38.58,5,u,g,cc,v,13.5,t,f,0,t,g,00980,0, 资料中共有 15 个属性(用逗号隔开,分别记为 A1A15)和一个打分情况, 要求给出一种判别准则,并对这 600 个企业重新打分,使打分与原打分尽可能相吻合。现有 90 个待申请贷款企业,企业背景资料与前 600 个申请贷款企业有相同的形式, 现应用所给出的判别准则对这 90 个申请贷款企业中的前 53 名进行打分,以确定是否 为其提供贷款。 由于企业自身的原因(如漏填或有意不填) ,有些项的指标没有填写(没有填写的 项在表中为?) ,针对这种情况,修正判别准则,然后对 90 个申请贷款企业中的后 37 名行打分,以确定是否为其提供贷款。 最后,为银行的高层管理者写一份报告,阐述判别方法的正确性或合理性,使其 被采用。二、问题的分析二、问题的分析本题背景资料中属性变量的类型有两种:连续型和离散型,且离散型变量的取值 均为字符型,无法用函数关系来刻画属性和因变量之间的关系。因此,它们无法直接 为数学模型所用。此外,资料中的离散型变量已换成没有任何意义的代码,无法观察 各属性变量间的关系以及对判别结果的影响。同时考虑各个申请贷款企业经营状况的 相关资料是由各个企业向银行提供的,其属性变量的取值必然存在人为误差。基于上 述三个原因,本文必须对已知数据进行预处理。鉴于 90 个待申请贷款企业中的后 37 名的背景资料不齐全,我们必须对判别准则进行修正,最后通过修正判别准则进行打 分。我们需要解决下列关键分析: 1.数据的处理。包括离散变量取值数值化,利用相关性分析对属性变量进行筛 选以及通过回归分析背景资料进行筛选。 2.建立适当的模型,提高判别结果的精确度。 3.必须通过对已知数据的深挖掘,找出修正判别准则的方法。 我们将整个问题分为如下两个问题,建立模型求解问题一,然后通过对判别准则 的修正,对模型进行改进以求解问题二: 问题一 通过对企业背景资料中 600 组数据的分析,给出判别准则,并对这 600 个企业重新打分,使打分与原打分尽可能相吻合。应用判别准则对 90 个待申请贷款企业中的前 53 名进行打分,以确定是否为其提供贷款。 问题二 修正判别准则,对 90 个待申请贷款企业中的后 37 名进行打分,以确定 是否为其提供贷款。3三、模型假设和符号系统三、模型假设和符号系统3.13.1 模型假设模型假设1. 所有属性变量都为无序列属性变量 2. 不考虑属性变量和数值变量在模型中的交叉作用 3. 不考虑模型对变量的多次回归相关性 4. 数据经转换后保留了原始数据的某些统计特征,即问题的可预测性 5. 给出的变量符号没有任何的意义6. 假设打分结果只与这 15 个属性有关,预其余的属性无关12,15,A AA7. 所有的申请者都可以分成两类,即打分为“+”与“”两类3.2 符号系统符号系统:表示任意一字符a :申请贷款企业的打分情况,分为与两类y :第 个申请贷款企业的打分值(1 或 0)ipi:第个属性变量jAj:两变量之间的相关性系数r:第 个申请贷款企业的信用值isi:第 个申请贷款企业的违约概率iPi:第个属性的权值系数jcj:第个属性的缺省信息均值。jj:申请贷款企业的总数,本文取 600 N:第 个申请贷款企业的第个属性值ijxij:第个未知属性值表示符号?j第 个待申请贷款企业第个属性的值ljxlj第 个待申请贷款企业的违约概率lPl第 个待申请贷款企业的信用值lsl:则表明申请贷款企业信用度不好,不发放贷款。“ “ :则表明申请贷款企业信用度好,可以发放贷款。“ “4四、模型的建立四、模型的建立4.14.1 数据的预处理数据的预处理4.1.14.1.1 离散型变量取值数值化离散型变量取值数值化由于本文属性变量的类型有两种:连续型和离散型,且离散型变量的取值均为字 符型,无法用相关函数来刻画属性和因变量之间的关系。所以,我们必须将离散型变 量取值数值化。因而,每个离散型变量的取值需重新定义。根据假设,给出的变量符 号没有任何的意义;数据经转换后保留了原始数据的某些统计特征,即问题的可预测 性。定义:任意一字符的取值: a ya aa (1)其中:当时字符的总个数 ya y a:不考虑类别时字符的总个数aya根据该定义,利用 SPSS 统计软件的强大统计功能,求出每个离散型变量的每个字 符的取值,使其变为数值型。处理结果如表一所示。表一表一 离散型变量取值数值化离散型变量取值数值化 属性离散型变量的取值 A1a = 0.4481, b = 0.4532 A4u = 0.5, y = 0.2857, l = 1, t = 0 A5g = 0.5, p = 0.2857, gg = 1 A6c = 0.4590, d = 0.2800, cc = 0.7500, i = 0.2549, j = 0.3333, k = 0.2889, m = 0.4286, r = 0.6667, q = 0.6032, w = 0.5172, x = 0.8235, e = 0.5833, aa = 0.3830, ff = 0.1458 A7v = 0.4282, h = 0.6311, bb = 0.4600, j = 0.3750, n = 0.5000, z = 0.7500, dd = 0.3333, ff = 0.1538, o = 0.5000 A9t = 0.7962, f = 0.0605 A10t = 0.7008, f = 0.2560 A12t = 0.4821, f = 0.4250 A13g = 0.4689, p = 0.5000, s = 0.26924.1.24.1.2 属性变量的筛选属性变量的筛选本文预先给出了大量的数据,因此我们先考察各属性变量间的关联性;一方面将与因变量()相关性不大的变量剔除,另一方面从自变量()之间相关性非常大yjA选择其一。根据假设,我们不考虑属性变量的顺序,即所有属性变量都为无序列属性5变量。利用 SPSS 统计软件对这 15 个自变量和因变量做相关性分析,可得到各个变量 之间的相关性系数( ) ,见附表一。r 我们定义两变量之间的强度关系如表二: 表二表二 两变量间的强度关系定义两变量间的强度关系定义相关性系数强度关系0.95r 存在显著性相关0.8r 高度相关0.50.8r中度相关0.30.5r低度相关0.10.3r关系极弱0.1r 认为不相关从相关性系数表中我们可以看出自变量和与因变量的相关性很弱,分别为1A12Ay0.005 和 0.057;而自变量和之间存在显著相关性,其相关系数为 1。这样,我们4A5A可以从 15 个自变量中剔除 3 个(这里选择、和) ,使变量数目减少。为了便于1A12A5A描述,本文将这剔除的 3 个变量给与保留,但令其权值系数分别为、10c 50c 。120c4.1.34.1.3 背景资料的筛选背景资料的筛选鉴于 12 个自变量都转化成数值型的变量。通过回归分析(假设不考虑变量的多次 回归相关性)对数据进行深挖掘,利用 MATLAB 对 600 家申请贷款企业的背景资料作 时序残差图(如图一) ,考察分析时序残差图,发现有 64 个奇异点(时序残差图中红 色线)见附表二,即有 64 家申请贷款企业背景资料应剔除,最后利用模型进行回代检 验也证实了这一点。6图一图一 时序残差图时序残差图4.24.2 模型的建立模型的建立4.2.1 Logistic 回归模型回归模型根据筛选后剩下的 536 个申请贷款企业背景资料及打分情况,对第家申请企业的打分值,令:1,2,.,600i i ip(2)0, iipi申请企业被打分为1, 申请企业被打分为在已经打分的 536 个申请贷款企业中,的值是已知的。ip由于 15 个属性变量的取值都已转化为数值型变量,且每一位申请者的 15 个变量 的值都是一个大于 0 的数,假设不考虑属性变量和数值变量在模型中的交叉作用,则 可以建立具有 15 个属性变量的 Logistic 模型:(3)150 11 1iisijij jPescc x 其中,为第 个申请贷款企业的信用值,第家申请企业的 15 个指标isi1,2,.,536i i 7为影响变量,为第个属性的权值系数,为申请贷款企业 的违约概率。1215,.,iiixxxjcjiPi由
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号