医保欺诈行为的主动发现-数学建模论文.doc-

2015 年深圳杯数学建模竞赛论文医保欺诈行为的主动发现参赛队员：姓名学号学院所在系联系电话戴鑫10131629信息学院自动化15356573010吴倚天10132376理学院数学与应用数学13764861265马先强10131048药学院制药工程187212918022015 年 5 月 30 日摘要中国医保体系覆盖面的不断扩大帮助了无数身患重病但无钱救治的家庭，但随之而来的是某些不法分子利用医保服务的漏斗进行骗保的违法行为，这使得国家医疗体系支出增多，医疗体系经济压力增大。要解决这一问题，防止医疗骗保，医疗体系必须全面掌握病人的行为记录和背景信息。但是由于医疗体系面对的病人信息太过庞大，且变化十分迅速，不可能使用传统的方法逐一检查病人的行为记录和背景信息，而必须使用高效和自动化的数据库挖掘工具，扫描病人行为，找出那些高度可疑的潜在违规用户进行调查，及时制止这部分用户的违规行为，防止危害的进一步扩大。数据挖掘是很好的处理大量数据，从中挖掘信息和知识的工具。对骗保行为来说，这一违规行为的病人在整个病人数据库中所占比例较小，且这部分病人的拿取药时间和开药金额等信息往往表现异常，与正常用户很不一样。就开药金额单张处方费用问题来说，如果将整个病人数据库视为一个点集，这部分病人就可以被视为“孤立点”。数据挖掘中的孤立点挖掘方法可以通过辨别孤立点和正常点之间的差异性找到他们。本论文采用基于分辨率的孤立点挖掘算法（RB 算法），建立了病人评估模型。 RB 算法最主要的优点是适用于海量的数据库，并且无需引入参数。但是 RB 算法仅从数据集全局出发寻找孤立点，会导致孤立点的寻找过程中忽略了数据点所在的类的密集程度对孤立点的影响。所以在 RB 算法的基础上提出了密集度加权的分辨率孤立点挖掘算法（WRB 算法），WRB 算法计算每个孤立点相距最近的类的稠密度测度作为分辨率的权重。从全局和局部出发，综合考虑数据点周围的点的个数以及每个孤立点与距离本身最近的类的密集度对比来计算每个数据点的孤立程度。就病人取药时间的问题，将病人的取药时间看作一个个点，将点的个数以及密集程度赋值，将一个病人的取药时间量化成一个值，使用一维格子分布密集度算法对其密集度进行度量，从而排序，最后结合实际，进一步提出了混合密度算法。最后我们将病人数据代入模型，通过 MATLAB，利用 RB 算法、WRB 算法以及密集度算法得出可疑病人，RB 算法以及 WRB 算法的交集即为可能用高额处方骗保的病人，而利用混合密度算法得出的孤立程度较大的点，即为可能存在骗保的病人。最后我们给出了每个科室的孤立程度最大的前十名，供有关部门进行调查，同时也给出总体前 10 名，在人力物力不足情况下，可优先调查。本文的创新点在于从孤立点挖掘的 RB 算法出发，考虑密集程度对孤立点的影响，在 RB 算法的基础上引入权重参数，构造了 WRB 算法。同时在考虑费用的基础上，考虑了拿药时间，从多角度验证嫌疑用户的欺诈行为。关键词：医疗骗保，数据挖掘，孤立点，孤立因子，密集度一、问题重述医疗保险欺诈，是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中，故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段，一是拿着别人的医保卡配药，二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈：单张处方药费特别高，一张卡在一定时间内反复多次拿药等。我们已经拥有了病人资料、费用明细表、费用费表等核心的一些数据，我们需要在这些数据中找到可疑的病人或处方。二、数据处理与分析2.1 数据预处理输入数据是孤立点挖掘的一个重要特征。模型的输入，一般是数据记录的整合，每个数据实例可以用一组属性值（也称特征，变量，维度等）来描述。属性值可以有不同的类型，如布尔型，连续型和离散型等。每个数据可以包含一个或多个类型相同或不同的属性。属性的性质决定了孤立点挖掘技术的适用性。比如，对于基于统计学的挖掘模型必须输入连续型或离散型额数据。本次的实验数据来自附件的 excel 中，由于数据存在着不完整，不规范，不匹配等问题，为了提高数据挖掘的质量，去除会对结果产生影响的因子，需要对数据进行预处理，数据预处理的过程包括三个步骤：（1）数据清洗：对于数据缺失项，根据其余各表补充，若无法补充关键要素则删除该数据。去除前后属性明显矛盾可能是由于记录错误而引起的数据项，如药品单价与费用为负值。（2）目标数据提取：第一题研究的单张处方药费特别高，而材料只给出了账单中的一个个条目，通过对 30 万条记录的比对，我们发现一张处方对应一个账单号，于是我们以同一账单号为条件，对数据进行条件加和，得到一个个对应一定费用的账单。此外我们对于每个病人的取药次数与分布也进行了提取。（3）数据规范化：由于附件中给出的费用数据范围太大，造成计算复杂度大大提高，故将数据属性数据按比例缩放，使之落入一个小的特定区间，本次实验采取的是最小-最大规范化方法，即对原始数据进行线性变换。假定属性 A 的最小最大值分别为 minA 和 maxA，那么规范后的 A 的属性值为Vv - minAmaxA - minA2.2 数据情况概述在建立模型之前我们希望通过观察数据的分部情况来决定采取什么算法去估计哪些用户为可疑用户，以八号科室为例，如下图由上述数据点可以看出，点的分布在一定程度上出现在一些区间集聚的特征，也就是如图所示的几个明显的条带，并且在最大点处，虽然寻找过大点的最直接思路是找最大的点，但我们可以看到，在最大值附近，有三个点，呈现了一定薄的层的特征，也就是说可能这虽然是个大的处方，但它可能也是正常的，比如是对一些严重疾病的处方，是正常处方，只不过概率比较小罢了。所以判断过高点不能仅从价格来判断，应该结合他的分布，一个感冒药的处方过高时，会脱离他的正常区间，在此过程中很可能停在一个不属于任何区间的“中间区域”，这种处方虽然可能价格不高，但它也应属于“过高点”的概念。通过以上分析，我们决定利用孤立点的概念，通过计算与点的孤立程度的方式来寻找这些不寻常的过高点。并且考虑到科室皆有集聚现象，但集聚情况并不相同，又为了防止一个科室的集聚遮住另一个科室的孤立点，我们采用了分科室讨论的方式。模型假设（1）不考虑科室中只有一个人得某种病，比如儿科中只有一个孩子得小儿麻痹的数据，导致此数据与儿科中其他数据明显不同，默认为每种病都有几个可用的数据。（2）不考虑某病人分开多次配药，我们默认每个病人配药就配一次或者极少次。即一个处方对应一个账单号。（3）只考虑费用的总和，某种费用有问题视为总费用有问题（4）不考虑由于特殊情况而出现的需要过多取药的情况四、符号说明1.对于过大问题名次含义符号相对价格x孤立因子ROF每一步的分辨率大小r1，r2，r3Smin 到Smax 之间所有分辨率变化次数R簇所包含的所有点的个数ClusterSize分辨率未变化钱r0分辨率变化次数t分辨率变化到当前步骤T2.对于取药过多问题设一个病人共有 n 次取药记录，且记录分别落入 m1,m2,m3,m4.mj 的日子，由于本次数据的日期只有 1 月 1 日到 1 月 31 日，以及 3 月 24 日，所以使其分别对应 1,2,3.31 以及83，因为 3 月 24 日数下来就是 83（31+28+24），于是 m1,m2,m3,m4.mj,落于1,2,3.31,83的区间，设各个日子有 gj 个记录，即有 gj 个点，把一个点记为 amjii ，即为该病人的第 i 个数据，且其落入 mji 日子,ji 表示这第 i 个点对应的日子序号。此外，在一维格子分布密集度算法下，定义 Mi 为第 i 个点的密集度分数，而 D 为所研究的那一个病人的总体密集度分数而在本文的改进算法中，取 E 表示该病人的最终合成密度分数，R 表示日间系数，表示病人数据在天与天之间分布的密集程度。而 k 表示单日最高次数占最终合成密度分数的比例，而（1-k）表日间系数所占比例。五、模型建立1.对于过大问题RB 算法：基于分辨率的孤立点挖掘思想，当分辨率十分高时，所有的点都可以被视作孤立点，当分辨率十分低时，所有的店都属于同一个类，即不存在孤立点。当分辨率增大的时候，相对更孤立的店就更容易被抛出。当分辨率逐步降低时，孤立度不高的点会被抛进一个类里去。因此，当分辨率不断变化，数据集中的每个点都会有一个累积的属性，可以用某个点的累积的类属性来度量这个点对于离它最近的类的孤立程度。首先定义邻近点的概念：在一个 k 维的数据空间 D 中，如果距离点 O 最近的 P 与点 O 之间的距离小于等于 1，那么 P 点就被定义是点 O 的邻近点，且 P 所有的邻近点也是 O 的邻近点。这里阀值被设为 1，而实际上其倒数就为分辨率，事实上这个阀值的初值的设定并不重要，因为当分辨率变化时，空间两点之间的距离是一个相对值。分辨率算法可以找到一个分辨率值使得所有点相互之间的距离大到没有一对能成为邻近点，也可以找到另外一个分辨率值使得所有点都是邻近点。下面定义基于分辨率的孤立因子（ROF）：当一数据集的分辨率在最大值和最小值之间变化的时候，数据集中某个点的孤立因子为，分辨率变化时，前后两个包含这个点的簇的大小的比率的累积值，即：ROF（O） R ClusterSize（O,rl -1）-1l 1 ClusterSize(O, rl )WRB 算法：RB 算法虽然具有无参数，鲁棒性高，实时性，更新能力强等优点，但是有两个缺点（ 1 ）判断孤立点的依据测度RClusterSize（O,rl -1）-1ROF（O），完全依赖聚类产生的类所包含的点的个ClusterSize(O, rl )l 1数。而没有考虑到不同的的类有不同的稠密性，在聚类的时候，也只是由全局设定的分辨率以及两点之间的欧式距离来决定目标点是否应该被划入某个簇。在对孤立点按孤立程度排序时，往往因为忽略类的稠密度，和数据点周围的局部环境使得孤立点的排序不正确，也就是说一个点在对一个较密集与较疏集欧式距离相同的情况下，其相对于较密集的孤立程度应比相对于较疏集的孤立程度要大，所以体现在算法上，其算法的等效距离要大。于是，在 RB 的基础上我们提出了WRB 算法给定一个数据集 D，在当前分辨率下设定每个类的初始稠密度=1 If（在当前的分辨率下，类没有融合进新的数据点）该类的密集度不变Else 类的稠密度=clustersize/M M=已经变化的分辨率值和倒数和当每个类如果融合进了新的点，类所在的范围