资源预览内容
第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
亲,该文档总共4页全部预览完了,如果喜欢就下载吧!
资源描述
浅议计算机辅助审计中数据挖掘的应用【摘要】概括介绍了数据挖掘的内涵, 阐述了在计算机辅助审计中数据挖掘技术的应用, 且给出了在计算机辅助审计中数据挖掘技术的步骤。【关键词】 计算机辅助审计 数据挖掘 聚类分析ABSTRACT This paper briefly introduces the connotation of the data mining, Expounds the computer assisted audit in the application of data mining technology, And given in computer aided audit of data mining technology steps.KEYWORD assited audit data mining cluster analysis引言计算机辅助审计技术又称为利用计算机审计,计算机已经成为现代审计人员完成审计任务所不可缺少的工具, 计算机的使用使得审计人员大大地提高完成审计任务的效率。审计人员可以利用计算机编制审计计划,审计工作底稿,进行审计分析,查询有关法规条例,分析审计资料,对计算机会计系统进行测试等。随着数据库管理系统和先进快速的数据采集技术的广泛应用, 被审单位的数据积累量也迅速增长。被审单位提供的大量数据中涵盖着极其丰富的信息。但是要对这些以不同形式存储的数据资料所蕴含的信息进行充分的了解, 依靠传统的数据检索查询机制和统计分析方法来对被审计单位经济活动产生的电子数据来分析被审单位的经济活动情况是非常困难的。因着这样的问题, 数据挖掘等面向分析决策的计算机技术应运而生, 而且发展很快。在审计系统中采用数据挖掘技术可为现代化审计提供新的思路和方法, 可以大大地提高审计质量。正文一、 数据挖掘概述数据挖掘指的是从大型数据库或大量的数据中提取出新的人们感兴趣的、隐含的、先前未知的、对决策有潜在价值的知识的一种技术。在人工智能领域, 这种知识发现被归为归纳学习的一种。数据挖掘综合了各个学科技术, 有很多的功能,主要功能有以下几点: 1、关联分析。关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现而且概率很高时, 就存在某种关联, 可以建立起这些关联项的关联规则。 2、聚类。识别出分析对象内在的规则, 按照这些规则把对象分成若干类。 3、时序模式。通过时间序列搜索出重复发生概率较高的模式, 强调时间序列的影响。 4、分类。按照分析对象的属性、特征, 建立不同的组类来描述事物。 5、偏差检测。对分析对象的少数的、极端的特例的描述, 揭示内在的原因。 6、预测。把握分析对象发展规律, 对未来的趋势做出预见。需要注意的是, 数据挖掘的各项功能并不是独立存在的, 而是在数据挖掘中互相联系, 发挥作用。数据挖掘通过对数据的总结、分类、聚类和关联等分析, 实现对数据内在结构特征的理解和对未知数据的预测。作为一门处理数据的新兴技术, 数据挖掘有许多新特征。首先, 数据挖掘面对的是海量的数据, 这也是数据挖掘产生的原因。其次, 数据可能是不完全的、有噪声的、随机的,有复杂的数据结构, 维数大。最后, 数据挖掘是许多学科的交叉, 运用了统计学、计算机和数学等学科的技术。二、数据挖掘在审计中的应用针对审计系统中数据的特点, 包括数据的存储量、数据结构等特点, 可以从众多数据挖掘方法中选择2 种方法在计算机辅助审计系统中进行应用。(一) 聚类分析方法聚类分析是数值分析学的一个分支, 它将多元理论的分析用于分类。所谓聚类, 简单地说就是从数据集中找出相似的数据并组成不同的簇, 同一簇中的对象尽可能相似, 而不同的对象尽可能相异。通过聚类, 我们能够容易地识别密集的和稀疏的区域, 发现全局的分布模式和数据属性之间的相互关系。聚类分析能作为一个独立的工作, 获得数据分布的情况, 观察每个簇的特点, 集中对特定的某些簇作出进一步的分析。在我们常用的审计分析方法中, 一般都会检查数据的偏差、异常、极端值。例如: 在不同的数据组之间进行数据比较, 能够理解数量的量级; 按数值进行排序, 最大值和最小值能够一目了然; 确定数据值域, 确定数据最大值和最小值的差额和数据的分布情况; 简单时间序列, 如排列若干年来的管理费用; 确定事件、特定值的发生频率等。因此, 利用聚类分析方法, 我们可以通过与往年审计数据的比较, 分析出被审单位数据的真实性及准确性。(二)神经网络方法神经网络网络方法是在模拟人脑神经元而建立的MP 数学模型和Hebb 学习规则基础上, 提出的一系列的算法模型。神经网络基于神经元特性的互联模型, 具有并行分布处理数据和自适应、自学习的功能。神经网络具有高度的并行结构和并行处理能力, 因而具有较快的总体数据分析处理能力, 特别适合于审计系统。被审的各个单位彼此之间有较多的联系, 因此, 在审计过程中, 计算机处理审计数据需要具备较强的并行处理能力。同时, 神经网络是通过研究系统过去的数据记录进行训练, 找出输入与输出之间的内在联系。一个经过适当训练的神经网络具有归纳全部数据的能力。因此, 利用神经网络方法, 我们可以选择神经网络中的具体算法, 对被审单位的数据进行适当训练, 归纳出全部数据。通过分析数据, 可以检查出被审单位是否存在一些舞弊、违背规律和规定的行为。三、数据挖掘技术在计算机辅助审计中的步骤数据挖掘技术在计算机辅助审计中一般操作分为5个步骤。(一) 确定业务对象与审计目标 在开始知识发现之前, 最先的同时也是最重要的要求就是了解数据和审计业务问题。缺少背景知识, 就没法明确要分析的问题, 不能为挖掘准备数据, 也很难正确地解释挖掘得到的结果。(二)数据的采集 在建立模型前, 首先要导出被审单位财务管理数据。然后将数据导出后存入审计人员的电脑中, 置于审计人员自己定义的某一目录下。最后, 需要综合数据词典和数据库说明等技术文档对数据的含义, 对审计业务、审计业务流程的理解等方面的认知情况, 对数据产生全面深入的认识。分析数据是找到与要分析的主题相关的数据表和数据字段, 预测对分析结果影响较大的数据。在分析的基础上, 为建立模型选择变量、选择记录, 并将数据进行适当的变换, 使之成为适合于数据挖掘的形式。数据变换可能涉及数据标准化, 即将属性数据按比例缩放, 使之落入一个小的特定区间。数据变换也可能涉及数据概化等。数据概化指使用概念分层, 用高层次概念替换低层次“原始”数据, 例如: 将银行机构中的支行映射到其所属的二级分行, 按二级分行进行分析。(三) 数据的整理及准备 由于数据可能是不完全的、有噪声的、随机的, 有复杂的数据结构,所以要对数据进行初步的整理, 清洗不完全的数据, 做初步的描述分析,选择与数据挖掘有关的变量, 或者转换变量。(四)建立模型 建立模型是一个反复的过程, 需要根据分析主题和数据情况来考虑用哪一种孤立点分析方法对要解决的问题最有效, 有时需要根据实际情况, 在已有的挖掘算法基础上, 结合各类算法的优点, 形成新的改进算法。而且, 在数据挖掘过程, 并不是写好算法后剩下的一切就可以自动完成。任何一个模型都需要人员的参与, 不仅是设计人员, 同时也要包括经验丰富的审计人员。对建立好的模型要进行试用, 由对被审单位业务熟悉的审计人员对挖掘结果进行评价。在某些模型中, 输入参数阈值的控制以及概念分层等知识, 都需要由熟悉业务的专家提供建议。随后, 应根据模型分析的结果, 对模型以及模型的输入参数的值等进行反复的修正和完善。(五) 评价和解释结果 挖掘工具常提供可视化的工具展现挖掘结果,最后要对该结果进行分析、评价,并合理解释挖掘的结果。结果不理想时,可以寻求别的算法,或调整挖掘算法的有关参数。挖掘结果为审计人员提供问题的线索, 审计人员仍需根据线索进一步追踪检查相关资料, 落实问题。四、结论数据挖掘是从大量的数据中提取隐含在数据中的、先前未知的、并有潜在价值的知识的过程。目前, 数据挖掘的主要目的是向管理者提供分析决策的支持。数据挖掘的许多知识对于审计工作来说未必全部都是有用的,然而数据挖掘主要用于发现一些异常的数据和行为, 这些信息通常是审计工作中需要特别注意的重点。对于一般被审单位, 我们都可以使用具体的数据挖掘技术来检查一些舞弊、违背规律和规定的行为。因为这些行为产生的数据一般是隐藏在大量正常数据下的少量数据, 而且很可能以不同于一般数据的形式表现出来, 通过数据挖掘可以有效地发现这样的异常数据。以达到利用数据挖掘完成审计工作的功能,大大降低了审计风险。参考文献1 陈伟, 刘思峰, 邱广华.计算机审计中一种基于孤立点检测的数据处理方法J .商业研究, 2006, 24(17) :44- 47.2 汪加才, 朱艺华.面向计算机审计的移动数据挖掘服务研究J .计算机系统应用, 2006, 12(3) :39- 42.3 陈文伟.数据仓库与数据挖掘教程M .北京: 清华大学出版社,2006.4 孙吉贵,刘杰,赵连宇. 聚类算法研究J. 软件学报,2008,19(1):48-61.5 翟剑虹. 聚类和分类方法在上市公司财务舞弊分析中的应用D.吉林大学硕士学位论文,2007 年4 月. 7 张丽娟,李舟军.分类方法的新进展:研究综述J.计算机科学,2006,33(10):11-15.8 廖轶. 基于孤立点的数据挖掘研究及其在计算机审计系统中的应用D.北京交通大学硕士学位论文,2007 年5 月.
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号