首页 理论教育 大数据环境下的审计技术与工具创新

大数据环境下的审计技术与工具创新

时间:2026-01-22 理论教育 东北妞 版权反馈
【摘要】:但是在审计领域,大数据智能分析技术的应用还处于探索阶段,以理论研究为主。在大数据环境下,数据信息量大、内容多,所以审计人员在对大数据进行综合比对和分析中一般采用Oracle数据库。(三)大数据可视化分析技术与工具人类获取信息的途径多种多样,视觉是最高效的一种。

一、大数据环境下的审计技术创新

对大数据技术的研究主要从三个方面展开:

第一,大数据智能分析技术。这种技术研究的主要内容是各种高性能的处理算法、智能搜索和挖掘算法。它顺应了目前大数据研究分析的潮流和趋势,站在计算机的角度看问题,注重计算机的计算能力和人工智能,比如各类机器学习和数据挖掘的方法。但是在审计领域,大数据智能分析技术的应用还处于探索阶段,以理论研究为主。

第二,大数据可视化分析技术。这种技术以人为主体,人既是分析主体也是需求主体。从这个角度进行研究,在分析方法上注重人与计算机的配合,符合人的认知规律。大数据可视化分析技术主要在数据分析中融入人类的认知能力,这种能力是机器所不具备的。大数据在审计领域的应用中,这种可视化分析技术相对比较成熟。

第三,大数据多数据源综合分析技术。这种技术是使用数据查询、大数据技术方法等一些常用的方法对搜集来的各类数据进行综合对比,分析彼此之间的关联,目的在于从中发现隐藏的审计线索。在审计领域,这种大数据分析技术的应用也比较广泛和成熟。在大数据环境下,数据信息量大、内容多,所以审计人员在对大数据进行综合比对和分析中一般采用Oracle数据库。[14]

(一)图形数据库技术与工具

随着大数据时代的到来,传统的关系型数据库如SQLServer、MySQL等已经难以支撑目前大数据审计需要。因此,NoSQL横空出世。图形数据库是NoSQL数据库家族中特殊的存在,用于存储丰富的关系数据。在大数据时代,涌现出很多种数据库,图形数据库就是其中一种,这种新型数据库系统以数学中图论的理论和算法为基础,可以处理复杂关系的网络,且效率很高。在图形数据库的结构中,图由顶点、边和属性三个部分组成,顶点也称作节点,边也称作关系,节点可以带标签,节点和关系也都可以设置属性。

图形数据库是专门为处理复杂关系而创建出来的,擅长处理大量的、复杂的、互联的、多变的网状数据,且处理效率远远高于传统的关系型数据库。因此,它特别适用于社会网络、实时推荐、金融征信系统领域的大数据分析。大数据环境下,可以借助图形数据库技术开展大数据审计,发现审计线索。

(二)自然语言处理技术与工具

自然语言处理技术(简称NLP)是语言学、逻辑学、计算机科学、人工智能等计算机和人类(自然)语言交叉的研究与应用领域,它主要研究如何实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理研究与应用涉及的内容很广,各种技术及分类层出不穷,部分典型技术如图6-1所示。

第一,词性标注(简称POS)。词性标注又称词类标注或者简称标注,即确定句子中每个词的词性,如名词、动词、形容词、副词等。

第二,词干提取。词干提取就是将词语去除变化或衍生形式,转换为词干或原形形式的过程。

第三,词形还原。词形还原就是将一组词语还原为词源或词典的词目形式的过程。

第四,句法分析。句法分析的主要任务是自动识别句子中包含的句法单位,以及这些句法单位相互之间的关系,即句子的结构。

第五,命名实体消歧。命名实体消歧就是对句子中提到的实体进行识别的过程。一般而言,命名实体要求有一个实体知识库,能够将句子中提到的实体知识库联系起来。

图6-1 自然语言典型处理技术

第六,命名实体识别。命名实体识别就是识别一个句子中有特定意义的实体并将其区分为人名、机构名、日期、地名、时间等类别的任务。

第七,语义文本相似度分析。语义文本相似度分析是对两段文本的意义和本质之间的相似度进行分析的过程。

第八,文本摘要。文本摘要就是通过识别文本的重点并使用这些重点创建摘要来缩短文本的过程。文本摘要的目的是在不改变文本含义的前提下最大限度地缩短文本。

第九,情感分析。情感分析就是使用自然语言处理技术来识别客户评论的语义情感、语句表达的情绪正负面,以及通过语音分析或书面文字判断其表达的情感等。

第十,机器翻译。机器翻译是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,也称自动翻译。

第十一,文本相似度分析。文本相似度分析是对两篇(段)文本内容之间的相似度进行分析的过程。文本相似度计算在信息检索、机器翻译、文档复制检测等领域有着广泛的应用。

自然语言处理技术可用于文本相似度计算、信息检索、语音识别、文本分类、机器翻译等方面。用于自然语言处理的平台或工具较多,一般基于Python、Java、C或C++等不同的设计语言来实现。

(三)大数据可视化分析技术与工具

人类获取信息的途径多种多样,视觉是最高效的一种。大数据时代的数据分析,使用图形来表达含义的情况非常普遍。大数据可视化分析技术包含多方面的内容,比如文本可视化、多维数据可视化、网络可视化和时空可视化等。

当前,大数据可视化分析工具中应用较广的主要有:

第一,R语言、Python、Processing^开源的、可编程工具。

第二,Tableau、Qlikview、SAS、SAPBusinessObjects水晶易表、IBMCognos等比较商业化的软件工具。R语言、Pythoni吾言等在大数据可视化分析工具中是比较简单的分析软件,根据审计的需要,对大数据可视化分析工具做如下分析:

标签云、散点图、条形图、折线图等常用的数据可视化技术。

1.散点图分析

散点图分析的方法是:从散点图中可以看出横轴和纵轴数据之间的变化关系,这种变化关系可以利用可视化分析工具被清楚地展现出来。

实现散点图分析方法:在审计领域工作中,散点图分析方法起到了一定的作用。审计人员利用散点图分析可以了解客户购买股票的情况,也可以知道客户购买的股票类型并对其进行分析。

2.条形图分析

条形图分析的方法是:在数据分析中,经常使用条形图。利用条形图,可以把表格中的行数据和列数据做成条形图,可以更直观地看出不同项目之间的情况。条形图使视觉上更直观,让审计人员容易比较不同项目之间的数据;也便于掌握不同项目数据之间的差距。

实现条形图分析方法:在审计领域工作中,条形图也起到了一定的作用。审计人员利用条形图分析可以了解客户购买股票的情况,也可以知道客户购买的股票类型并对其进行分析。

3.折线图分析

在数据分析中也经常使用折线图。实际数据分析中可以把表格中的行数据和列数据变成折线图,更清晰地看出不同项目数据的不同。折线图方便了审计人员的工作,更直观地看出不同项目数据的大小,并比较不同数据之间的差别。而且折线图反映的数据可以体现出不同时间数据的变化情况,显示连续数据。因此,在同样的时间间隔下,用折线图来分析数据具有明显的优势。

实现折线图分析方法:在审计领域中,折线图也起到了一定作用。审计人员利用折线图分析可以了解到客户购买股票的情况,也可以知道客户购买的股票类型并对其进行分析。

4.标签云分析(https://www.xing528.com)

大数据时代,审计人员每天要分析大量数据,这大幅提高了审计人员的工作难度,传统的浏览和筛选方法根本无法完成如此庞大的数据分析,无法满足当前发展的需要。使用视觉的形式展示文本数据,可以减轻审计人员的工作负担,使得处理数据的效率更高,也不会遗漏重要信息,有助于发现审计线索。

标签云是可视化分析中一种比较常用的方法,它的组成部分主要是习惯标签或者与标签对应的权重,标签的排列有一定的顺序,比如有的按照字母顺序,也有的按照颜色的深浅来排序,将需要处理的文本用可视化的方式展示出来。此外,标签字体大小、标签颜色和视觉呈现的效果是由权重值的大小来决定的。被审计的文本数据,采用标签云可视化分析方法,可以有更全面的认识和了解,有利于从总体把握。标签云分析的实现步骤主要有以下几个方面:①分词;②对词语出现的频率进行统计;③根据词频对颜色、字体大小进行自动化设置并通过视觉展现出来。

实现标签云分析方法:可以使用R语言、Python等方法,对文本数据进行标签云分析。

二、大数据审计工具分析

大数据分析也有一定的条件限制,比如需要有效分析大量数据的技术,而且要在一定的时间内完成。各种大数据技术的产生,都是为了适应发展的需要,大数据时代需要从海量数据中获取有用的信息,对大数据技术也提出了更高的要求,这些技术覆盖多个学科领域,比如经济学、统计学等。与此同时,也开发了一些分析大数据工具。不同的大数据分析工具有不同的专长,一些擅长批处理数据分析,一些擅长实时数据分析。另外,一些大数据开源工具也可以很好地帮助审计人员开展大数据审计工作。

(—)R语言

1.R语言的优点

在统计领域,R语言使用非常广泛。它是S语言的一个分支,使S语言得以实现。S语言属于解释型语言,它主要用于探索各类数据、统计分析和制作图表。S语言一开始的实现版本是S-PLUS。

R语言作为一种统计分析软件,集统计分析与图形显示于一身,是一个免费的自由软件,很多统计分析和绘图技术都由它提供,比如线性和非线性模型、统计检验、分类、时间序列等方法。它有Unix、Linux、MacOS和Windows版本,都是可以免费下载和使用的。R语言的主要优点包括:

第一,使用方便。R语言是一款开源的大数据可视化分析软件,目前广泛应用于数据分析与统计等领域,是目前最受欢迎的数据分析和可视化软件之一;R语言软件安装方便,所占计算机内存小;相较其他编程语言而言,其操作难度要小很多。这些特点为审计人员应用R语言提供了方便。

第二,数据采集功能强大。R语言能读取各种不同类型的被审计数据,如Microsoft Excel、SPSS、SAS等,以及从网页上抓取的数据,完全满足审计人员开展大数据审计工作的需要。

第三,数据分析功能强大。R语言包含众多不同功能的函数、程序包,可满足审计人员的需要;作为免费开源软件,用户还在不断创建新的程序包来更新丰富R语言的使用功能;R语言作为大数据分析软件,能够实现大量数据分析。

第四,大数据可视化功能强大。R语言强大的数据可视化功能可以满足审计人员在可视化分析方面的各种需求。利用关联、聚类等建模手段,通过可视化手段直观分析被审计数据间隐藏的各种关联信息,方便审计人员对分析结果进行宏观观察、分析,从而帮助审计人员从被审计大数据中发现审计线索及其规律。

2.R语言开发工具

第一,Rstudio。Rstudio是一个R语言集成开发环境(简称IDE)。主界面分为4个部分:默认左上角是一个代码编辑器,左下角是一个控制台和终端,右侧包含多个可选的功能标签,包括环境、命令历史、文件目录、绘图、数据源连接、包管理、帮助、构建工具、VCS以及查看器。在Rstudio中可以直接运行代码,支持绘图、历史命令显示、代码调试和工作空间管理。

第二,其他工具。除了以上工具外,R Commander、Rattle、StatET、Tinn-R等也是比较常见的Ri吾言开发工具。

第三,基于R语言开发工具的数据采集。在采用R语言开发工具进行数据审计时,需要把相关数据采集到r语言开发工具中来。R语言开发工具可以采集多种类型的数据,如统计软件SAS、SPSS、Stata,文本文件ASCII、XML、CSV、Web抓数据,数据库数据Oracle、Microsoft Access、MySQL,电子表格数据Microsoft Excel等,很好地满足大数据审计的需要。

(二)Python

借助R语言开发工具,审计人员可以做数据查询、文件分析、数据可视化分析等数据分析,从而发现审计线索。Python是一种高级程序设计语言,它的主要特点是面向对象、以解释为主、数据动态化。1991年,发行了第一个公开发行版。Python的语法比较简洁便利、表达清楚,而且功能多样,学起来也很容易,类库也很丰富和强大,很少受到限制,还可以跨平台使用。由于Python的优点突出,所以从产生一直到今天得到了广泛的应用。

很多开源的科学计算软件包都提供Python调用接口。所以,工程技术和科研人员在分析实验数据、制作图表和开发计算机应用程序中都可以使用Python语言以及它丰富的扩展库。商用软件Matlab的大部分常用功能都可以在Python中找到相应的扩展库。

(1)Python特点。

第一,免费、开源和可移植性。Python拷贝可供使用者自由发布,也可以阅读它的源代码甚至对其进行改动,应用在新的自由软件中。

第二,易于维护和阅读。Python代码定义清晰,源代码相当容易维护。

第三,拥有十分丰富的库。Python是一个庞大复杂的标准库,可以处理各种各样的工作,比如生成文档、单元测试、网页浏览器、数据库、线程、图形用户界面等。除了标准库以外,还有许多其他高质量的库,如Python图像库等。

第四,可连接各种类型的主流商业数据库。Python提供所有主要的商业数据库接口,可以连接各种类型的主流商业数据库。

第五,在科学计算方面优于Matlab。Matlab是一款商用软件,而Python完全免费;与Matlab相比,Python能让用户编写出更易读、易维护的代码;Matlab主要专注于工程和科学计算,而Python的拓展库十分丰富,对于各种高级任务也可以轻松完成,利用Python,开发者可以实现完整应用程序所需的功能。

(2)常见的Python开发工具。审计人员可以使用最基本的文本编辑器进行Python编程,也可以用功能丰富的Python集成开发环境工具进行Python编程,常见的Python开发工具包括:

第一,PyCharm。作为专业的全功能Python集成开发环境,它来自JetBrains公司。PyCharm有两个版本:免费的社区版本;面向企业开发者的专业版本。

第二,Spyder Python。作为一个开源、免费的Python集成开发环境,非常适合用来进行科学计算方面的Python开发,它可以运行于Windows、MacOS、Linux等操作系统上。

第三,Pydev。作为一个运行在eclipse上的开源插件,它是免费、功能强大、使用普遍的Python集成开发环境。它还提供很多强大的功能来支持高效的Python编程。

第四,PTVSPTVS是开源、免费的Python集成开发环境,它集成在visualstudio中,将visualstudio变成了一个功能强大、丰富的Python集成开发环境。

第五,Anaconda。作为一个用于科学计算的、开源的Python发行版本,包含Python和相关的配套工具,提供了包管理与环境管理的功能。

第六,Spyder。作为一个强大的交互式Pythoni吾言开发环境,提供高级的代码编辑、交互测试、调试等特性,支持Windows、Linux和MacOS系统。和其他的Python开发环境相比,Spyder最大的优点就是可以很方便地观察和修改数组的值。

第七,其他工具。除了以上工具外,Eric、WinglDE等也是比较常见的Python开发工具。

(3)Python的数据采集。Python开发工具进行数据审计时,需要把相关数据采集到Python开发工具中来。Python开发工具可以采集多种类型的数据,如文本文件CSV、Web抓数据;数据库数据,如Oracle、MicrosoftAccess、MySQL等数据库中的数据;电子表格数据,如Microsoft Exce擞据等,很好地满足了大数据审计的需要。

(三)Tableau

Tableau常见的商业化数据可视化工具软件很多,如Tableau、Qlikview、SAS、SAP BusinessObjects水晶易表、IBM Cognos、Microsoft Excel等。

Tableau是一款较为简单的数据可视化工具软件,它实现了数据运算与美观图表的完美结合。用户只需要将大量数据拖放到数字“画布”上,便能创建所需要的各种图表,如气泡图、柱状图、条形图、热力图、折线图、饼图、散点图等。Tableau分为:①Desktop版。Desktop又分为个人版和专业版,个人版只能连接到本地数据源,专业版还可以连接到服务器上的数据库。②Server版。Server版主要是用来处理仪表盘,上传仪表盘数据进行共享,用户通过访问同一个Server就可以查看到其他同事处理的数据信息。审计人员可以采用Tableau连接各种类型的被审计数据,包括所有主流数据库,以及Hadoop等数据库。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈