小研非现场审计系统业务的ETL

时间:2020-08-14 20:14:26 MBA毕业论文 我要投稿

小研非现场审计系统业务的ETL

  
  1.引言
  在商业银行中,用户对数据实时性的要求很高。在商业银行的一些系统中,如非现场审计系统,用户需要在很短的时间内对交易数据进行分析、统计,并把可疑数据上报,以尽量减少损失。这就要求系统所需数据必须在短时间内到达,但是这些系统的数据源十分繁多。

  审计系统中,审计人员需要的信息很全面,既包括个贷业务、信贷业务、私金业务,还要包括国际业务、资金业务和中间业务等,这些业务都有各自的系统,其中有一部分数据还取自于核心系统。而且数据存储在异构的环境中,比如它们使用不同的数据库,不同的操作系统环境等等,如何在众多系统中快速的提取数据和快速的形成一个系统所需的数据集市,这对我们是一个挑战。

  针对上述问题,本文提出了一个ETL模型。与其他商业银行常用的模型相比,本模型基于业务设计和实现,具有高效的错误恢复机制,能够利用基础任务和业务任务的划分,根据任务号单独执行出错的任务,而不用将整个ETL过程重新执行一遍,大大缩短了恢复错误的时间,从而可以更好地满足客户对于时间上的要求;与传统成熟的商业ETL工具相比,基于业务的模型设计与实现,可以根据每天的审计目标去创建ETL任务,减少了工作量。同时,此模型部分实现直接采用代码,针对性更强,灵活性更好,可以处理商业银行复杂系统中清洗和转换任务,最重要的是可以减少商业工具一些不必要的执行步骤,缩短了时间。中国硕士论文网提供大量免费mba硕士论文,如有业务需求请咨询网站客服人员!

  2.审计系统的ETL
  目标ETL 过程的最终目标是在合理的时间内实现了高质量的审计系统数据集市,以供客户审计业务数据。围绕此目标,本文必须合理、灵活、高效的设计ETL 过程,才能满足用户的需求。在此过程中,存在以下几个问题:

  1.灵活的ETL 控制过程。
  因为本审计系统涉及的数据源比较多,包括信贷系统、票据系统、核心系统等,根据客户要求,有的业务数据可能需要每天更新,而有的业务数据可能需要每两天更新一次。对于这种数据更新频率不统一的要求,本论文需要设计灵活的ETL过程,可以实现针对单数据源的操作。

  2.统一安全的抽取平台。
  由于数据源的繁多,而且数据存储在异构的环境中,比如它们使用不同的数据库,不同的操作系统环境等。这就要求本文要实现一个统一的抽取平台,以应对不同的数据承载平台、数据源和数据格式,同时要求在抽取构成中不能破坏源数据。

  3.快速的处理过程。
  由于用户要求数据的准实时性,要求在尽量短的时间内(比如两个小时)便可以审计业务,所以本文还要解决如何快速在众多数据源中提取数据和快速的.形成一个系统所需的数据集市,这对本文是一个巨大的挑战。

  4.自动化的处理流程,可定制的服务。
  由于商业银行的特殊性,要求数据抽取必须在午夜进行,所以本系统必须实现自动化的处理流程,尽量减少人工干预,降低服务成本。此外,还要实现客户定制任务,包括时间和频率等。

  5.高质量的数据集市。
  同样由于商业银行业务的特殊性,审计系统的数据一定要高质量,只有高质量的数据作为保证,整个数据集市项目所提供的数据才能体现出高价值,这就要求本系统在ETL 过程中一定要建立合理的质量保证和错误恢复机制。

  3.ETL 模型结构设计
  主要分为四个部分:控制台、ODS、ETL过程和审计系统数据集市。

  首先开发人员必须利用控制台初始化任务,建立源数据和目标数据集市中的映射关系。

  根据数据源的不同,建立不同的任务类型,以供用户选择。然后用户就可以利用控制台管理任务了,包括初始化任务、任务调度、异常处理和记录日志等。

  客户启动任务后,ETL过程会根据本次任务需要的数据信息从相应的数据源中抽取数据到ODS中。为什么要先将数据抽取到ODS中,而不直接进行清洗,装载到目标数据集市中呢?ODS是目标数据集市与外部源数据的接口,并且ODS在ETL中有着缓冲和保护的作用,在业务系统和数据集市之间形成一个隔离层,避免外部源数据直接向目标数据集市写数据。