首 页 行业热点 新车 试驾评测 养车用车 车型库
当前位置:首页新一代税务行业大数据服务平台支撑数据管税解决方案-v1.2

新一代税务行业大数据服务平台支撑数据管税解决方案-v1.2

2020-04-07 来源:好土汽车网
导读 新一代税务行业大数据服务平台支撑数据管税解决方案-v1.2
新一代税务行业大数据服务平台支撑数据管税

解决方案

目 录

1

总体业务需求分析和整体架构概览 ...................................................... 错误!未定义书签。 1。1 新时代的税务管理要求 ......................................................................................... 1 1。2 税务行业信息化建设现状 ...................................................................................... 4 1。3 大数据服务平台整体架构概览 ............................................................................... 4 2

理论指导数据治理之需求和技术分析 ................................................... 错误!未定义书签。 2.1 数据治理综述 ........................................................................................................... 5 2。2 定义业务问题,以指导方向 .................................................................................. 6 2。3 获得管理层支持,以获得组织和资源保障 ............................................................. 7 2.4 执行成熟度评估,以了解现状和确定将来所达目标 .................................................. 8 2.5 创建数据治理路线图 ................................................................................................ 8 2。6 建立数据治理组织蓝图 ......................................................................................... 9 文档名称 作者 邮箱 版本 变更记录 新一代税务行业大数据服务平台支撑数据管税解决方案 V1.0 2016/7/21 V1.0 2016/7/24 V1。2 2.7 创建数据字典/业务术语库 ....................................................................................... 9 2.8 理解业务和数据 ..................................................................................................... 11 2。9 创建元数据存储库 .............................................................................................. 11 2。10 定义度量指标 .................................................................................................. 13 2。11

主数据治理 ..................................................................................................... 14

2。12 治理分析 ......................................................................................................... 15

2.13 管理安全和隐私 .............................................................................................. 16

2。14 数据生命周期治理 ........................................................................................... 16 2。15 度量结果 ......................................................................................................... 17 3

理论指导大数据服务平台建设之需求和技术分析 ................................. 错误!未定义书签。 3。1 数据对数据管税的价值 ....................................................................................... 17

3.1.1 数据对税务的价值分析 .............................................................................................................. 17 3。1.2 税务数据价值实现分析 .............................................................................................................. 18

3.2 数据挖掘方法论指导大数据服务平台建设 .............................................................. 19 3.3 按业务主题和规则采集、加工数据以打好数据基础 ................................................ 22

3.3.1 数据采集平台 ............................................................................................................................ 22 3。3。2

数据加工平台 ...................................................................................................................... 23

3。4 合理利用各种报表工具,实现报表展现服务 ....................................................... 24

3.4。1 固定报表实现分析 ..................................................................................................................... 25 3.4。2 临时报表实现分析 ..................................................................................................................... 26 3。4。3

报表展示与可视化分析 ....................................................................................................... 27

3.5 灵活使用数据,实现多维分析和微创新能力 ........................................................... 28

3.5。1 多维分析技术设计 ..................................................................................................................... 28 3。5。2

标签体系设计 ...................................................................................................................... 29

3。5.3 微创新系统设计 ......................................................................................................................... 30

3.6 对内对外更好的数据共享和交换,扩充能力 ........................................................... 31

3.6.1 打破条线壁垒,实现数据共享 ................................................................................................... 31 3。6.2 实现数据流通,打通上下级和税务与其他部门的数据联系 ........................................................... 32

3。7 提供更好的开发模式,加速数据管税能力的提升 ................................................ 32

1.1 新时代的税务管理要求

新一代税务行业大数据服务平台的总体目标是实现“数据管税\".

新时代的税务管理要求是,以税收风险管理为主线,以现代信息化先进技术为依托,加强业务和技术的融合,优化资源配置和税源管理体系,优化服务,规范执法,不断提高税法遵从度和税收征收率,形成新一代税收征管新管理方式:

1) 服务优化:税务管理部门的定位要从企业税务管理角色向企业税务服务角色转变,要利用

现代化手段进行税务管理工作,在减少对企业日常经营的干扰情况下,保证税务管理工作的有效进行,成为纳税人与国家连接的桥梁;

1

2) 以风险管理为主线:结合先进技术和创新管理手段,降低和防范税收风险,做到事前重点

防控潜在税收征管风险,事中降低税收征管风险,事后具备有效手段,查处偷漏税,营私舞弊等违法行为;

3) 数据实现省市县分级分类管理:将数据情报管理、税收风险分析、风险应对任务管理、大

企业和跨境税源风险应对等重要管理事项集中调整到省局层面;市、县税务机关精简行政管理职责,主要承担直接面向纳税人提供纳税服务、实施风险应对的职责;

4) 强化税源专业化管理,探索“两个转变\":属地固定管户制到非固定管户制的转变,以及

无差别管理到差别化管理的转变。

在新时代的税务管理要求下,不能继续采用原来传统方式解决问题,要采用新的技术来解决;国家税务总局局长王军指出:“大数据时代,谁能掌握好数据、谁能利用好数据,谁就能提高洞察力、占领制高点。”大数据最重要的作用是提供了实现税务管理由“税管员管”向“大数据管”转变的技术基础。过去,由于受到技术、思维等多方面等的限制,人类在采集和使用数据时为了节约时间,增加准确性,更多采用了随机采样法,这个时代被称为“小数据时代”。小数据时代的特点是:样本随机性、数据精确、因果关系论、结果群体化。在大数据时代,数据收集、存储和分析工具极大提升,这使得“样本=总体”的全数据模式得以实现,数据处理的总体特点变为:要全体不要抽样,要效率不要精确,要相关不要因果.这颠覆了千百年来人类的思维惯例,对人类认知和与世界交流的方式提出了全新的挑战.大数据时代中的税收管理也应当顺应时势变化,及时转变思维,提出创新举措。

目前,大数据技术主要应用在电子商务、金融、零售等领域,在实现“通过数据寻找到更多合适的客户、以及给客户推荐合适的产品,实现精准营销,从而给企业带来更多的收入和利润”上已取得长足有效的成绩;

税务行业的大数据所需要达到的业务战略目标与其他行业企业(例如电子商务、金融、零售等)是有比较大的差异,对于税务来说,大数据所需要达到的目标的第一重点是“根据企业的生产经营活动等各种数据,防止企业通过非法途径进行偷税漏税的风险管控,以及通过相应的数据,防止税务业务人员内部腐败的内部风险管控”,通过这个目标来实现数据管税,以达到国家所需要进行税务改革的这个战略目标。用大数据强化税收分析,对税收数据的分析应用将成为税务系统一项常规的重要工作,数据管税需要达到以下目标:

(一)结合风险管理和大数据理念,将大数据税收征管模式与先进的管理理念相结合,利用大数据技术和现有数据,对税务工作进行更好的风险管理:

1)结合大数据分析技术,让纳税评估更为准确:面对企业越来越复杂的经济业务,数量有限的税务工作人员无法投入太多的精力去详细了解每一家企业的生产流程,通过对海量数据开展分析,探寻,发现、理解信息内容及信息与信息之间的关系,结合对企业的规模大小、对生产经营活动成本、利润和税负率等指标的分析,对企业财务核算和纳税申报质量作出评判。

例如:在对纳税人、对税源的评估过程中,通过对纳税人或者税源长期的登记信息、历史交易记录、海关进出口信息、水电缴费以及银行借贷记录等多种信息与特征测试的数据汇总,来进行信用评级,从而使纳税评估更为准确;

2

例如:比对分析纳税人税收资质、应纳税(费)种的条件符合性、存在的风险疑点,跟踪分析后续动态变化,对风险疑点进行评估处理,并依法据实认定、调整或取消纳税人的税收资质、应纳税(费)种;

2)融合第三方涉税数据,提高税法遵从度和税收征收率:结合纳税人登记信息,申报信息、第三方涉税信息等数据,以大数据技术为基础,开展分析比对、风险识别、排序推送、风险应对,加强业务内控和遵从风险防范.

例如,将从工商、银行和统计等部门,以及互联网爬虫等途径获取的外部数据与纳税人申报数据作比对分析,从而更为准确地判断税源状况,进一步通过税源监控、税收分析、纳税评估和税务稽查等质量控制手段,达到堵塞漏洞、纠正偏差和提高税收质量的目的.

例如:在纳税人申报房产、土地明细时,利用房管、土管等部门信息进行比对,推进“以房控税”、“以地控税”、 “车船税联网征收\"等工作;

3)尝试业务系统变革,进一步防范涉税风险,提高税收征收率:如将纳税人申报缴税系统、收入系统、金融管理系统和财产系统等都纳入公民诚信系统,通过各个信息的比对,数据的分析,管控纳税人的资金流、信息流、货物流和生产经营信息,形成以数据质量管理为基础的风险识别、等级排序、风险应对和绩效评价的闭环风险管理体系,进一步防范涉税风险,提高税收征收率.

4)防控廉政,防范内部违法风险:通过优化流程、节点控制和全程操作数据留痕,实现税收执法权的透明操作、规范运行,从源头上防控廉政和执法风险。

5)通过纳税人画像,辅助管理:采集、处理、评价纳税人的信用信息,建立纳税人画像,建立纳税信用体系,据此实施分类服务、管理,辅助数据情报管理、税收风险分析、风险应对任务管理、大企业和跨境税源风险应对,同时还可以实现信用信息的共享。

例如:对信用好、无风险的纳税人不打扰,对低风险的纳税人予以提醒,对严重失信、高风险的纳税人实施重点监管;

例如:对于异地税务机关评价的纳税高信用等级纳税人,本地税务机关予以认可,与本地高信用等级纳税人企业享同等待遇;对于有违法记录的低信用等级纳税人企业,,本地同等监管。

6)建立风险特征库,自动预警防控:通过风险特征库和风险监控规则建立,预警预防偷漏税风险;

例如:将 “一址多照”、“一照多址”的纳税人列入重点关注对象,设计风险触发规则,防范其虚开增值税专用发票、 骗取出口退税等风险.

(二):充分利用广泛的数据开展税源分析,用数据说话、用数据改进管理、用数据推动创新,不断提高运用大数据的技术和分析大数据的能力,解决工作中的新情况和新问题,提高税收工作的针对性和有效性。

例如:实现根据相应企业所需要的税务管理和税务服务类型,来进行相应的税务业务人员任务分配;达到简单的税务业务由办事大厅(例如实体的办事大厅、电子税务局)进行支撑,复杂

3

的税务管理和税务服务业务有专业的税务业务人员进行支撑,即实现由数据来给不同的税务业务人员分配相应的、合适合理的任务.

(三)加强宏观、行业和微观税负数据分析,加强税收政策、经济和税收关系分析,进一步发现税收与经济之间的关系,从而更好地预测税收走势,科学估算收入规模,增强组织收入工作的预见性。

1.2 税务行业信息化建设现状

税务行业的信息化建设(金税工程)已经有近二十年的历史,因为技术发展的现实问题,同时由于税务组织机构职能、业务管理、规范、流程等的复杂性(其复杂性远远超过电子商务,甚至超过金融领域在信贷、风险、杠杆等三大核心要素所需要组织机构职能、业务管理、规范、流程等),税务信息化系统不可避免的存在较为严重的零碎化、数据孤岛、应用烟囱等现象,特别是建立在《全国税收征管规范》基础之上的核心征管系统以及其他各种生产业务系统, 存在如下图所示例的一系列问题:

税务系统信息化建设中,最为突出和典型的问题包括以下三个方面: 1)

数据杂乱:随着经济和技术的发展,出现越来越多的系统和数据.包括新建业务系统产生的数据、随着云计算和数据中心建设出现在税务系统中的外部交换数据、传统系统历史积累的数据等等。这些系统由于种种历史建设原因,存在采用的信息化建设规范不统一、数据格式不一致、数据表达不连贯等种种问题.这些问题导致每个业务系统在建设过程中,不信任已有的其他系统的数据分析结果,而选择从生产库直接获取原始数据进行分析和加工.这导致了大量的业务系统在建设过程中“干重复活”、“走重复路”、“做重复事”.严重影响地税工作效率。 2)

系统各自为政:在江苏省地税信息化建设过程中,各业务系统由不同的承建单位进行建设,缺乏统筹规划,系统之间的打通困难,数据缺乏交互碰撞。“烟囱式”系统仍然普遍存在。业务人员面对多样的系统,需要从不同的业务系统中找到描述一个业务情形的不同阐述角度的数据,以全面、客观地分析业务问题.这极大地影响了业务人员的工作效率。 3)

关联复杂:地税行业涉及数据众多,各地市具体情况又不完全相同,各地市依赖于省厅提供标准数据和业务模型,但在处理本地业务时会加入地方性特征的数据并对模型进行修正。这造成大量的相似但是有区别的数据,使得开发人员在进行数据开发时陷入判断相似数据准确性的困惑中,影响数据的可运维性和二次开发。

1.3 大数据服务平台整体架构概览

在当前信息化现状的基础上,要达到数据管税的战略目标,需要建立以数据为核心,以大数据技术为支撑的精确管理体系;基于税务组织机构职能、业务管理、规范、流程等的复杂性,我们必须要通过进行前瞻性的研究,形成相应符合税务行业所需要的数据治理、数据分析挖掘所需要的

4

方法论体系,从而形成符合税务行业所需要的大数据平台,从而让税务行业沉睡的数据苏醒过来、发挥价值、产生效益。

因此,对新一代税务行业大数据服务平台,整体架构概览如下图所示: 一、\"数据管税“业务应用体系(大数据应用体系) ➢

税务人员工作流程和效率优化:税务改革以前是一个人管N多企业所有的事情,税务改革之初很多人不知道干什么事情,所以需要通过大数据应用来给合适的人安排合适的事情 ➢

发票分析:发票数据的应用分 析,通过分析发票的数据信息,准确 查找发票管理存在的问题风险,有针对性的制定征管应对措施,准确打击 发票使用中的不法行为,切实促进发 票管理的遵从,实现以票管税、信息 管税的目标 ➢

纳税人信用评估:在税务大数据服务平台提供的数据以及在数据衍生出来的法人画像、自然人画像等能力的基础之上,评价纳税人的信用信息,得出纳税信用评价结果,据此实施分类服务和管理.并且与地方政府及相关单位征信平台 对接,实现纳税人信用信息在各部门间的共享利用 ➢

纳税人服务流程优化:税务改革以前是一个人管N多企业所有的事情,企业没得选;但是现在针对一个纳税人服务有很多环节,不同环节对应的是不同税务工作人员;所以我们需要根据数据来给企业在不同环节中提供合适的、专业的税务人员提供服务,从而让企业满意让国家满意 ➢

纳税人风险管控:通过相应的纳税人画像以及相应的其他数据,来防止企业通过非法手段进行偷税漏税等,并且可以起到警示作用 ➢

税务人员操作性风险管控:通过相应的数据能够抓出内部的腐败份子给国家所带来的损失和伤害,并且可以起到警示作用 ➢

收入和税源分析:通过相应的数据分析能力,从而让国家的税收任务更好的完成并且对企业不会产生更大的干扰。 ➢

其他:泛指各类没有说明的税务大数据分析应用。

二、税务大数据服务平台

税务大数据服务平台不是一个技术平台、更不是一个只具有一个技术功能点集合的平台,此平台是一个大数据应用支撑平台,即需要加速税务数据管税所需要的各个大数据应用能力的开发效率、开发质量的平台,也是一个能够沉淀出税务行业所需要的各个大数据业务应用所需要的各个能力资产以形成能力中心的平台。

1.4 数据治理综述

5

随着税务信息化建设的深入和大数据技术的不断进步,我们需要让沉睡在各个业务系统中数据发挥出更多的价值、让数据说话以实现数据管税;并且我们已经深刻地认识到我们的税务数据我们税务关键的资产之一,就类似于对于企业中的最关键资产是人力、资金、物资(工厂、设备)等一样.

将数据视为战略性税务资产,意味着我们的组织需要建立其现有数据的清单,就像建立物理资产的清单一样。而数据治理是以企业资产的形式对数据进行优化、保护和利用。

数据是税务最大的价值来源也可能会是最大的风险来源。糟糕的数据治理常常意味着糟糕的业务决策和提供给违规(内部税务工作人员的违规,外部企业逃税的违规)更大的暴露面,我们必然需要通过良好的数据治理来提高数据质量(例如提高数据的可信度、完整度、可用度等),从而提供较好的业务决策和减少、控制违规等。

数据治理注定会是一项复杂的工作,涉及到对组织内的人员、流程、技术和策略的编排,从一开始,数据治理就在协调不同的、孤立的且常常冲突的策略(可能导致数据异常)的过程中扮演着重要角色。

在这么多年的信息化建设中,我们发现数据质量问题主要受“业务、管理、技术”这三个方面的影响,并且主要由以下几大影响因素所决定: ➢

缺乏科学、规范、完整的数据质量标准,并且在系统开发和实施过程中忽视数据质量:对于这方面的问题,我们必须建立全局数据模型(包括数据源视图和数据流视图)、统一的数据标准和数据口径,从而供各个应用开发团队在工作中遵循和参考、且让各个应用开发团队对税务信息系统有一个整体认识,以减少数据源调用错误和建立重复数据源的情况发生,影响数据的一致性。如下图所示例:

企业数据模型到某应用级的数据模型

➢ ➢ ➢

缺乏统一和全面的纳税人数据 数据多头重复采集、没有统一规范检验

缺乏系统的数据质量管理机制以及监控管理工具和手段:在这方面,除了技术原因外,很多是业务、管理方面的问题,所以我们在业务、管理方面制定相应的流程,即需要采用较为成熟的闭环的数据质量管理方法以及相应配套的数据治理软件平台,对数据的质量进行持续的监控和管理,及时地清除系统中的垃圾数据,减少隐患的产生。

综上所述,数据治理是大数据服务平台建设成功的核心基础和因素,没有好的数据治理会使我们的大数据成为空谈。所以我们需要形成相应的数据治理参考流程来指导我们税务数据治理的建设,从而给大数据服务平台的建设打下一个成功的基石.

数据治理建议参考流程如下图所示,并且这个数据治理流程是一个闭环、不断优化的流程。

1.5 定义业务问题,以指导方向

6

数据治理是我们大数据服务平台建设是否成功的关键因素之一,数据治理失败的根源是缺乏与业务价值的链接,以及通常单纯的把数据治理当作是IT部门的事等因素。所以为了保障我们税务的数据治理能够比较成功,我们必须保证:数据治理要能支持“数据管税”这个战略目标实现业务价值和解决业务问题,并需要制定以下所建议的准则:

1) 数据治理必须由业务部门所需要的业务价值和效益为驱动;

2) 数据治理必须由业务部门、信息科技部门、第三方厂商和应用开发商等多方参与;

3) 数据治理必须获得江苏地税管理层的支持,任命首席数据治理官;首席数据治理官负责统一管

理和协调多方(业务部门、信息科技部门、第三方厂商和应用开发商等)力量进行数据治理工作,以保证支撑“数据管税”实现的各种业务能力所依赖的数据是“可信、可用、完整\"等。

4) 数据治理是一个工程项目,需要一个专业的业务人员、专业的技术人员组成的团队,根据所需

要解决的业务问题及从实现相应的业务价值出发,借助对业务的理解分析和对技术的理解分析,并在专业的产品支撑下,例如数据集成平台(采集、ETL等)、数据治理平台(元数据管理、主数据管理等等),才能够做好数据治理的相关工作。

5) 数据治理是一个长期计划,而不是一个短期目标;我们是需要不断地投入相应地金钱、人力资源才能够完成以及不断的演讲和优化。

1.6 获得管理层支持,以获得组织和资源保障

数据治理的最终目的是为了提升数据质量,让数据变得更加“可信、可用、完整”;只有较高质量的数据才能让数据说话,以达到税务管理和税务改革所需要“数据管税”这个目标;所以数据治理是牵涉到税务各个业务部门、信息科技部门、以及各个业务系统的应用开发商和产商的事情。这就使得获得税务管理层的支持是一个非常关键核心的因素。要保障数据治理工作的顺利开展,税务管理层需要给予以下组织和资源保障: 1、成立数据治理工作组

此虚拟组织的成员需要有来自税务相关业务部门(例如征管和科技发展处、规划财务处、数据管理处、纳税服务处等)、核心业务应用系统的开发商(例如征管系统的开发商、发票管理系统的开发商、电子税务局系统的开发商等)、大数据服务平台的开发商等相关的业务人员和技术人员组成

2、获得相关方高层的支持

需要获得税务局管理层、相关业务部门的管理层、相关应用开发商和产商的高层支持;特别是税务局管理层的支持。 3、确定数据治理的负责人

7

设立首席数据治理官,此职务需要在税务管理层的支持下进行任命;由他来统一管理和协调多方(业务部门、信息科技部门、第三方厂商和应用开发商等)力量进行相应地数据治理,以提高支撑“数据管税”实现的各种业务能力所依赖的数据是“可信、可用、完整”等

1.7 执行成熟度评估,以了解现状和确定将来所达目标

如图是数据治理成熟度评估模型,按照如图所示的类别,对当前的税务数据治理成熟度进行评估,从而得出我们税务数据质量的当前所处状态,以及期望通过专业数据治理后需要达到的状态.

这11个数据治理类别可以分成4个相互关联的组:

1、成果: 数据治理计划的预期结果. 即在数据风险管理和合规,以及价值创建方面需要达到相应的目标,并为“数据管税”所需要的数据能力提供“可信、可用、完整”的高质量数据支持
。 2、促成要素:数据治理需要合适的策略、合适的数据照管(即首席数据治理官所带领的团队所发挥的作用)、良好的组织结构(数据治理工作组)和认知(数据治理工作组对数据治理要做的事情和所能体现出的业务价值有共同的认知)。

3、核心准则:一个能达到相应业务价值的成功数据治理,必然需要实现一个满足业务要求、技术要求的数据质量管理、数据生命周期管理、数据安全和隐私等方面所需要的软件产品以及相应的经验能力。

4、支撑准则: 要进行数据治理,我们必须建立一个较为合适、完整、可用的数据架构体系用来指导数据治理和相应的数据应用的设计和开发,并且需要建立相应的分类和元数据以及相应的审计数据日志和报告。

我们对上述4个相互关联的组中的11个数据治理类别,定义相应的能力成熟度模型(参考CMM),即现在的能力成熟度,通过这次的大数据服务平台的长期数据治理建设后,所需要达到的能力成熟度模型。下图是我们的一个建议:

上图阐述了当前(2016年)对税务数据治理在11个类别中所处的状态,以及经过1年(12个月/18个月)数据治理后所需要达到的状态;并且在后续不断的数据治理过程中最终达到第五级。

1.8 创建数据治理路线图

数据治理路线图的开发主要通过以下三方面来进行 1、总结数据治理成熟度评估的结果

即在执行成熟度评估,以了解现状和确定将来所达目标 此章节所做的事情的产出的基础上,业务部门、信息科技部门、第三方(信息科技技术产商、应用开发商)在首席数据治理官的统筹安排下进行相应的评估,即对当前状态的评估以及将来想要达到状态的评估,以及当前状态与将来想要达到状态之间的偏差等;通过评估来决定后续的工作。 2、列出填补评估中强调的差距所需关键人员、流程和技术计划

这个环节非常关键,为了说明这个,我们通过下面的例子说明。 3 基于关键计划的优先级创建路线图


8

基于上面所示的内容制定一个时间周期为12-18个月的数据治理计划路线图,并在过程中对相应的数据治理效果和相应的能力进行监控. 

一般来说必须先进行数据治理工作组的成立,以及相关人员的进入,然后任命首席数据治理官。 

建立数据治理领域所需要牵涉到”原则、策略、规程、业务规则和度量指标“等完整的工作流程。 

确定数据治理所需要的研发团队、服务团队的人员、技能、工作内容、开发和实现计划等完整的工作流程. 

选取相应的业务案例来验证数据治理的合理性以及定义关键度量指标来监控数据治理计划的执行。

实现数据治理平台和数据集成平台,并利用机器学习和可视化能力来提升数据治理平台和数据集成平台的能力和质量、效率等。

1.9 建立数据治理组织蓝图

建立数据治理组织蓝图主要由以下几大部分组成 1、定义数据治理章程

数据治理章程类似于企业的公司条例.该章程阐明数据治理的主要目标、及其关键利益相关者(例如各个业务部门、税务管理层等)。

2、定义数据治理的组织结构,并建立数据治理委员会、数据治理工作组、数据治理开发和服务组 数据治理的最优组织结构是一种 3 层结构。数据治理委员会,位于组织的顶点,包含高层利益相关者.下面的一层是数据治理工作组,由负责定期治理数据的成员组成。最后,数据治理开发和服务组负责每天实际处理数据。

3、举行数据治理委员会和工作组定期会议

数据治理委员会举行会议来设置数据治理策略,跟踪数据治理计划的所产生的业务价值和效果.该委员会(包括高层领导)定期会面,但不一定是经常会面。典型的会议安排为每月或每季度举行一次,持续一两个小时。

1.10 创建数据字典/业务术语库

不同应用开发商或者不同的业务人员都会对相同意思的词语产生不同的描述词,例如对于性别的描述,有些应用开发商在系统中定义为”男“、”女“、\"未知“,而有些应用开发商在系统中定义

9

为”1“、”0“,”—1“;对于客户的描述,有些业务人员认为是“企业”,有些业务人员认为是“自然人”;对于纳税人信用等级A的描述,不同业务人员的理解都会是不一样的等等。 所以我们必须进行统一的数据标准和数据口径,即我们需要建立数据字典,实现业务元数据与业务词汇的定义相关联;数据字典(或业务术语库)是一个存储库且是一个系统(包含了相应的批量导入、录入、修改等能力),包含将业务和 IT 的共同定义集中在一起的关键词汇的定义.税务必须部署数据字典来确保业务词汇在上下文内良好定义,从而可以让我们的数据加工、数据的挖掘和分析、数据的展现变得更加可信、完整、全面、一致,只有这样才能更好的支撑数据管税。 数据字典的创建牵涉到以下几个重要的步骤和相应的核心能力: 1、选择一个数据领域。


我们必须挑选一个领域,例如针对风险管理所牵涉到的法人、自然人、发票、税务机构等来进行。 2、确定相应人员来维护关键业务词汇

我们需要选择相应的业务人员、技术人员来维护关键业务词汇。 3、识别关键数据元素

这方面的工作我们必须要让业务专家/业务架构师帮助我们找出关键数据元素 4、创建、填充和丰富数据字典

如果我们已经有了相应部分的词汇术语表的话,则把这些输入或者导入到数据字典中.如果没有的话我们需要进行相应的手工录入。 5、链接业务词汇与技术组件

我们就业务词汇达成一致后,我们需要由相应的以数据架构师为Lead的技术团队建立相应业务词汇与技术组件(例如数据库的某张表和列).这样的话业务人员就可以通过业务词汇来下钻寻找相应的技术数据源以及数据,因为我们一定要牢记一点就是业务人员只关注业务词汇,他是不懂什么数据库的表名和列名的。

6、支持数据治理审计、报告和日志需求。


业务术语总是容易变化.今天的“纳税信用等级A”的定义可能在明天又不同.随着业务需求不断演化,一个词汇的可接受定义也会变化。能够了解更改历史、更改的内容和执行更改的人,这与更改本身一样重要。

7、 整合数据字典与相关的数据应用和业务应用

10

业务人员在操作一个数据应用或者业务应用的时候,遇到了一个含义模糊的词汇或短语。他不确定这个词汇是如何在税务组织内定义或使用的。所以我们必须使数据字典能够提供一个非常容易的访问入口,让业务人员能够快速的查找该业务词汇是如何定义或使用的。

1.11 理解业务和数据

对于业务理解,我们需要站在税务业务的角度,去比较深入的理解《全国税务征管规范》所介绍的“税务登记、认定管理、申报纳税、税收优惠、税额确认、税款追征、税务检查、违法处置、争议处理、凭证管理、信息披露”等业务核心生产环节中所牵涉到的服务对象、所需要输入的数据、输出的数据、所要实现的逻辑等等;并且我们还非常需要借助对税务整体业务现状和将来税务改革所带来的业务变化具有很好理解,且具有前瞻性的税务专家和税务业务架构师的帮助.只有通过这些,我们才能对税务的整体业务流程中的关键环节、关键问题、关键诉求、关键数据有一个全局性、前瞻性的理解,并且使我们对于拥有哪些数据,它们位于何处,以及它们在系统之间如何关联等,会有比较深的理解,并且也能给出需要新增哪些关联的建议,来帮助建设以“数据为核心”的整个大数据体系对业务发挥出价值和效益,最终达到“数据管税”这个目标. 对于理解数据,我们需要进行以下的几个主要步骤和提供相应的能力: 1、数据源管理功能

即:理解我们所需要的每一个数据源,并且需要对这些数据源都要管理起来,对于每个所需要理解的数据源,我们需要实现以下的几个能力:

1) 执行列和表级别分析:对于表级别分析,需要从数据源中相关表的主外键的关系,找出表与表

之间的关系(即可以生成ER图);列级别分析包括有关数据源中每一列的基本统计数据,例如自动生成统计数据,比如隐含的数据类型、模式频率、值频率、长度频率、比例、格式、基数、空计数、最小值、最大值、长度和精度等;

2) 识别每个数据源中的关键数据元素,关键数据元素是建立跨所有数据源构造一个大数据服务

平台的统一数据模式的不错起点;

3) 识别每个数据源中的敏感数据元素,敏感数据元素是我们建设数据安全和隐私的一个不错起

点。

2、理解数据源之间的关系

理解一个数据在从一个来源传输到另一个来源的数据血缘(或者地图)的联系非常重要: 1) 理解关键数据元素在各个数据源之间的数据重叠 :这个是保证数据一致性、可用性非常关键的

一点;

2) 发现数据相应的数据血缘和复杂转换逻辑; 3) 发现数据不一致性和异常。

1.12 创建元数据存储库

元数据是描述数据的数据(Data about Data),可理解为比一般意义的数据范畴更加广泛的数据,不仅表示数据的类型、名称、值等信息,还提供了数据的上下文描述信息,比如数据的所属域、

11

取值范围、数据间的关系、业务规则,甚至是数据的来源等。元数据可以帮助管理员和开发人员非常方便地找到他们所关心的数据,元数据是描述分析型应用内数据的结构、建立方法及流程的数据.

举个例子来说明,如果没有合适的元数据,我们将无法证明,数据分析报告,或数据可视化展示的内容,或数据报表中的特定字段源于一个特定的数据集市,该数据集市又来自企业数据仓库,最终来自一组后端数据源,以及证明它们之间的所有数据转换;如果我们不知道业务报表和数据分析报告中看到的信息是如何集中在一起,通常不敢对业务报表和数据分析报告中的结果产生信任;也就是说,如果没有合适的元数据,我们的数据资产可能无法识别、不受信任以及甚至不适用。而通过元数据这种实现记录数据转换的过程的数据,记录数据来源的数据,让我们的数据资产可被识别,被信任。

所以,我们必须要建立元数据存储库以及元数据管理系统,对元数据进行规定和管理.

在大数据服务平台项目中,可将其按用途的不同分为三类:技术元数据(Technical Metadata)、 业务元数据(Business Metadata)和 管理元数据(Management Metadata)。

技术元数据:技术元数据是描述数据分析中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理方面的特征描述,覆盖数据分析过程中涉及到的数据源、数据仓库与数据集市、ETL、OLAP、数据封装和前端、可视化展现等全部数据处理环节;技术元数据对技术人员进行数据分析型应用的开发能发挥重大的作用; 

业务元数据:业务元数据是描述数据分析中业务领域相关概念、关系和规则的数据,主要包括业务术语、信息分类、指标定义和业务规则等信息;这方面是用来支撑主数据管理,核心应用系统建设的关键。业务元数据主要从数据字典中生成. 

管理元数据:管理元数据是描述数据分析中管理领域相关概念、关系和规则的数据,主要包括人员角色、岗位职责和管理流程等信息. 元数据管理系统需要根据以下步骤,具备以下相应的能力: 1、链接业务元数据和技术元数据

在元数据管理中,需要实现相应业务元数据(主要从数据字典中生成)管理和技术元数据管理; 业务元数据和技术元数据的分离会让业务团队和技术团队产生巨大的隔阂,所以我们必须要实现业务元数据和技术元数据的链接甚至合并。

2、实现以元数据驱动的数据地图

数据风险管理需求和合规性需求影响着税务组织管理它们数据的方式,例如一个税源分析报告中,我们需要证明数据的来源,它流经何处,以及它在税务相应的环节中传输时经过了何种转变,

12

这样才能证明数据是可信的、可用的,也证明这个分析报告也是可信可用的。所以我们要建立一种以元数据驱动的数据地图来回答“此数据来自何处?\"、“此数据去向何处?”和“在此过程中它发生了什么?\"等基本问题 。

3、实现和执行“影响分析 ”

理解对一种数据的更改对其他数据有何影响的能力称为“影响分析\"。数据治理需要确保业务人员、技术人员能够检查与一个对象(例如一个纳税人分析报告)相关的所有关系,进而在创建任何更改之前,评估和减轻更改带来的风险.考虑到在开发生命周期中不可避免地会引入更改,所以“影响分析”的能力将帮助税务能更有效地治理数据。

4、实现技术元数据之操作性元数据管理

在我们实现的大数据服务平台中,将会存在大量的数据计算任务(如离线计算任务、流计算任务等),来完成相应的数据加工(例如ETL)、数据挖掘(例如机器学习)等,从数据治理角度,我们必须要知道这些数据计算任务在哪个环节失败、重试次数、某些数据行丢失、何时开始何时结束等等。所以,我们需要通过实现技术元数据的操作性元数据管理来实现管理.

1.13 定义度量指标

数据治理的工作主要集中在人员、流程和所采取的技术上,几者都是无形的。因此,拥有协商一

致的度量指标或关键绩效指标 (KPI) 集对于度量和监控数据治理计划的进度很重要. 定义相应的度量指标主要有以下几个主要步骤和所需要实现的能力 1、理解业务的整体 KPI

理解业务整体KPI至关重要,江苏地税整体的KPI以及地税各个业务部门(例如数据管理处、征管科技处、纳税服务处等)的KPI是不同的;这种KPI的理解和定义是业务强相关的. 2、定义数据治理的业务驱动KPI

数据治理的成功体现就是是否能够符合业务部门所需要的业务价值,所以需要根据江苏地税整体的业务目标以及各个业务部门的业务目标来定义数据治理相应的业务驱动KPI。 3、定义数据治理的技术KPI

数据治理的技术KPI,用于度量数据治理技术工作方面的进度, 例如元数据、归档、大数据应用能力中心、安全和隐私、数据审计等。 4、实现数据治理成熟度评估的仪表盘

13

此仪表盘一个数据可视化界面,直观显示执行成熟度评估,以了解现状和确定将来所达目标 所描述的11个数据治理成熟度类别的每一个的实际评分、目标评分和偏差等。通过数据治理成熟度评估的仪表盘,直观度量和监控数据治理计划的进度,并能根据实际情况,进行适当的数据治理计划修正或调整。

1.14 主数据治理

主数据是在多个税务系统之间共享的基础数据,如:法人、自然人、税务机构、法规等。 目前这些基础数据,每一类数据大多都同时分布在多个应用系统当中,数据由各个应用系统独自维护和控制,这样就容易造成了系统之间基础数据的不完整、不一致,甚至不准确的情况。而且系统之间基础数据的同步机制也不完善,同步不及时、同步的过程无法监控,出现问题难以发现。由此引发数据不可信,以及数据分析不可信的结果。

为此,必须要建立一个统一主数据管理系统,实现: • •

主数据集中存储:对分布在各个系统中的基础数据进行集中存储;

数据同步机制:建立系统之间基础数据的同步机制,保证各个系统之间的数据变化能被及时的跟踪和记录,保证这些基础数据在生成、传递、变更、存储、利用过程中的唯一性、完整性、准确性、及时性; •

统一管理:通过一个统一的主数据管理平台,实现数据统一入口、统一校验、统一存储、统一分发的主数据管理模式; •

提高数据及数据分析准确性和可信性:主数据的准确性可以极大的提高,同时提高相关的业务数据分析的准确性、可信性和一致性。 主数据管理系统的主要建设内容应包含: ▪ ▪ ▪

主数据所依赖的数据字典

主数据模型建设:概念主数据模型建设、逻辑主数据模型建设、物理主数据模型建设。 主数据所依赖的元数据建设:主要是业务元数据的建设、包含部分的系统元数据建设(例如技术元数据建设、管理元数据建设)。 ▪

主数据形成建设:在主数据模型和元数据的基础上,通过相应的数据集成平台(例如采集和ETL)或相应的人工方式,从各个系统中采集、转换数据,形成相应的主数据。 ▪

主数据服务建设:根据主数据模型所覆盖的主题域(如法人、自然人、税务机构、法规等),形成主数据服务,供相应的数据应用或者业务应用使用(使用方式包括直接查询、

14

主数据同步分发等)。

税务纳税人主数据所包含的主要内容如下表简要示例所示:

类别 纳税人基本信息 纳税人基础状态信息 数据内容 纳税人识别号、纳税人名称、登记注册类型等 纳税人登记状态、增值税一般纳税人资格、纳税人信用等级、防伪税控纳税人资格、出口退税纳税人资格、是否具有其他资格、定期定额征收、减免优惠标志、稽查案件未结、违法违章未处理等 共享代码 1.15 治理分析

各个业务部门使用了不一致的数据,创建了业务分析报告和各种报表,但是信息科技部门、业

务人员、应用开发商并不总是知道来自数据仓库的数据是如何使用和加工的。所以我们通过大数据应用能力中心 (BigData CC) 来解决这些挑战。

下述是与治理分析相关的一些任务步骤和一些所需要具备的能力: 1、定义大数据应用能力中心的目标

尽管技术(例如大数据技术),总是具有驱动业务转型(例如驱动税务改革)的潜力,但纯粹从技术能力去驱动的话,将会受到组织内部、应用开发商、业务流程等各种障碍。组织、业务的复杂性、和需要实现的功能的紧急性等,导致了现在在税务中实施商业智能 (BI)、绩效管理和数据仓库解决方案基本上是烟囱式实现。此情形已导致整个解决方案的管理、交付和履行中的技能零散化和总体不一致性.

所以我们需要站在能够帮助到业务部门实现业务价值,从而达到数据管税的目标这个角度去来定义大数据应用能力中心的目标,让业务部门能够体会到大数据技术是实实在在地能帮助到他们的,而不是让业务部门对大数据技术产生一个“空中楼阁”、“忽悠\"的印象。大数据应用能力中心需要具备哪些具体的能力,需要由业务部门和信息科技部门以及第三方技术和应用提供商一起讨论和确定,通过这些能力的确定,来决定我们到底需要哪些大数据技术以及确定对数据治理所能带来的价值的一个治理分析。

2、准备验证大数据应用能力中心的业务案例

做好数据治理,以打下良好的数据基础,从而支撑大数据服务平台和相应大数据应用,是一个长期过程,一般情况下,管理层迫切需要在较短的周期内,就想看到投入大量的金钱能带来回报,所以我们需要从业务需求角度,梳理出合适的业务案例,通过这些业务案例,分析出具备共性的大数据应用能力中心的相关能力,这些能力能够被注册以被共享;从而可以被相应的业务人员进行订阅使用,这必然将提高业务人员的采用率、满意率以及业务人员的创新意识。 3、确定大数据应用能力中心的组织结构

15

大数据应用能力中心的能力是需要能够被各个业务部门所共享、不断演化创新进步的,所以大数据应用能力中心是需要得到各个业务部门领导和与各个业务部门所需要的数据应用的支持的,这样大数据应用能力中心才能变得越来越强大,也驱动着数据治理的不断优化、演进。 4、协商大数据应用能力中心的关键功能

需要各个业务部门、信息科技部门、第三方技术和应用提供商等进行协商和分析,来确定出大数据应用能力中心所需要具备的关键功能,以及大数据应用能力中心所需要的咨询建议、沟通和推广措施、大数据技术架构、业务和支持能力、对数据治理的调整等等。

1.16 管理安全和隐私

管理安全和隐私是数据治理中非常重要的环节,它主要包含以下几个重要的关键任务步骤和能力:

1、与关键利益者协调一致:关键利益者主要包括相应的管理层、业务部门相关领导和业务人员、相关的技术团队(例如数据架构师、安全架构师等等)人员;

2、建立税务数据安全和隐私架构蓝图: 这个蓝图的建立需要业务人员和技术团队,特别是数据架构师、安全架构师从对业务的理解,以及从数据存储、处理、流转等流程的角度去考虑、分析、设计和实现;

3、加强数据变更控制:主要是记录下相应的线索,通过对线索数据的分析,以识别未被授权的数据变更行为活动;

4、定义、发现、分类和标记敏感数据;

5、加密敏感数据: 要求传输中的敏感数据需要被加密,以防止被网络窃听;根据业务场景的要求,决定是否需要对敏感数据的存储进行加密。

6、保护非生产环境中的敏感数据:如果在测试、开发、培训环境中包含了税务方面的敏感数据的话,这将会带来一定的数据风险管理和合规性问题,所以我们需要相应的数据脱敏能力,使得在测试、开发、培训环境中的敏感数据都是经过脱敏处理的;

7、防止恶意者对数据的攻击:例如现在的SQL注入、撞库等手段都是为了盗取相应的数据,我们需要相应的安全手段去防止恶意者对数据的攻击。

1.17 数据生命周期治理

数据生命周期治理指的是一种基于策略的数据架构、分类、收集、使用、存档、保留和删除方法,使我们能够控制和管理数据的寿命,实现数据从产生到销毁的全过程规范管理。数据生命周期治理的目标主要需要达成以下几个:

16

1、通过规范数据的生命周期,提高数据的整体管理水平

2、优化数据存储结构,有效控制在线数据规模和降低成本,提高主要和核心业务分析能力的效率 3、提高系统资源使用效率,确保系统安全、稳定、高效运行

4、做好历史数据管理,为全生命周期(即企业的完整生命周期的数据全保留等)的数据进行全数据的挖掘提供数据支撑

1.18 度量结果

依据预先定义的 KPI 度量指标,参考定义度量指标 章节内容,确保数据治理计划继续催生业务价值.这些结果需要定期传达给数据治理委员会和高层管理人员。相应的度量结果将让管理层对数据治理计划的进行持续支持和资金支助,从而让数据治理不断的演进和进步,使大数据发挥出更大的业务价值。

1.19 数据对数据管税的价值

1.19.1 数据对税务的价值分析

数据收集、加工工作的目标是整理数据,而发挥出数据管税的价值,则可以从多个方面体现:

1、通过数据分析尽可能多地暴露征管对象在经济活动中的行为问题,提高税务执法部门发现风险、响应处理、风险评估、执法控制等诸多方面的能力,从而降低风险(税务外部风险),同时,通过数据管税避免业务执行人员主观意愿干涉税务工作,避免内部操作性风险(税务内部风险)

2、通过加快数据流转,汇总分析各个维度数据,全面完善纳税人画像,提高税务人员服务能力,满足不同纳税者不同的需求,更好地为纳税人提供服务

为了说明如何通过数据在风险控制过程中发挥作用,以企业税务风险评估业务为例进行说明 企业税务风险评估是一整套系统工程,一般有如下几个步骤,这几个步骤都和数据有十分紧密的联系,想要提高风险控制的水平,就需要提高对数据管理和使用的要求。

1) 获取和维护风险控制数据

风险控制的依据是纳税人在商业行为中纪录的数据,风险控制管理的第一步就是收集、存储、整理、关联和改进相关数据,这些数据的来源包括电子报税表、纸质报税表及相关扫描数据、公开年报、纳税机关的检查数据等。这些数据有的是税务机关自有,有的需要从第三方机构中获取.通过数据治理工作,收集、存储、整理、关联相关工作大都可以完成,在数据治理完成后,需要不断持续做维护工作,保证收集的数据被正确处理,才能保证系统长期正确运行. 2) 检测报税层面风险

17

报税层面风险评估的目标是系统评估一份具体报税表内包含由查税员发现重大错误的可能性,当风险较高时,需要指派报税员进行处理。税务机关业务人员通常会使用专用风险模型来对报税表进行评分。这种风险模型是税务业务人员通过该企业历史数据中的报税表和查税结果进行分析计算得出的,符合企业特点。 3) 风险评级

根据模型计算出评分后,根据得分对风险进行评级。评级标准和采用的应对行为建议根据每个报税单的资产规模的不同而区别对待。每个不同级别的资产规模都有相应的风险评估标准。

在企业税务风险判断这个业务中,企业的风险级别和应对措施都是通过数据计算得出的。高质量的数据、高速的计算能力、业务规则和数据的结合(模型)共同完成了对企业风险的自动评估。因此,数据的质量、模型的准确性会影响评估的准确程度,计算能力的大小则决定了处理的效率.

从这个例子可以看出,数据和模型在税务业务中发挥着重要的作用。提高数据质量和改进业务模型是税务工作中最有价值的一部分工作。

1.19.2 税务数据价值实现分析

通过按照业务主题建设的数据治理过程,系统已经拥有了高质量数据的条件。需要通过使用这些高质量数据,实现业务的价值。

让高质量的数据产生高价值,可以通过以下方式达成: 1、提高数据的使用效率

查询速度更快是一个相对概念,任何一个IT系统在建设完成投入使用之后都会发现随着数据的积累,越来越多的数据造成了系统性能的低下.另外,也存在查询语句效率本身的原因.因此,查询速度是需要考虑在当前地税数据积累总量和增量的情况下,需要保证绝大多数查询在毫秒级完成,查询速度高的一个重要的影响是可以激发业务人员通过更改查询条件不断进行查询来验证自己想法的积极性,促使业务人员频繁、多样地进行查询,从而提高数据地使用效率。

提高数据使用效率的第二个方面是要让找数据更容易。举例来说:地税业务人员为了分析一个企业是否有透漏税行为的嫌疑,需要从不同的主题库里找和这家企业相关的各种不同的数据。而税务行业的数据又是非常繁琐和复杂的,这会导致业务人员消耗大量精力去寻找和核实自己需要的数据。

在金税三期项目建设完成之后,国家税务体系已经基本建成了以税务业务标准化为标志的税务信息化建设,实现了在办税业务流程上的全程信息化覆盖。极大地提升了税务业务地处理效率。但是,正式由于金税三期在建设中是以业务流程作为关注重点的,这个阶段建设的各种分析系统多是以业务节点作为分析目标,进行业务细节分析,这样地分析对于单一业务本身是必要的,但是不利于业务人员站在全局角度去审视和分析问题.因此,要提升数据使用效率的第三个方面,就是要建设更加全面的税务分析系统,能够给业务人员提供一个更宏观的、更高层次的数据视角,对税务业务分析进行丰富和完善。

18

提升税务数据使用效率的第四个方面,增加综合分析的灵活性上。充分利用和吸收大数据时代新的数据技术,提高数据分析自由度,让业务人员可以随心所欲地组合和应用数据,进行数据碰撞,让业务人员用更多地从繁琐地工作中解放出来地时间来进行数据分析探索,寻找数据中隐藏地业务信息,让业务人员地工作更具有业务意义和价值。

2、扩大数据的使用范围

在金税三期项目建设中,税务行业地数据建设是围绕着国家《全国税收征管规范》进行的.建设重点是流程的规范性、正确性和可监管性。但在大数据时代,数据的作用和价值远不止如此。要让数据在税务行业创造更大的价值,需要扩大税务行业的数据使用范围。具体包括:

以前没有用数据分析做的事情要用数据分析做。在各个业务条线各自独立时,数据无法统一,不能做跨业务条线的数据分析,导致很多全局综合分析的情况被遗漏,需要打破业务条线限制,做到统筹分析.

以前在做数据分析得出的结论,往往只是一个业务视角下作出的,现在在技术支撑下,需要业务人员用多个业务视角进行综合分析,从而更加全面、准确地得到分析结论地合理性。帮助税务人员把工作做细。

没有经验的业务人员往往很难做到老业务人员全面分析的能力,但数据可以把老业务人员的分析行为以模型的方式纪录下来,并推广给其他业务人员使用。这样可以加速新业务人员成长,从整体上提升税务机关的效率

3、数据支撑行政决策

全面的大数据分析可以更好地支撑税务部门的行政决策,通过向行政行为提供直接的数据证据、分析疑似偷逃税企业缩小税务业务人员排查范围等方式直接给税务机关单位带来便利。也可以通过对纳税人进行分析,了解纳税人状态、行为规律,判断纳税人的特点,从而指定合适的税务人员提供相应的服务,让合适的人做合适的事,提高税务机关的服务能力。

4、实现业务经验积累促进业务创新

灵活自由的数据碰撞给予业务人员进行数据探索的空间,业务人员可以根据自己的业务经验和想象,自由组织数据进行想法验证。当这些想法被数据证实、经过广泛的论证被证明可行时,业务人员就可以把这些业务经验固化为地税行业中新的业务模型,使经验以固定的形式保留下.同时新的想法也可以通过验证得到证明,促进地税行业与时具进。为地税行业带来新的价值。

1.20 数据挖掘方法论指导大数据服务平台建设

我们要建设的大数据服务平台的本质目的是让数据说话,对税务的核心业务产生价值,通过收集、加工、治理,以积累完整、系统、可信、可用的数据,然后再通过相应的技术手段(例如数据统计分析、数据挖掘等)在大量的数据上,通过分布式计算、丰富的数据展现手段(例如报表、数据可视化等),找出数据中已知和隐藏的关系,即数据挖掘;大数据服务平台应可以实现如下图简要所示的能力:

19

让数据说话、用数据改进管理、用数据推动创新。要完成这样的一个过程,如果没有一个在行业中被广泛采用、经过验证的方法论的指导下进行建设的话,必然将会遇到很大的风险;所以我们必然需要选择一个方法论来指导我们的大数据服务平台建设,在这里我们选择在业界被广泛采用、占有率在50%以上的CRISP—DM方法论.

CRISP—DM (cross-industry standard process for data mining), 即为”跨行业数据挖掘标准流程”。 它提供了一个数据挖掘生命周期的全面评述.包括项目的相应周期,他们的各自任务和这些任务的关系。并且CRISP-DM并不是什么新观念,本质来看就是在大数据分析应用中提出问题、分析问题和解决问题的过程。其可贵之处在于其提纲挈领的特性,非常适合工程管理,适合大规模定制,这也是我们选择CRISP-DM这个方法论的重要理由之一。

CRISP—DM包含六个阶段,下图是CRISP-DM参考模型的各个阶段的描述。 ➢

主要由业务理解、数据理解、数据准备、建模、评估、部署这六个阶段组成,并且在各行各业的相关统计数据表明各个阶段占整体的时间分别为业务理解 占5%,数据理解占13%,数据准备占60%,建模占12%,评估占5%,部署占5%;相应各个阶段的简单介绍如下所示 •

Business Understanding(业务理解)

这一初始阶段集中在从业务角度理解项目的目标和要求,然后把理解转化为数据挖掘问题的定义和一个旨在实现目标的初步计划。。 •

Data Understanding(数据理解)

数据理解阶段开始于原始数据的收集,然后是熟悉数据,标明数据质量问题,探索对数据的初步理解,发觉有趣的子集以形成对隐藏信息的假设。 •

Data Preparation(数据准备)

数据准备阶段包括所有从原始的未加工的数据构造最终数据集的活动(这些数据集指将要嵌入建模工具中的数据).数据准备任务可能被实施多次,而且没有任何规定的顺序。这些任务包括表格、记录和属性的选择以及按照建模工具要求,对数据的转换和清洗。 •

Modeling(建模)

在此阶段,主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。通常对于同一个数据挖掘问题类型,会有多种模型技术。一些技术对数据格式有特殊的要求。因此,常常需要返回到数据准备阶段. •

Evaluation(评估)

进入项目中的这个阶段时时,你已经建立了一个模型(或者多个),从数据分析的角度来看,该模型似乎有很高的质量。在模型最后发布前,有一点是很重要的——更为彻底地评估模型和检查建立模型的各个步骤,从而确保它真正地达到了业务目标.此阶段关键目

20

的是决定是否存在一些重要地业务问题仍未得到充分地考虑。关于数据挖掘结果的使用决定应该在此阶段结束时确定下来。。 •

Deployment(部署)

模型的创建通常并不是项目的结尾。即使建模的目的是增加对数据的了解,所获得的了解也需要进行组织并以一种客户能够使用的方式呈现出来。这常常包括在一个组织的决策过程中应用“现场\"模型,如在网页的实时个人化中或营销数据的重复评分中。不过,根据需要,发布过程可以简单到产生一个报告。

CRISP—DM 流程各个阶段所需要完成的事情非常依赖以业务价值和方法论指导数据治理,打好数据基础 所阐述的内容,例如业务理解、数据理解、数据准备阶段非常依赖于数据治理中打下的数据字典、元数据管理和主数据管理等方面提供的能力,并且我们发现业务理解、数据理解、数据准备这三个阶段占了整体时间的78%。这就意味着如果我们数据治理做的好的话,将能较大幅度地缩短数据统计分析和数据挖掘所需要的时间并提高效率和质量。 ➢

各个阶段的顺序不是僵硬不变的。有时需要在不同阶段之间向前和向后移动。这取决于每个阶段的结果和下一个阶段的具体任务.箭头指出了各个阶段间最为重要的和频繁的关联. ➢

最外面的循环表示数据挖掘本身的循环特征。数据挖掘并非是一旦得到一个解决方案就结束了。在流程及解决方案中得到的教训可能引发新的,常常是更为集中的商业问题.后来的数据挖掘过程将从前几次的经验中获益

由于CRISP-DM方法论可贵之处在于其提纲挈领的特性,非常适合工程管理,适合大规模定制,所以在我们税务这的CRSIP—DM流程建议采用如下参考流程: 1、业务理解(business understanding)

在第一个阶段我们必须从业务的角度上面了解项目的要求和最终目的是什么。这个阶段需要建立在数据治理的成果之上。

主要工作包括:确定业务目标,确认有哪些可用的数据,评估风险、成本和收益等等,接下来确定数据挖掘的目标,并制定项目计划。 2、数据理解(data understanding)

数据理解阶段通过在数据治理已经取得的成果之上,需首先收集数据挖掘所需的原始数据,对数据进行装载,描绘数据,并且探索数据特征,进行简单的特征统计,检验数据的质量,包括数据的完整性,正确性,缺失值的填补等.然后展开熟悉数据的工作,具体如:检测数据的量,对数据有初步的理解,探测数据中比较有趣的数据子集,进而形成对潜在信息的假设。

如果数据达到不要求,需要重新回到第一步,加强对业务的理解并重新确定开发目标。 3、数据准备(data preparation)

21

数据准备阶段通过在数据治理已经取得的成果之上,需要对原始数据进行集成和初步的加工,提取出可用的特征用于建模。主要的工作包括选择数据,清理数据(如缺失值填充,错误数据修正等),构建新数据(如数据标准化,字符转数字等),集成数据(如合并数据等),格式化数据(如排序等)。 4、建模(modeling)

首先需要根据业务需求选择建模技术,比如分类、聚类、关系网络等;然后利用现有的数据进行模型的训练,然后将模型的参数调整为最理想的值。如果获得不到理想的模型,可能是特征不足等原因导致,需要重新回到数据准备阶段; 5、评估(evaluation)

本阶段的评估不同与建模阶段的数据模型评估,而是确认是否达到业务目标的彻底评估过程,如果评估不通过,需要重新回到第一步; 6、部署(deployment)

部署,即把数据模型部署上线用于数据的生产,经常需要用到工作流和周期性的调度过程,工作流可以解决数据生产过程中的上下游依赖关系,调度可以解决数据处理需要反复多次执行的问题。

1.21 按业务主题和规则采集、加工数据以打好数据基础

在以前的信息化建设中,由于缺乏统一的规划,多以迅速实现功能为主要目的,缺乏从全局的考虑,造成了数据孤岛、多头采集、业务数据分散、标准不一、数据质量低下等问题。导致在我们现在税务的环境中,不同类型的数据分散于各个业务系统中(例如核心征管系统、电子申报、出口退税、行政办公等)以及不同的地域(例如省厅、各个地市局中);并且随着税务改革的发展和业务上要求,我们各个地市局等还自己建设了大量的从互联网爬取相应的数据存储起来并进行检索、分析的系统来支撑相应的征管业务和相应的分析业务,导致数据分散性更加严重。所以我们迫切需要实现一个在第2章节所阐述内容支撑下的数据集成平台,此平台完成如下图所示的能力 1、统一的数据采集平台,此数据采集平台做为采集的统一入口,从内部的各个业务生产系统或者业务分析系统,以及相应的外部单位和互联网区域采集相应的数据。这样的话,从源头就能在数据质量控制上得到增强,从而提升数据质量..

2、统一的数据加工平台,此平台根据业务数据领域(例如风险管理)的要求对牵涉到的数据域(例如法人、自然人、发票、税务机构、法规)进行数据加工处理,从而形成后续的数据报表展现服务平台和数据分析和微创新服务平台所需要的“可信、可用、完整\"的较高质量数据。

通过这样的一种建设方式,将能够实现“数据全在我这、数据该加工好就加工好、谁想用就去用”的这个目标。

1.21.1 数据采集平台

22

在第2章节所阐述内容的支撑下建设的数据采集平台,将是大数据服务平台的数据来源的唯一入口,甚至成为地税地市局的所实现的数据应用业务的唯一数据来源入口,从而从理论上就可以解决现在税务存在的”多头采集、来源太多“所导致的数据质量很难控制和提升的问题。并且我们一定要牢记,对于税务来说,“结构化数据”是最有价值、最需要被整合、加工、利用的. 注:通过统一的数据采集平台采集到相应的数据进入大数据存储和计算平台中,按照定时/实时/业务规则的需要驱动数据共享和交换平台 从大数据存储和计算平台中获取相应的数据,然后把数据传输和存储到地市局相应的数据存储和计算环境中,从而可以做为地市局主要的数据来源甚至是唯一的数据来源。当然在一些业务场景下需要数据加工平台对采集来的数据进行相应的加工才能够共享给地市局.

在税务环境中存在和不断地产生不同数据类型的数据,以及还需要从外部(例如其他政府企业单位、互联网中)获取不同数据类型的数据;这样的话马上就会提出一个问题和需求就是我们如何对数据进行采集,并且在采集中需要有什么的技术能力进行支撑?

对于数据采集,我们不能什么数据都去采,我们必须需要从业务主题出发,然而根据对业务主题进行相应的分析出针对这样的业务主题需要什么样的数据主题,并且这些数据主题对应的数据模型是怎么样的。分析出这个以后,然后我们去分析这些数据会来源自哪里例如那源于内部的业务系统还是在外部的单位甚至互联网等。对于这个我们举一个例子来简要说明。

我们需要实现针对一个防止企业偷税漏税的风险管理的这个业务主题,通过这个业务主题的初步分析后我们发现要支撑这个业务主题需要以下数据主题,下面是一个简单的例子:

数据主题名称 基本面数据主题 原子数据内容示例 例如企业的组织结构(包括子公司)、企业的法人信息、企业的高管团队信息、企业的主营行业 财务资产数据主题 税收数据主题 例如企业的资产、营收、利润、社保等信息 例如企业在征管业务的“税务登记、认定管理、申报纳税、税收优惠、税额确认、税款追征、税务检查、违法处置、争议处理、凭证管理、信息披露”这方面的的信息 经营活动数据主题 例如相应进销存、开票等信息 通过得出的数据主题所需要包含的哪些数据模型,我们再分析出这些数据会来源于哪里(有些信息来源于我们内部的征管系统,有些信息来源于工商、社保、银行,有些信息来源于互联网),这样就可以进行采集了,并且把采集相应的信息存储到大数据存储和计算平台中的原始数据暂存区以供后续的数据加工平台处理.相应的示例如下图所示

1.21.2 数据加工平台

23

数据加工平台的最大作用就是把进入大数据存储和计算平台中的数据根据业务场景的需要进行相应的加工,从而提升数据质量以及给数据报表展现服务平台、数据共享和交换平台、数据分析和微创新服务平台、相关数据管税的大数据应用提供“可信、可用、完整”较高质量的原子数据和分子数据。

数据加工平台主要实现以下的功能以满足相应的需求

1、对数据采集平台采集过来存放在原始数据暂存区的结构化数据进行相应处理,处理的能力如下所示,非结构化数据处理现在暂时不考虑;

按照在数据治理平台中的数据字典、元数据等以及业务要求,对数据进行相应的清洗(例如格式标准化、异常数据清除、错误纠正、重复数据、去噪)、转化等,从而形成我们所需要的“可信、可用、完整”较高质量的原子数据。下图就是一个原子数据的例子 •

虽然我们税务原有数据仓库的建设是从征管系统核心数据库中进行抽取、计算、转换形成法人、财产、发票、自然人、知识库、税务机关等相应的原子数据视图模型,但是我们需要进行进步,在这次建设的大数据服务平台中的原子数据视图的数据模型在现有的基础上并建议参考银行数据仓库系统中的模型来对我们进行进一步的完善和提升,毕竟我们税务方面的业务和数据都会比银行要复杂。

2、根据相关的业务主题要求,对原子数据进行相应的加工处理形成相应的分子数据以供后续处理;例如我们要实现一个防止企业偷税漏税的风险管理的这个业务主题,对于这个业务主题我们需要建设相应的企业画像,而企业画像所牵涉到的数据来自于对原子数据的加工处理,即企业画像就是在原子数据进行加工的所形成的分子数据的一个例子。相应的图如下所示

3、标签数据加工:“标签”是从业务的视角,对数据语义化的描述,业务人员和开发者看到的都是一个个与业务相关的“标签”字段,提问需求和回应方案时,会大大减少沟通的成本。这样的话在很多场景中我们都需要对我们的数据进行打标签.

对相应的数据打标签加速数据查询和分析系统的开发,可以让开发人员和业务人员能够更加快速地实现相应的交互式数据分析能力(例如整合分析)。 •

在形成好用户画像(法人画像、自然人画像)数据库后,我们根据业务需求在标签管理系统中设计合适的标签,对相应的用户画像数据进行标签化,即完成数据的定量到定性的过程,下图是一个示例

4、数据不可能100%的精准和可信,我们需要纠错,当我们在一个分析报告/报表中通过相应的能力(例如数据地图)发现数据有错误,并且数据错误就在我们的大数据存储和计算平台中相应的表中(无论是原子数据存储区或者分子数据存储区)。我们需要在数据加工平台中实现相应的离线或者流计算任务来对这些数据进行纠错,从而保证我们数据是“可信、可用”的。 5、其他

1.22 合理利用各种报表工具,实现报表展现服务

24

传统报表服务和业务紧密相连接,按照业务要求获取专门为该业务制作的数据表获取数据。因此这样的报表比较固定,固定报表在传统系统中,应用较多。新的数据服务平台不排斥传统固定报表,作为固定系统日报、周报等,传统固定报表有合理和高效的地方,平台需要兼容这些传统固定报表,同时需要融合新技术,实现更加丰富的报表展现服务.

图 报表服务的数据流程结构

税务报表展现服务平台依托于经过数据治理后的税务数据,充分利用整理好的数据主题、模型和标签等数据资源进行灵活的税务报表展示.向业务人员提供数据报表服务。服务包括固定报表服务、临时报表服务和其他的灵活数据可视化服务。

固定报表服务和可视化服务是预先了解数据需求而进行的有规律的数据报表服务,区别仅在于展示方式的不同。固定报表服务需要梳理报表所需要的各个维度数据,形成固定格式的表格进行输出,在排版、字符类型、表格计算公式、输出工具兼容等方面需要进行考虑;可视化则是将数据结构以图表等各种方式进行呈现,需要考虑的是数据结果规模、标尺制定、逻辑表达等问题。但是这两种表现形式都需要依赖于整理好的业务主题和数据主题模型库。在数据治理完成时,固定报表服务和可视化服务由于内容预先可以设计,在治理过程中应存在这些服务所需要的数据表,应用通过对接固定数据表,配合参数输入输出即可打通数据流程,实现报表或数据呈现。

临时性报表则不同,由于业务人员临时查找数据具有很强的随机性,无法预先做好数据对应,因此通常在数据治理中不会考虑专门为一些临时性需求设计专门的主题或者业务表。因此,临时性报表通常是从各个不同的表中间通过逻辑关联关系组合在一起的。需要通过平台后端将业务人员输入的数据在数据模型中进行检索,找到对应的数据后进行逻辑聚集,形成一个临时的逻辑表,支撑临时性报表进行输出。临时性报表的数据来源可以是主题库中的数据,也可以是历史库、在线库或者标签库中的数据,临时表不会消耗大量的资源,只需要满足业务人员临时性的数据获取需求即可。

1.22.1 固定报表实现分析

固定报表属于税务日常工作,在进行数据治理过程中,对固定报表需求建立相对应的专题库.根据固定报表汇报目标和内容进行专题库表的结构关系。面向不同级别的业务人员开放不同的报表获取权限。

固定报表上层应用软件连接报表专题库,获取报表数据进行输出。软件可以输入固定报表数据限定长度、时间日期范围等方式来控制获取的数据总量,但不控制报表输出的列、各列之间排列关系、各列计算公式等内容,达到让业务人员尽量少地改变固定报表输出格式地目的。固定报表地输出不需要人工进行,计算引擎后台要采用工作流方式定期将新增地数据生产加工为固定报表可用地数据并进行输出。

固定报表输出需要支持多种输出文件格式,目前通用地。xls、.csv、。txt等文件格式都应当支持,以方便业务人员在自己本地进行查阅时使用.

25

当固定报表地格式发生修改的时候,需要对主题库数据进行更新以保证固定报表例行生成的准确性.通常地固定报表修改需要对整个数据地生产流程进行综合考虑,以提高数据生产地效率.达到固定报表自动、高效生产地目标。固定报表生产流程图设计如下图所示: 图 固定报表生产流程图

固定报表的生产、处理过程需要相应的工作监督。在生产实践过程中,数据的处理有可能被很多临时因素中止,平台系统需要对包括固定报表数据处理在内的所有的数据处理过程进行监督和判断,了解当前数据处理的状态,及时发现中断的处理,通知平台维护人员及时进行处理。在这个过程中不断排除导致中断的原因,从而逐步减少中断发生的次数.

1.22.2 临时报表实现分析

临时报表主要功能需求是满足业务人员随机的报表查询。主要特点是数据列选择的随机性,可能会覆盖数据仓库中的任何数据。这就要求系统平台能够对数据仓库中的数据进行调度控制,保证所有的数据在被选中时都能被抽取到指定的数据表中。

数据在组合成为临时表时需要对数据的排列进行检查,要按照正确的顺序进行排序,这依赖于用户输入的查询数据的公共键。在数据治理过程中,每个数据表都会进行键的建设,保证所有的主题都能够通过键值进行联系。业务人员在制定临时表时,系统需要根据键之间的关系帮助业务人员找到正确的数据项目并进行组合排列,形成新的临时表,并最终输出给报表工具。临时报表的生成流程如下图所示:

图 临时报表生成流程图

临时报表生成要求平台根据用户输入数据进行数据关系判断,并把关联到的数据计算后输出到临时表中。这需要数据交换工具在后台实现数据计算结果的输出.保证临时表的生成。

临时表需要支持数据的计算,能够根据用户要求对数据进行逻辑和数据上的进一步处理.这些处理需求由报表工具下发给临时表进行处理,临时表完成处理后将数据结果返回给报表工具进行简单展示。临时表需要支持的数学函数包含但不限于下表内容: ABS ROUND EXP SUM FACT 绝对值 四舍五入 返回e的p次幂 求和 返回数值n的阶乘 ABS(-5)=5 ROUND(12.35,1)=12.4 EXP(1)=2。718 SUM(1,2,3)=6 FACT(3)=6 26

MOD 取余 MOD(5,3)=2 1.22.3 报表展示与可视化分析

上述内容主要描述为报表工具提供数据支撑方面的设计需求,但最终业务人员需要的是能够看懂、能够容易理解的数据.这就要求数据最终需要以容易理解的方式进行展现.这种展现主要依靠传统报表展示和专业的可视化分析设计来实现.

平台系统需要能够支持传统报表工具实现对数据的多种分析,包括直方图、趋势图、饼状图、等传统报表展示方式,能够进行数据列之间的函数和数据计算。报表系统要能够和传统excel、WPS报表系统进行对接和配合.即报表系统生成的各种分析图例在excel、WPS中能够正确读取或做简单调整就能够进行读取,满足业务人员需要把报表生成输出到本地进行离线个人分析的需求,另一方面,税务系统原有的许多存量分析报表通过上传数据或重新指定数据治理平台的相关数据后,能够在报表系统上进行展示。这要求报表展示系统的数据读取和分析设计和业界主流报表软件的设计匹配。下面张图描述了报表系统的基本展示要求. 图 报表图例 —— 直方图

图 报表图例 —— 饼状图、趋势图、表格

随着数据展示的发展,对于数据的理解的便利性要求越来越高,大数据服务平台要能够使用业界新发展出的数据可视化技术,帮助税务业务进一步优化数据展示效果。帮助业务人员更好的理解数据的意义.新的可视化技术包含由传统的数据报表功能的要素,但同时也有所创新。需要具体根据使用场景的不同进行详细设计,构成设计图进行描述。在这里简单列举几样数据可视化技术的展示效果,以达到抛砖引玉的目的。

飞线图:通过飞线展示元素之间的关联关系,通常在关系图谱类型应用中使用较多,能够非常清晰地标志出元素之间地关系路径、连接紧密程度等。飞线图图例如下图所示:

图 飞线图图例

气泡图:按照项目占比形成大小不同地“气泡”,用来填充空间,是传统直方图地一种延续和优化,气泡图地优势在于比直方图能够容纳更多地要素,将对事件影响最大地元素突出地体现出来。加强直观冲击.气泡图图例如下图所示.

图 气泡图图例

地域区块图:通常和地图、GIS系统结合,能够根据行政区划进行规模判断、也可以结合地理位置数据明确在地图上标记坐标点位,通常在指挥、决策、布控等领域应用较多。下图是地域区块图样式图例:

图 地域区块图图例

以上是一些新的可视化设计的参照样例,在税务行业中,具体需要使用的可视化技术,需要针对使用者要求、展示介质限制、数据量大小等进行具体设计和区分。

27

1.23 灵活使用数据,实现多维分析和微创新能力

灵活的多维分析和获取临时报表不同,在技术上面临更高的挑战。受限于数据库设计原理,数据治理是不可能将数据整理成能够高效应对所有查询条件的排列状态的。而在实际业务中,对于数据从各种维度的分析是一个必然的,数据治理工程形成的数据排列只能从最大程度上解决大多数数据的查询效率问题。但是在面对复杂的、多角度的查询时,仍然需要其他技术手段进行支撑。多维分析就希望能够打破技术阻碍,让业务人员更自由地使用数据,从而实现小到数据分析维度增加、大到设计新的分析应用,都能够由业务人员根据自己的需要进行搭建。从而使业务人员有更多精力投入到业务探索中来。

1.23.1 多维分析技术设计

多维分析技术指在进行数据分析时指定多组条件,对一批数据进行筛选,遴选出符合条件的结果。传统的多维分析是开发人员为业务人员设计好选择的维度,让业务人员在这些维度下输入选择条件的范围.在多维分析里,维度的设计也会纳入到业务人员分析和控制的范围中来。

下图是多维分析查询和微创新的设计原理和基本流程

图 多维分析查询和微创新数据流程图

为了提高数据查询速度,目前通用的技术是采用列式存储作为分析引擎,将可能被查询到的高热度数据存放在分析引擎中,并根据业务要求建立索引。考虑到自由多维分析查询对义务人员的自由度要求很高,进入分析引擎的数据都需要建立必要的索引.索引的建设方式要根据数据的具体特性来进行评估。索引建立完毕后,业务人员就可以在分析页面上调取不同维度的查询参数进行多维分析。

业务人员对数据的探索随着数据的了解程度而深入,多维分析引擎的维度有可能会出现不能满足业务人员查询需求的情况,这时业务人员可以通过微创新的方式来进行业务维度的重新定义,从主题库中找到自己需要的数据并定义新的维度。业务人员创新新维度的过程中,平台根据业务人员选取的数据自动进行数据的加载和索引建设,在后台对分析引擎数据结构进行静默调整,尽量不影响业务人员的使用。如下图所示:

图 业务人员通过自定义分析维度实现微创新

数据开发人员预先根据整理好的数据,将提炼出来的维度分类进行展示,业务人员在进行分析前,从展示列表中选中需要进行分析的业务维度,加入到分析图表框中,形成多维分析的条件组合。系统根据条件组合生成多维分析查询语句,在多维分析引擎中进行Join查询.查询过程中依靠多维分析引擎中预先建好的全量索引来保证查询速度,快速返回查询结果。业务人员发现结果和自己的预期不符合时,可以进行查询条件的调整和变换,再次进行查询验证。

当业务人员发现现有的维度分类列表无法实现自己的维度描述时,可以根据自己对业务的理解和已有的维度描述,创建自己需要的维度,并将这种维度临时加入到自己的分析图表框,进行业

28

务分析和探索.系统除了需要支持高度的人机交互自由之外,还需要能够支撑自由交互带来的大量索引冗余.

1.23.2 标签体系设计

税务行业的数据标签体系建设应和数据治理工作成果紧密结合,以最大程度上节省建设成本。在这个前提下,标签建设需要遵循以下设计原则:

按照通用实体、属性设计主题标签

从主题角度,标签可分为静态标签、行为标签、关系标签等。

在静态标签中第一层为通用实体,如纳税人、注册企业、报税事件、法人、注册地址等。第二层为实体属性,如纳税人的职业、学历、收入等。再往下的层次为实体属性值,如人的职业包含互联网、工业、农业、教育、体育等.属性值可能也有层次结构,例如职业互联网还可以细分为电商、云服务、娱乐等。

行为标签也可以分为多个层次:第一层为通用行为,如报税、退税等;第二层为行为细分,如按报税方式分为网络报税、上门报税等;再往下的层次为行为属性,如纳税行为时间、办税地址等属性.

关系标签第一层为关系主题,如社会关系、家庭关系、共同行为关系等,第二层为主题关系细分,如社会行为关系分同法人等。另外,设置有若干关键词标签,从文本等非结构化数据获取关键词,这些关键词将作为关键词标签被标注到数据项上,并通过构建索引的方式方便业务系统使用。

标签工程

标签工程的目标是快速为原始数据组成的逻辑实体打上特征标签,让这些实体具备和某种特征比较的相似性度量依据。具体的方法包括有监督的标签工程和无监督的标签工程两种方法,

1) 有监督标签工程

第一步:使用特征提取算法从原始数据提取特征。 第二步:采集或人工标注带标签的样本。

第三步:使用机器学习算法学习样本特征权重,构建标签模型。 第四步:使用标签模型给无标签的新数据标注标签。 具体流程图如下:

图 有监督的标签工程

2) 无监督标签工程

无监督标签工程一般适用于目标标签不明确,且不易获取样本数据的情况;需要较少的人工标注,打标签效果受数据和特征质量影响

无监督标签工程的一般流程如下:

29

第一步:使用特征提取算法从原始数据提取特征。 第二步:使用聚类算法获得无标签组群。 第三步:对无标签组群进行人工筛选并标注标签.

第四步:使用机器学习算法学习带标签组群特征权重,构建标签模型. 第五步:使用标签模型给无标签的新数据标注标签. 图 无监督的标签工程

1.23.3 微创新系统设计

微创新是业务人员在平台系统支持下,通过对数据进行高度自由的碰撞对比,产生新的业务价值,并积累形成地税行业的新的业务知识.微创新的核心思路是允许业务人员自主数据碰撞,平台系统屏蔽业务人员选择数据时造成的数据查询技术困难,帮助业务人员实现自由探索。

微创新贯穿在平台设计的整个理念中,如在前面描述的多维分析功能中,允许业务人员创新原来没有的分析维度、在标签体系中允许业务人员通过自主定义标签来描述业务实体等,都是微创新设计原则的具体体现。

除此之外,微创新还需要应用在别的数据使用方法上。如通过使用标签的方式对业务进行描述时,将多种原子标签组合在一起形成对业务描述更加精确的分子标签等。通过微创新可以实现对地税业务目标的具体描述,实现对法人、自然人、纳税企业、违规企业等具体的数据画像。

具体以法人画像来介绍微创新在业务描述中的作用 图 企业法人标签设计

对于企业法人,属于自然人的担任的角色,因此在设计企业法人的标签时可以继承自然人标签。从上图可以看出,自然人标签关注这个自然人的基本信息、亲属信息、经济能力、信用情况等方面.这些方面属于自然人所有标签的子集,是作为税务业务来讲可能需要关注的方面,因此将这些标签关注起来。上图中每个标签中都有更详细的子标签描述,在这里不再展开。

企业法人对于税务机关的其他关注点在法人标签中进行描述,分成管理认定、发票业务、申报纳税、违法违章、信用评定、风险评估、经营情况七个方面进行描述。覆盖法人在经济、税务行为中的各个方面。业务人员在实践过程中可以在这七个方面中添加不同的描述属性,来丰富对法人的描述,这些属性可以具备税务行业共性,也可以只是符合某个地市的地域性需求。当且仅当分析该地方法人时加以引用。同样的,业务人员也可以增加其他描述角度,将描述角度从七个方面增加到八个甚至更多,为了保证业务微创新的有效性,必须对微创新进行管理。

微创新的管理包括对微创新行为的价值评定和对微创新业务的保存、修改和发布.原则上每一个税务业务人员都可以使用平台进行微创新,但过多的、无效的微创新会极大增加平台负担并产生微创新“杂音”-— 即小样本看起来有效但不符合更大样本的微创新。需要具有丰富业务经验的专家进行剔除。因此,任何新的微创新在发布之前一定要经过专家评审和修改,并完成大样本业

30

务的实际测试才能够发布。平台需要支撑微创新版本的管理和发布机制,保证微创新工作的合理有效性。下图描述了微创新管理的基本业务流程:

图 微创新业务流程图

微创新业务流程管理要遵循持续改善的原则进行,不论微创新功能是否发布,一旦发现功能失真甚至实效,则都需要对发布的功能进行校正并更新。发布前的长期测试可以保证新增的微创新功能足够健壮,发布之后能够降低校正更新的概率。

1.24 对内对外更好的数据共享和交换,扩充能力

数据的共享和交换扩大了数据的使用范围,让各条线业务人员有机会去接触其他条线的分析成果,用来借鉴思路,也帮助税务业务人员获得大量从别的角度(其他条线甚至其他部门)对自己的业务分析结果进行审视的机会。

1.24.1 打破条线壁垒,实现数据共享

在金税三期建设过程中,税务系统建设并完善了以业务驱动的信息化建设,完善了业务流程中的数据采集、数据处理、数据跟踪和数据保存一系列工作。同时也形成了条线化的业务分析模式,每个业务流程线上各自拥有自己的业务分析系统,分析着眼于本业务流程,难以全局、直观的进行数据分析,给税务工作进一步发展带来了阻碍。

在新的税务分析系统的建设中,为打破条线的壁垒和束缚,有必要建设统一的数据服务平台,将各个业务流程中的数据进行上收,并实现业务数据在税务机关内部各个条线的共享。从而从更高视角实现对税务业务的统筹分析,推进税务行业改革发展。

为了实现税务数据的集中和共享,需要建设允许各个业务条线共同访问的公共物理存储存储区,需要统一制定能够让各个业务条线认同的标准业务术语定义规则,统一数据规范.江苏省已经发布的《江苏省地方税务局税收数据标准》提供了这样的统一数据规范,为实现省级税务工作的数据集中和共享创造了条件.

除了数据标准之外,数据的处理和建库规则也需要全省公开统一,处理规则能够被各地市各业务条线业务人员理解,帮助他们准确判断数据的来源和组成是否符合自己的业务实际;建库规则要能够帮助业务人员了解自己需要的数据应该到什么地方进行获取。由此,衍生出数据标准模型和数据目录,数据标准模型是由省平台数据专家制定的,根据地税数据业务处理规范形成的标准数据模型,具有全省权威性,能够帮助指导各个地市的数据开发工作;数据目录则是对省平台所有数据按照业务主题进行分门别类的展示,通过向各个地市进行开放,让各地市、各条线准确获取业务所需的标准数据

此外,数据安全在数据共享中必须严格保证,需要通过技术手段,包括权限管理、访问控制、数据加密等来控制在共享区域进行访问的人员。要求访问人员只能访问自己权限以内的数据,不能访问没有权限的数据。这样才能保证进行共享的数据被安全地使用,防止数据泄密.

31

1.24.2 实现数据流通,打通上下级和税务与其他部门的数据联系

在实现了数据共享之后,需要进一步实现数据交换才能体现出数据共享的价值。数据交换的包括两个层面,一是在各个条线上下级之间的数据交换通路必须保证畅通,下级机关向上级机关申请数据或上级机关要求下级机关上报数据的渠道需要保证畅通,只有这样才能保证共享的数据是及时的,不会因为时间原因造成数据失真.另一方面,税务部门的数据目前和许多其他政府部门的数据都有交换交流,这种交换作为外部数据源对税务工作的影响是非常有益的。外部数据源数据需要专门进行管理,和税务自身的数据一样分门别类进行存放,方便业务人员使用。

1.25 提供更好的开发模式,加速数据管税能力的提升

现在税务的环境中建设了相应的数据仓库体系,但是由于此数据仓库体系建设的思路、技术等各方面存在很多相应的问题导致发挥不出多大的效率;这就导致很多地市级地税机关都会建设自己的相应的数据平台/数据仓库相关的应用,他们的建设方法是:各个地市很多从省局全省集中征管等系统中拉取相关的数据并且加上自己从其他渠道方式获取的数据后,来进行相关数据应用的实现然后各个地税相关人员各自使用自己的,这种方式导致了一系列的问题,例如数据不一致、数据分析出来的结果千差万别等等。并且还出现性能不好、大量数据质量问题、总体建设成本过高、影响业务生产系统等各种问题。目前的开发建设思路如下图所示:

为了统一管理、节约成本。需要对这样的模式进行改变,需要让各个地市尽可能利用省平台提供的权威数据进行相应的开发工作,提升省平台权威数据的利用率,降低各地市自己的开发工作量,在控制住数据模型和数据的基础上让各个地市也有相应的业务开发自主权。新平台的开发模式需要几个建设阶段:

第一阶段:现有开发结构保持不变,省中心建设数据服务平台,将省厅业务系统和数据服务平台进行对接,实现省厅业务系统数据在数据服务平台上的沉淀。开始建设数据数据标准模型和数据目录.并通过数据共享交换平台将数据标准模型和数据目录建设成果不断进行发布.鼓励各地市业务应用使用数据交换平台获取标准模型和标准数据进行开发并反馈使用问题,逐渐完善模型和目录。同时,利用省平台积累的丰富数据,展开数据业务化工作,即通过标签等技术工具,让业务人员更容易地理解数据,使用数据。首先让省厅业务人员学习和了解如何使用多维分析工具进行业务探索,体现省平台经过数据治理和业务化之后呈现出来地优势,形成示范效应,带动各地市将使用省平台权威数据。

第二阶段:主要的数据都存储在省局的数据服务平台中,并且省局所有的人员(工作人员和管理层)和各个地市大部分人员(工作人员和管理层)在省局统一部署的数据服务平台进行工作,省统一权威数据仍在建设,尚不能完全覆盖各个地市的所有业务,但核心业务已经能够做到覆盖;各个地市还保留各自相应的数据、资产、开发人员等,各地市的数据开发工作仍然独立进行,但通过数据交换平台获取省平台权威数据,通过技术培训让各地市人员不断了解和熟悉省平台数据的结构,逐步替代各地市原有系统中自建数据。结构如下图所示

32

注:由于各个地市还是具有相应的平台,则需要通过省局的数据共享和交换平台把省局相关的数据共享交换到地市局的数据存储中,由地市自己进行相关特定业务的开发。并且把地市局积累的有价值的数据共享交换到省局这里来,让省局这边的数据越来越全面和有价值。

第三阶段:将让所有的数据都在省局的数据服务平台中,省局和地市局所有的人员(工作人员和管理层)在省局统一部署的数据服务平台进行工作,各个地市不再有相关数据和资产.实现全省地税数据的大集中。结构图如下图所示

在第三阶段,各地市的地方性特点数据和各自独特的数据分析习惯将被抽象成具有一定代表性的标准数据和符合地方特点的地方性数据模型,与省平台权威数据和标准模型共同存在.只是适用范围加以限制。各地市开发人员和省平台开发人员一样使用共同的开发平台,一并进行开发工作。可以在条件符合的情况下彼此共享开发成果,提高开发效率。各地市开发人员不再依赖生产库建立封闭的分析系统,而是使用标准模型或地方性数据模型进行开发。各地市业务人员也可以进行自由多维分析,并将自己的业务探索结果分享出来.

33

因篇幅问题不能全部显示,请点此查看更多更全内容