大数据征信 数据描述数据分类.pdf
MSITISA 中关村四方现代服务产业技术创新战略联盟标准 信 息 平 台 T/MSITISA 03-003.05-2022 标 准 大数据征信 数据描述 数据分类 全 国 团 体 Big Data Credit-Data Description Data Classification 2022-06-30 发布 中关村四方现代服务产业 技术创新战略联盟 2022-07-01 实施 发 布 标 准 体 团 国 全 平 信 息 台 录 台 目 言 ....................................................................................................................................................................II 引 言 ...................................................................................................................................................................III 平 前 1. 范围 .....................................................................................................................................................................4 信 息 2. 规范性引用文件 ............................................................................................................................................. 4 3. 术语和定义 .......................................................................................................................................................4 4. 缩略语 ................................................................................................................................................................5 标 准 4.1. 征信大数据特征 .................................................................................................................................6 4.2. 多源异构 ...............................................................................................................................................6 4.3. 时序流式 ...............................................................................................................................................6 4.4. 体量大 ....................................................................................................................................................6 4.5. 维度高 ....................................................................................................................................................6 5. 分类视角 ........................................................................................................................................................... 6 5.1. 技术视角选型 ......................................................................................................................................6 5.2. 业务应用视角 ......................................................................................................................................7 5.3. 安全隐私视角 ......................................................................................................................................7 体 6. 分类维度 ............................................................................................................................................................ 7 团 6.1. 技术选型维度 ......................................................................................................................................7 6.2. 业务应用维度 ......................................................................................................................................8 6.3. 安全隐私维度 ......................................................................................................................................9 7. 分类方法 ............................................................................................................................................................ 9 全 国 7.1. 线分类法 ...............................................................................................................................................9 7.2. 面分类法 ..............................................................................................................................................10 7.3. 混合分类法 ......................................................................................................................................... 10 T/MSITISA 03-003.05-2022 言 台 前 本文件按照GB/T 1.1-2020给出的规则起草。 平 请注意本文件中的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责 任。 本文件由中关村四方现代服务产业技术创新战略联盟提出并归口。 信 息 本文件主要起草单位:北京浩瀚深度信息技术股份有限公司、北京邮电大学、陕西西部 资信股份有限公司、浙江大学、杭州金智塔科技有限公司、中国电信集团系统集成有限责任 公司、中电金信软件有限公司、四方联盟(北京)科技发展有限公司、北京华创方舟科技集 团有限公司、北京高迈致远信息技术有限公司。 全 国 团 体 标 准 本文件主要起草人:窦伊男、刘帅、宋美娜、鄂海红、欧中洪、张光卫、姜海鸥、李永 博、郑小林、陈超超、朱梦莹、李宇渊、谢鲁、侯姝、金可栋、杨华、丛珊、崔勇 、王丹、 张静、卜仁柱、李山、冯煜、李国英、郭京荆、田震、贺政、董亚飞、岳洁、于勰、崔兆林、 罗显宴、田奇、罗高维、简赫廷、江志航、孙江枫、国晓雪。 T/MSITISA 03-003.05-2022 言 台 引 数据可以表示事物的特性,这些数据的基本单元被称为数据元。大数据征信就是利用IT 平 技术优势、风险控制模型,将企业在不同信贷机构、消费场景、支离破碎的海量数据整合起 来,经过数据清洗、分析、校验等一系列流程后,加工融合成真正有用的信息。 在大数据背景下,企业征信的数据元目前还面临业务标准与规范缺失、征信数据孤岛现 信 息 象严重、安全等级标准不统一等诸多问题,中关村四方现代服务产业技术创新战略联盟以大 数据征信智能评估与服务开放平台汇聚不同公司的信用数据,承载不同公司的信用服务,打 通不同信用服务之间的壁垒,结合典型服务场景开展应用示范,优化社会信用环境,推动社 会信用建设体系。经过仔细、认真规范和标准化的数据将会大大加强其在系统间及环境间的 实用性和共享性。 通过自动信息处理系统对用于交流的数据元进行识别和安全评级标准化,是一项重要工 至关重要的作用。 标 准 作。该项活动的成功及其在世界范围内的应用将对提高政府、企业界及学术界间的交流起到 本文件主要包括以下几方面内容:范围、术语与定义、规范性引用文件、分类过程、分 全 国 团 体 类视角、分类维度、分类方法等。 III 台 T/MSITISA 03-003.05-2022 1. 平 大数据征信 数据描述 数据特征与分类 范围 2. 信 息 本文件提供了征信大数据的特征定义、以及分类过程、分类视角、分类维度和分类方法 等方面的建议和指导。 本文件适用于规范征信大数据的特征、指导征信大数据分类。 规范性引用文件 术语和定义 体 3. 标 准 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适 用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB / T4754-2017 国民经济行业分类。 GB / T35295-2017 信息技术 大数据 术语 GB / T38667-2020 信息技术 大数据 数据分类指南 T/MSITISA 03-001.01-2021 大数据征信基本术语 团 GB / T35295-2017 界定的以及下列术语和定义适用于本文件。为了便于使用,以下重 复列出了 GB / T35295-2017 中的某些术语和定义。 GB / T38667-2020 中的某些术语和定义。 国 3.1. 大数据 big data 具有体量巨大、类型繁多、价值密度低、数据增长速度快等特点,难以利用传统的数据 体系结构有效处理包含大量数据集的数据。 全 3.2. 数据集 data set 数据记录汇聚的数据形式 [GB/T 35295-2017,定义 2.1.46] T/MSITISA 03-003.05-2022 3.3. 征信大数据分类 credit big data classification 台 根据大数据的属性或特征,将其按一定的原则和方法进行区分和归类,并建立起一定的 分类体系和排列顺序的过程。 平 [GB/T25069-2010,定义 2.2.1.6] 3.4. 分类主体 classification subject 3.5. 分类视角 classification angle 信 息 大数据收集、存储、使用、分发、删除等过程中对大数据进行梳理归类的组织或个人。 分类主体观察和开展大数据分类活动的角度。 标 准 3.6. 分类维度 classification dimension 用于实现分类的数据所具有的某个或某些特征。 3.7. 分类方法 classification method 根据选定的分类维度,将数据类别以某种形式进行排列组织的逻辑方法。 体 3.8. 数据分发 data distribute 团 将原始数据、处理数据、分析结果等形式的数据传递给内部或外部实体的过程。 3.9. 类别 category 国 具有共同属性(或特征)的数据的集合 全 4. 缩略语 下列缩略语适用于本文件。 ETL:提取、转换和加载(Extract Transform Load) FTP : 文件传输协议(File Transfer Protocol) SQL:结构化查询语言(Structured Query Language) 5 T/MSITISA 03-003.05-2022 4.1. 征信大数据特征 台 征信大数据具有多源异构、时序流式、体量大、维度高等特点。 平 4.2. 多源异构 信 息 多源是指征信大数据具有数据来源多样、存储于多个数据持有方。 异构是指征信大数据的类型、特征不一致,在数据结构上包含结构化数据、非结构数据、 时空数据等多种数据形式。 4.3. 时序流式 时序数据特征是指征信数据是一种时间序列数据,按照时间顺序记录的数据,在数据采 集上需要做降频、插值、实时计算、聚合等方法。 流式数据特征是指征信数据在时间和数量的分布上具有顺序、大量、连续的特点 标 准 4.4. 体量大 征信大数据的采集、计算、存储所包含的数据量都非常的庞大。 4.5. 维度高 分类视角 团 5. 体 征信大数据特征多,种类多,数据来源场景复杂,面向的业务场景复杂。导致征信数据 征信大数据分类视角分为技术选型视角,业务应用视角和安全隐私视角。 国 5.1. 技术视角选型 全 技术选型视角包括但不限于: 1. 理清数据产生频率,明确数据产生规律,确定数据更新周期和存储策略,确定数据 存储平台配型等存储资源分配方案; 2. 理清数据产生方式,分析数据的来源和质量,确定在整个数据处理流程中数据所处 的位置,及数据处理及存储技术; 3. 分析数据的结构化特征,确定数据存储与处理方案; 4. 明确数据的存储方式,确定数据建模模型与数据的访问方式,支撑各类数据应用场 景; T/MSITISA 03-003.05-2022 平 台 5. 理清数据稀疏稠密程度,明确数据稀疏稠密规律,确定数据存储策略和分析方法, 选择数据存储方案和分析方案; 6. 明确数据处理时效性要求,明确数据处理时机,确定数据处理策略,选择包括计算 平台和资源匹配等的数据处理方案; 7. 理清数据交换方式,确定数据共享方式及策略,支撑构建信息交换体系。 5.2. 业务应用视角 标 准 5.3. 安全隐私视角 信 息 业务应用视角包括但不限于: 1. 理清数据产生来源,明确数据权属和访问权限,便于数据追踪溯源; 2. 明确数据应用场景,确定数据业务主题,判断数据应用价值,选择数据分析方案; 3. 明确数据分发场景,确定数据应用行业,明确可用数据的种类和范围; 4. 理清数据质量情况,明确数据应用需求,确定数据质量管理方案。 分类维度 团 6. 体 安全隐私保护视角包括但不限于: 1. 明确不同敏感程度的征信大数据在存储、传输、访问、分发时的安全要求; 2. 明确不同敏感程度的征信大数据的隐私保护要求; 3. 指导分类主体制定隐私保护方案; 4. 指导分类主体制定安全管理方案。 国 征信大数据的分类维度从技术选型、业务应用、安全隐私保护三种视角给出不同的分类 维度,以及用于描述每种分类维度的分类要素、数据类别和适用场景。 全 6.1. 技术选型维度 6.1.1. 按产生频率分类 概述:按产生频率分类是指根据数据产生的频率(单位时间内产生的数据量或达到指定 数据量的频率)对数据进行分类。 分类要素: 按产生频率分类的要素包括: 7 T/MSITISA 03-003.05-2022 6.1.2. 按生产方式分类 信 息 平 台 1. 数据产生周期,如秒、分、时、天、周、月、季度、半年、年等; 2. 单位周期中数据的产生量,可以以记录条数表示或者以数据占用空间表示,如百万 条记录、千万条记录、GB级数据、TB级数据等。 类别 按产生频率可分为:每年更新数据、每月更新数据、每周更新数据、每日更新数据、每 小时更新数据、每分钟更新数据、每秒更新数据、无更新数据等。 适用场景 按产生频率分类的适用场景,如根据数据产生频率判断资源分配合理性和数据分析价值 等。 体 标 准 概述:按产生方式分类是指按照数据的产生方式对数据进行分类。 分类要素: 按产生方式分类的要素包括: 1. 数据被获取或被采集的方式,如人工采集、通过信息系统采集等; 2. 数据被加工的程度,如原始数据、二次加工数据等。 类别: 3. 按产生方式分类可包括:人工采集数据、信息系统产生数据、感知设备产生数据、 原始数据、二次加工数据等。 适用场景: 4. 按产生方式分类的适用场景,如确定数据采集方案、数据保护方案和数据处理方案 等。 团 6.2. 业务应用维度 国 6.2.1. 按产生来源分类 全 概述:按产生来源分类是指根据数据产生的实际情景对数据进行分类。 分类要素: 按产生来源分类的要素包括: 1. 数据产生主体,如人工、机器、传感器、应用软件、信息系统等。 2. 数据权属,即数据所有权的归属。 类别: 1. 按产生来源可划分为:人为社交数据、电子商务平台交易数据、移动通信数据、物 联网感知数据、系统运行日志数据等。 适用场景: 1. 按产生来源分类的适用场景,如根据数据来源确定数据归集策略、预测服务提供和 T/MSITISA 03-003.05-2022 台 数据交易定价等。 6.3. 安全隐私维度 7. 标 准 信 息 平 概述:按数据安全隐私保护维度分类是根据数据内容敏感程度对数据进行分类。 分类要素: 按安全隐私保护维度分类的要素包括: 1. 数据的敏感性,即数据本身或其衍生数据是否涉及国家秘密、企业秘密或个人隐私; 2. 数据的保密性,即数据可被知悉的范围; 3. 数据的重要性,即数据未经授权披露、丢失、滥用、篡改或销毁后对国家安全、企 业利益或公民权益的危害程度。 类别: 按数据安全隐私保护维度可划分为:高敏感数据、低敏感数据、不敏感数据等。 适用场景: 按安全隐私保护维度分类的适用场景,如根据数据内容敏感程度确定大数据应用边界、 数据保护策略、数据脱敏方案等。 分类方法 体 7.1. 线分类法 全 国 团 概述:层级又分为若干类别。同一分支的同层级类别之间构成并列关系,不同层级类别 之间构成隶属关系。同层级类别互不重复,互不交叉。线分类法适用于针对一个类别只选取 单一分类维度进行分类的场景。 确定分类类别之间的关系: 采用线分类法确定分类类别之间的关系包括: 1. 确定一个分类维度; 2. 确定该分类维度的分类类别; 3. 针对每一个分类类别:如果该分类类别不需要再进一步的划分子类,转第 4 步,否 则确定该分类类别的子类划分的分类维度,转 2 步; 4. 所有分类类别均不需进一步划分,则分类类别之间关系确定。 特点: 线性分类法的特点包括: 1. 层次性好,能较好的反应类别之间的逻辑关系; 2. 实用方便,便于机器处理信息; 3. 结构弹性较差,分类结构一经确定,不轻易改动; 4. 效率较低,当分类层次较多时,影响数据处理速度。 9 T/MSITISA 03-003.05-2022 台 7.2. 面分类法 体 7.3. 混合分类法 标 准 信 息 平 概述:面分类法是将所选定的分类对象(即本标准界定的数据),依据其本身的固有的 各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。 将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,可以组成一个复合类 别。面分类法是并行化分类方式,同一层级可有多个分类维度。面分类法适用于对一个类别 同时选取多个分类维度进行分类的场景。 确定分类类别之间的关系: 采用面分类法确定分类类别之间关系的过程包括: 1. 确定分类对象的若干特正面,即分类维度,每一个分类维度构成一个分类面; 2. 确定分类面的排列顺序,应当按照分类维度的重要性或使用频率的高低由左向右排 列。 3. 划分每一个分类维度的分类类别,为每一个分类维度确定一个分类规则,并按照此 规则划分各个维度的分类类别。 4. 通过上述步骤所得到的各个面的类别将分类对象划分成了若干个对象类。 特点: 面分类法的特点包括: 1. 弹性较大,一个“面”内类别的改变,不会影响其他的“面”; 2. 适应性强,可根据需要组成任何类别; 3. 易于添加和修改类别; 4. 可组配的类别很多,但实际应用的类别不多 全 国 团 概述:混合分类法是将线分类法和面分类法组合使用,克服这两种基本方法的不足,得 到更为合理的分类。混合分类法的特点是以其中一种分类方法为主,另一种做补充。混合分 类法适用于以一个分类维度划分大类、另一个分类维度划分小类的场景。 特点: 混合分类法的优点包括: 1. 可以根据实际需要,对两种分类方法进行灵活的配置,吸收两种分类方法的优点; 2. 适应一些综合性较强,属性或者特征不是十分明确的数据分类。

大数据征信 数据描述数据分类.pdf 




