GB/T 38667-2020 信息技术 大数据 数据分类指南
Informationtechnology— Bigdata— Guide for data classification
主要内容
范围与引用文件
术语和定义
1 大数据 big data
具有体量巨大、来源多样、生成极快、且多变等特征,并且难以用传统数据体系结构有效处理的包含大量数据集的数据。
注:国际上,大数据的 4 个特征普遍不加修饰地直接用 volume、variety、velocity 和variability 予以表述,并分别赋予了它们在大数据语境下的定义:
1)体量 volume:构成大数据的数据集的规模。
2)多样性 variety:数据可能来自多个数据仓库、数据领域或多种数据类型。
3) 速度 velocity:单位时间的数据流量。
4)多变性 variability:大数据其他特征,即体量、速度和多样性等特征都处于多变状态。
2 数据集 data set
数据记录汇聚的数据形式。
注:它可以具有大数据的体量、速度、多样性和易变性特征。数据集的特征表征的是数据本身或静态数据,而数据的特征,当其在网络上传输时或暂时驻留于计算机存储器中以备读出或更新时,表征的是动态数据。
3 大数据分类 big data classification
根据大数据的属性或特征,将其按一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序的过程。
4 分类主体 classification subject
大数据收集、存储、使用、分发、删除等过程中对大数据进行梳理归类的组织或个人。
5 分类视角 classification angle
分类主体观察和开展大数据分类活动的角度。
6 分类维度 classification dimension
用于实现分类的数据所具有的某个或某些共同特征。
注:常见数据分类维度包括产生来源、结构化特征、业务归属、处理时效性要求等。
7 分类方法 classification method
根据选定的分类维度,将数据类别以某种形式进行排列组织的逻辑方法。
8 数据分发 data distribute
将原始数据、处理数据、分析结果等形式的数据传递给内部或外部实体的过程。
注:数据分发包括线上或线下等多种方式,如数据交换、数据交易、数据共享、数据公开等。
9 类别 category
具有共同属性(或特征)的数据的集合。
暂无评论内容