数据质量随笔
in In-My-Mind with 0 comment

数据质量随笔

in In-My-Mind with 0 comment

大数据技术

讨论很多的大数据技术,从科学角度和工程角度来观察,有很大的区别。
科学角度更多关注在提升技术价值,通过一系列的理论方法,评估,提高数据的利用价值,对现有行为做出贡献。
工程角度更多关注在简化技术实现,通过工具,搭配组合,提高技术落地效率,降低人财物需求。

数据属性和状态

编程基础知识中,数据及其结构是比较重要的,同样,在大数据技术中,数据的属性很重要,通过对数据属性的组合表述,即数据的状态,让数据可理解,同时通过记录数据的状态及其变化,让数据成为可分析,可利用。

数据的属性维度很多,如最常见的属性有“值”(value),通常以数字,文字来表示,相应的扩展会有值域,修正等,类似的属性还有“型”(type
),通常指类型和结构,也可以理解为数据分类,如字符型,数字型。同类型的数据通常会有一系列相同的属性,以及行为规则,另外其他的属性还有数据的周期/有效期,访问权限,适用范围等等。

数据的属性大部分是会变化或者更新的,如值的增减,类型的转换,更有某个属性的存在与消亡。在某个固定的时空点,这一系列的属性组成了数据的状态

现有的编程技术本身是在物化表示现实社会,不管是过程式,函数式,面对对象等编程范式,数据的状态均是核心,首先会有初始状态,然后是状态的变化,其次是状态的传递,最后可能还涉及状态的记录和对比。

数据质量

从数据属性和状态,我们可以看到数据本身是很复杂的,比如某个数据如果包含时间属性,那可以认为他所有的状态都是唯一的,相应的从科学分析角度来说,该数据所有的状态的价值都是等同的,但另一方面,是否所有的状态均是重要的,或者有足够的利用价值,是无法判断的。这里本质上无法判断的,就是常说的数据质量

大数据分析的首先工作之一,是需要判断现有数据的质量,是否足够优秀,以从中获取相应的利用价值。
判断或者确保数据质量是否优秀的方法有很多,同样不同场景和需求,所需要使用的方法和策略也不一样,完全没有银弹。
我计划记录的不同的数据质量分析方法,以保证在实施大数据相关技术时,能够在前期做出有效效益评估。

信度和效度

最基本的质量分析是判断数据的信度效度

信度和效度是测量分析中使用的名词。信度指可信度,可靠度。效度指是否有效,是否能正确描述结果。
我最早接触他们,是软件工程第一章,讨论软件需求的vertification和validation,你需要保证一个需求通过语言或者文字传达了正确一致的意思,同时你也需要判断此需求描述是否能够满足他的目的以及用途。
类比下,我们来讨论数据的信度和效度。

举例来说,硬盘的空间大小,我们从购物网站上,会看到128G的硬盘,1T的硬盘等等,但等你买来装上之后,发现实际的空间要少很多,这是因为首先生产厂商换算是用的1000MB=1G,但计算机系统是1024MB=1G,所以标称的128G硬盘=128000MB,通过实际运算换算大约125G,但是等你实际装上驱动之后,可能会发现实际值也不是125G,甚至可能只在110G左右,这又牵扯到硬盘的格式化,隐藏的寻址空间等。

Comments are closed.