写在前面:
个人理解:灰色关联分析其实就是看两个向量之间的距离,通过数学方法度量两个向量之间的关联性。所以在分析数据的时候一定要确认好要判断的是什么。总之,最后是对方案或是能对目标造成影响的因素的排序。
目录
1.灰色关联分析算法概述
1.1 灰色关系
1.2 灰色关联
2. 灰色关联分析原理
2.1 确定分析序列
2.2 数据预处理
2.3 计算灰色关联系数
2.4 计算关联度
3.灰色关联分析算法实现
3.1 对原始数据进行分析并预处理
3.2 确定参考序列
3.3 求差序列、最大差、最小差
3.4 计算关联系数(ro=0.5)
3.5 计算关联度
3.6关联度排序
3.7 综合关联度计算(不是必要的,根据实际进行改进)
4.灰色关联分析算法优缺点
4.1 灰色关联分析算法的优点
4.2 灰色关联分析算法的缺点
如有专业问题或者需要仿真可以点下面付费咨询链接。
知乎用户www.zhihu.com
一、灰色关联分析算法概述
1.1 灰色关系
灰色系统这个概念的提出是相对于白色系统和黑色系统而言的。这个概念最初是由控制科学与工程的教授邓聚龙提出的。按照控制论的惯例,颜色一般代表的是对于一个系统我们已知的信息的多少,白色就代表信息充足,比如一个力学系统,元素之间的关系都是能够确定的,这就是一个白色系统;而黑色系统代表我们对于其中的结构并不清楚的系统,通常叫做黑箱或黑盒的就是这类系统。灰色介于两者之间,表示我们只对该系统有部分了解。
1.2 灰色关联
灰色系统理论是由著名学者邓聚龙教授首创的一种系统科学理论(Grey Theory),其中的灰色关联分析是灰色关联度分析(Grey Relation Analysis,GRA),是一种多因素统计分析的方法。简单来讲,就是在一个灰色系统中,我们想要了解其中某个我们所关注的某个项目受其他的因素影响的相对强弱,再直白一点,就是说:我们假设以及知道某一个指标可能是与其他的某几个因素相关的,那么我们想知道这个指标与其他哪个因素相对来说更有关系,而哪个因素相对关系弱一点,依次类推,把这些因素排个序,得到一个分析结果,我们就可以知道我们关注的这个指标,与因素中的哪些更相关。
即某一个项目在受到其他因素的影响的情况下,分析各个因素对它的影响程度。
它根据各因素变化曲线几何形状的相似程度,来判断因素之间关联程度的方法。此方法通过对动态过程发展态势的量化分析,完成对系统内时间序列有关统计数据几何关系的比较,求出参考数列与各比较数列之间的灰色关联度。与参考数列关联度越大的比较数列,其变化态势与参考数列越接近,与参考数列的关系越紧密。系统发展态势的定量描述和比较方法是依据空间理论的数学基础,确定参考序列和若干个比较序列之间的关联系数和关联度。通过关联度计算揭示各样本序列的贴近程度并做出排序,是一种相对性的排序分析。与传统的多因素分析方法相比,灰色关联度分析对数据要求较低且计算量小。灰色关联分析方法要求样本容量可以少到4个,对数据无规律同样适用,不会出现量化结果与定性分析结果不符的情况。其基本思想是将评价指标原始观测数进行无量纲化处理,计算关联系数、关联度以及根据关联度的大小对待评指标进行排序。灰色关联度的应用涉及社会科学和自然科学的各个领域,尤其在社会经济领域,如国民经济各部门投资收益、区域经济优势分析、产业结构调整等方面,都取得较好的应用效果。
二、灰色关联分析原理
灰色关联分析的基本思想是根据序列曲线几何形状的相似程度来判断其联系是否紧密。曲线越接近,相应序列之间的关联度就越大,反之就越小。
一般的抽象系统,如社会系统、经济系统、农业系统、生态系统、教育系统等都包含有许多种,多种因素共同作用的结果决定了该系统的发展态势。灰色关联分析法则用于确定各因素对其所在系统的影响程度。
2.1 确定分析序列
(1)母序列(又称参考序列、母指标)
能反映系统行为特征的数据序列,类似于因变量Y,此处记为x0
(2)子序列(又称比较序列、子指标)
影响系统行为的因素组成的数据序列,类似于因变量X,此处记为(x0, x1, x2,…,xm,)
2.2 数据预处理
因为我们的这些要素是不同质的东西的指标,因此可能会有的数字很大有的数字很小,但是这并不是由于它们内禀的性质决定的,而只是由于量纲不同导致的,因此我们需要对它们进行无量纲化。这个操作一般在数据处理领域叫做归一化(normalization),也就是减少数据的绝对数值的差异,将它们统一到近似的范围内,然后重点关注其变化和趋势。
以下图为例
可以看到,有两个曲线绝对数值很大,而另外两个很小,如果不做处理必然导致大的数值的影响会”淹没“掉小数值的变量的影响。
所以我们要对数据进行去量钢化处理,主要方法有如下几个:
基本思想是:定义序列:
映射成
(1)初值化:顾名思义,就是把这一个序列的数据统一除以最开始的值,由于同一个因素的序列的量级差别不大,所以通过除以初值就能将这些值都整理到1这个量级附近。公式:
2)均值化:顾名思义,就是把这个序列的数据除以均值,由于数量级大的序列均值比较大,所以除掉以后就能归一化到1的量级附近。公式:
(3)百分比变换:
(4)倍数变换
(5)归一化变换
其中x0>0的一个数值
(6)极差最大值变换
(7)区间值变换
这个方法实际上在数据处理中应用比较多。
在GRA中似乎常用均值化或者初值化。对上图用初值化进行处理,得到的结果如下图:
可以看到,归一化以后的数据,量级差别变小了,这是为了后面提供铺垫,因为我们关注的实际上是曲线的形状的差异,而不希望绝对数值对后面的计算有影响。
2.3 计算灰色关联系数
计算公式如下:
下面对该公式进行详细说明:
(1)首先,我们把i看做固定值,此时公式如下:
对于某一个因素,其中的每个维度进行计算,得到一个新的序列,这个序列中的每个点就代表着该子序列与母序列对应维度上的关联性(数字越大,代表关联性越强)。
其实对于某一因素的所有维度与参考序列对应维度的距离求的min或max是一个固定值,也就是是一个常数,上式变为:
(2)考虑所有因素的情况(也就是考虑每一个i)
此时公式为:
可以看到,分子还在对所有因素的每一维度(每一列)求最小值和最大值,则它也是一个常数。对应公式如下:
当ro为0时:
观察上面这个式子,可以发现:
1).分子上这个数值,对于所有子序列来说都是一样的(分子上这个数实际上就是所有因素的所有维度中,与母序列(参考序列,即我们要比较的序列)距离最近的维度上的距离。
2).如果前面数据预处理不是用的初值化,而是用的均值化或者其他方法,可能会导致曲线之间,也就是母序列和各个子序列之间仍然有一段距离,那么这个距离最小值与下面的每个维度的距离相除,实际上也可以看成是一种取消量纲的手段。
对于所有子序列,这个分子是相同的,所以实际上,这个系数
是第i个因数在第k个维度上,子序列与母序列的距离(差的绝对值,通常叫做l1范数(l1-norm))成反比,也就是说,这两个数距离越远,关联系数越小,我们认为越不相关,这是符合直觉的。
当我们采用初值化处理数据后
会永远为0,这样一来,所有的系数都成了0,是无意义的。所以需要后面的参数ro。
所以一般ro取0.5。但是此时分子项上仍然是常数:
看起来好像没什么用,为什么要这样做呢?
对于两个分数: 1/5 和 1/4 ,它们的分子一样,分母相差为1,这时候他们的值相差1/20,也就是0.05,这就是没有+ro max max那一项的情况,分子相同,分母的差代表着与参考序列的距离。 如果我们给他们分子分母同时加上20,那么就是21/25和21/24,它们相差为0.035,可以看到,加入这一项会导致同样的距离的点的系数差,会因为计算而变小。很显然地,rho取得越大,不同zeta系数的差距就越小。
总结来说,ro是控制系数区分度的一个系数,ro取值0到1,ro越小,区分度越大,一般取值0.5较为合适。关联系数取值落在0到1之间。
对上述三个子序列做出关联系数的序列,结果如下:
2.4 计算关联度
根据上图其实已经可以看出大概的趋势,但是这只是因为这个恰好所有维度上的趋势比较一致,实际上,我们得到关联系数的值以后,应该对每个因素在不同维度上的值求取均值,换句话说,也就是对于上面那些关联系数的曲线,同一个颜色的求取均值。
结果如下:
(0.7505,0.5848,0.7154)
从而能够根据关联度排序。
如果各指标在综合评价中所起的作用不同,可对关联系数求加权平均值即
三、灰色关联分析算法实现
例1:利用灰色关联分析对6位教师工作状况进行综合分析
3.1 对原始数据进行分析并预处理
分析指标包括:专业素质、外语水平、教学工作量、科研成果、论文、著作与出勤。对原始数据经处理后得到以下数值,见下表
3.2 确定参考序列
可以是每一行的最大值,也可以是自己选择的某一个序列。总之,根据需要决定。
3.3 求差序列、最大差、最小差
见下表
求最值:
3.4 计算关联系数(ro=0.5)
依据公式:
求得:
同理得出其它各值,见下表
3.5 计算关联度
依据公式:
求得:
3.6 关联度排序
如果不考虑各指标权重(认为各指标同等重要),六个被评价对象由好到劣依次为1号,5号,3号,6号,2号,4号.
3.7 综合关联度计算(不是必要的,根据实际进行改进)
常见的灰色关联度分析中,一般选用理想最优或理想最劣参考序列来计算关联度,从而使采用最优关联度得出的效果排序结果与最劣关联度得出的效果结果有可能不完全一致,给指挥员决策带来困难。可以使用将最优关联度和最劣关联度兼顾的综合关联度来解决问题。
定义综合关联度:
为对应因素与最劣参考序列的关联度,
为对应因素与最优参考序列的关联度。
例如:最优关联度Rmax为:(0.831,0.481,0.733,0.736,0.717,0.563);最劣关联度Rmin为:(0.537,0.941,0.644,0.681,0.624,0.751);综合关联度Ro为:(0.369,0.114,0.283,0.269,0.285,0.185)。
若只考虑最优关联度或者只考虑最劣关联度,结果并不完全一致,从而给方案的优化和指挥员的决策带来一定的困难,将两者综合考虑得到的综合关联度则可很好地解决此问题。
四、灰色关联分析算法优缺点
4.1 灰色关联分析算法的优点
灰色关联分析法弥补了采用数理统计方法作系统分析所导致的遗憾。它对样本量的多少和样本有无规律都同样适用,而且计算量小,十分方便,更不会出现量化结果与定性分析结果不符的情况。
4.2 灰色关联分析算法的缺点
要利用该方法,这个系统必须是灰色系统。灰色系统中灰的主要含义是信息不完全性(部分性)和非唯一性,其中的“非唯一性”是灰色系统的重要特征,非唯一性原理在决策上的体现是灰靶思想,即体现的是决策多目标、方法多途径,处理态度灵活机动。