多元统计分析--聚类分析--有序样品聚类

帮助 dmadmin Founder • 于 2016-01-29 15:26:54 • 812 阅读

有序样品聚类

前面所讨论的对样品聚类,不考虑它们之间的排列次序,即样品是无序的。但在有些问题中,当样品是有序时,就不能打乱原有次序来分类,而只能按原有次序将样品截 成几段,同类样品次序相互衔接。例如,为了表示不同年龄段儿童的生长发育规律,可 以根据某些能反映生长发育特征的指标,按年龄进行聚类。此时年龄次序不能打乱,这 就是对有序样品聚类。对于 n 个有序样品,可用递推公式,根据目标函数最小原理依次求得分成二类,三类,…k 类的最优分割,然后根据所得的全部分割方案,分析判断应分成几类,以及分割的方法。

主要功能

1.变量的均数、标准差、最小值和最大值; 2.一切可能类的直径; 3.聚类方案,即各分类数对应的目标函数及分割点。 注:这里的分割点表示前一类的最后一个样品。

分析示例

例:为了提高年轻一代的体质,必须定期检查儿童的体格发育情况。童年是一生中发育的重要阶段,发育情况与遗传因素有一定的关系,但与社会条件、气候、地理、营养、疾病等后天因素的关系更密切。由于儿童期的不同年龄阶段有其各自的生理特点,故须把儿童期再划分为不同生长发育阶段来进行研究。某单位对某地从出生到 7 足岁止的 1253 名男性儿童测量了体重,身高,坐高,胸围 4 项指标,欲根据这些指标的增长速率来划分成几个适当的阶段。资料如下表。

file

数据输入

将数据表录入云表格即可。

file

操作步骤

在[多元统计分析]菜单中,选择[聚类分析]中的[有序样品聚类], 屏幕出现[有序样品聚类]对话框。将数据范围单元格填入对话框中,因 4 个指标均已是增长率,故[数据标化方法]选择[不标化],[类内直径算法]选择[离均差平方和],[最大分割类数]为 10,点击[计算] ,便可得到分析结果。

file

file

file

结果解释

从聚类方案表可知,分为5类较为合适,因为再细分时,最小目标函数并没有多大的变化,减少不多。此时的最优分割为:S1 | S2 | S3 | S4 S5 | S6 S7 S8 S9 S10 S11 S12 S13 S14 S15 S16 S17 S18 S19综上分析,将 0~7 岁的儿童分为 5 个生长发育阶段较为合适,其中,第一阶段为:出生后 2 月 内;第二阶段为 2~3 月内;第三阶段为 3~4 月内;第四阶段为 4~8 月内;第五阶段为 8 月以后。 上面讨论的结果只是从统计学角度提供了一个参考依据,最后究竟分为几类为宜,如何分割较好, 须根据专业知识来确定。

回复数量: 0
暂无评论~~