基金项目:福建省自然科学基金(2018J01101); 福建省中青年教师教育科研项目(JT180799); 厦门大学嘉庚学院校级科研孵化项目(2018L04)
通信作者:yexiubin@xujc.com
(School of Information Science and Technology,Xiamen University Tan Kah Kee College,Zhangzhou 363105,China)
least square regression; subspace clustering; local constraint; high dimensional data
DOI: 10.6043/j.issn.0438-0479.201902024
针对高维数据的非线性特性会降低最小二乘回归(LSR)子空间聚类的性能,提出两阶段LSR(TLSR)子空间聚类方法.该方法利用LSR的表示系数定义局部信息惩罚项,构造局部约束LSR方法.在8个数据集上的实验表明该方法适合高维数据的聚类.
Since the nonlinear characteristic of high-dimensional data reduced the performance of least square regression subspace clustering,a two-stage least square regression subspace clustering method is proposed.In the proposed method,the representation coefficient of least square regression to define local information is used.A local constrained least square regression method is constructed by using the local penalty term.Experiments on eight data sets show that the method is suitable for high-dimensional data clustering.
聚类分析旨在发现相似样本组成的类簇,是模式识别研究的热点方向之一.随着科学技术的快速发展,数据收集变得更容易,产生了更大、更复杂的数据集.许多基于欧式距离的传统聚类算法容易受到高维数据多噪声、非线性的影响,从而影响聚类的准确性.因此,研究高维数据聚类具有重要意义.
子空间聚类是近年来聚类问题研究的热点之一.子空间聚类旨在根据某些特定的相似性度量和分组规则,对样本进行分组形成不同的类簇.在不同的子空间聚类方法中,谱聚类是研究高维数据聚类的重要分支.谱聚类算法中的一个关键步骤是构造“好”的相似矩阵.2009年,Wright等[1]提出用于人脸识别的稀疏表示(SR)分类法,SR基于线性表示揭示了数据之间的线性关系,并将获得的表示系数应用于分类,使人脸识别研究取得了新进展.从此基于线性表示的子空间聚类方法得到了快速发展.
由于SR通常揭示单个点与其他点之间的线性关系,Elhamifar等[2]提出了稀疏子空间聚类(SSC),该方法使用SR系数构造数据相似矩阵.Liu等[3]提出了低秩表示(LRR)子空间聚类,旨在获得低秩表示矩阵,并揭示数据的全局信息.Lu等[4]提出了最小二乘回归(LSR)子空间聚类,可将高度相关的数据聚合在一起,并且对噪声的识别具有鲁棒性.与其他算法相比,LSR更简单、更高效,因此许多LSR的扩展模型被相继提出.Lu等[5]利用相关熵改进LSR,该方法对非高斯噪声的识别具有鲁棒性,能更好地识别离群数据.简彩仁等[6]将降维思想融入到子空间聚类,提出投影LSR,通过去除冗余,提高聚类准确率.Cao等[7]将图像本身的局部纹理特征作为先验知识改进LSR,该方法可以更精确地检测织物疵点.这些基于表示理论的算法可以概括为求解表示矩阵,再用表示矩阵定义相似矩阵; 但是这些方法均假设数据相对于彼此可以线性表示,然而现实中的数据关系通常表现出高度非线性,因此会降低上述算法的聚类性能.针对这一不足,赵剑等[8]通过数据局部相关约束改进LSR,获得块对角性质更明显的表示矩阵,进而提高聚类准确率; 简彩仁等[9]提出核LSR(KLSR),利用核理论使其更适合高维数据的聚类.还有许多研究是针对正则惩罚项改进的子空间聚类模型,可以参考相关综述研究[10-11].
Roweis等[12]提出了著名的局部线性嵌入(LLE),该方法的结果表明数据的局部信息可以提高识别的准确率.因此考虑数据的局部特性,可以在一定程度上克服高维数据的非线性特性.基于此,本研究提出两阶段LSR(TLSR)方法:第一阶段利用LSR方法获得表示系数,利用表示系数刻画近邻关系,获得数据集的局部约束信息; 第二阶段利用第一阶段的局部信息,提出局部约束LSR模型,求得表示矩阵.最后利用表示矩阵定义相似矩阵,并用谱聚类完成高维数据的聚类.
基于谱聚类的子空间聚类方法的核心问题在于求解相似矩阵W.Wij表示两个样本xi和xj之间的相似度.一个“好”的相似矩阵应该具有类内高、类间低的相似度.近年来,基于表示学习获得表示矩阵,再利用表示矩阵构造相似矩阵的方法广泛用于子空间聚类,LRR和LSR就是其中的典型代表.
对于给定高维数据集X∈Rm×n是n个样本和m个特征属性构成的数据集,在某种约束下,利用数据集X重构数据集X自身.LRR旨在获得低秩表示矩阵Z[3]:
minZ rank(Z),s.t.X=XZ.(1)
其中rank(Z)表示矩阵Z的秩.由于模型是离散的,求解该模型是困难的.文献[3]将该问题转化为求解
minZ‖Z‖*,s.t.X=XZ.(2)
其中‖Z‖*表示矩阵Z的迹范数.
类似于LRR,根据岭回归模型,LSR提供了一种高效求解表示矩阵Z的模型[4],
minZ‖X-XZ‖2F+λ‖Z‖2F.(3)
其中:‖Z‖2F为矩阵Z的F-范数; λ>0是正则参数,用于平衡重构项和惩罚项.Z的解析解为Z=(XTX+λI)-1XTX,I为单位矩阵.
简彩仁等[9]利用核理论,将LSR推广成更适合高维数据识别的子空间聚类方法.定义非线性特征空间映射Φ:Rm→M,其中Rm是原样本空间,M是流形空间.数据集X在Φ下映射到无穷维空间得Φ(X).用式(3)研究Φ(X),得到
minZ‖Φ(X)-Φ(X)Z‖2F+λ‖Z‖2F.(4)
根据核理论,不难得到解析解Z=(K+λI)-1K.其中,K为半正定核矩阵,Kij=exp{(-|xi-xj|2)/(2σ2)},σ为高斯核参数.
对比LRR、LSR和KLSR,因为LSR和KLSR具有解析解,所以LSR和KLSR比LRR更高效.利用LRR、LSR和KLSR获得表示矩阵Z,根据文献[4]的研究,可以定义相似矩阵为W=(|Z|+|ZT|)/2,其中|Z|为Z的绝对值.
高维数据的非线性特性会降低传统子空间聚类方法的聚类性能.针对这一不足,借鉴LSR高效求解表示矩阵的优点,利用局部信息嵌入的方法,提出TLSR方法.
给定一个高维数据集X,y=xi∈Rm×1为X中第i个样本,A=X-i∈Rm×(n-1)表示剔除第i个样本的数据集.
第一阶段:依据最小二乘回归模型,用A表示y得
minα‖y-Aα‖22+λ‖α‖22,(5)
不难得到式(5)的解析解为α=(ATA+λI)-1ATy.
一种理想的表示系数α应该满足:A中与y不同类的样本的表示系数全为0,而与y同类样本的表示系数全不为0.由于A是高维非线性的并且含有大量噪声,这种理想状态不可能出现.但是表示系数α的大小刻画了A与y的相似度,一种合理的想法是表示系数越大说明该样本与y越相似.基于此,利用表示系数α定义距离向量d=(d1,d2,…,dn-1)T,其中
di=(max1≤j≤n-1|αj|-|αi|)/(max1≤j≤n-1|αj|).
第二阶段:利用第一阶段的距离向量d,构造局部约束最小二乘回归模型为
minω‖y-Aω‖22+λ‖ω‖22+γ‖d⊙ω‖22,(6)
其中,γ>0是平衡参数,w为新模型的表示系数,⊙表示Hadamard积.式(6)中第3项刻画了局部约束信息.事实上,更小的距离di说明两个样本更加接近,因此第3项使得模型倾向于选择A中与y更近的样本来表示y.
模型(6)的求解如下,将目标函数重新写为
L(ω)=tr[(y-Aω)T(y-Aω)]+λtr(ωTω)+
γtr(ωTDDω),(7)
其中D=diag(d)=[d1
d2
dn-1],展开得
L(ω)=tr(yTy)-2tr(ωTATy)+tr(ωTATAω)+
λtr(ωTω)+γtr(ωTDDω).(8)
对ω求导得
(∂L(ω))/(∂ω)=-2ATy+2ATAω+2λω+2γω-
2γDDω,(9)
并令(∂L(ω))/(∂ω)=0,则式(6)的解析解变形为
ω=(ATA+λI+γDD)-1ATy.(10)
用式(10)对每个样本分别求解ω=(ω1,ω2,…,ωn-1)T,利用ω构造表示矩阵Zn×n=(zi)n×n如下
z</sub>i=
{(0,ω1,ω2,…,ωn-1)T, i=1,
(ω1,ω2,…,ωi-1,0,ωi,…,ωn-1)T, 1<i<n,
(ω1,ω2,…,ωn-1,0)T, i=n.(11)
定义相似矩阵W=(|Z|+|ZT|)/2,利用标准化分割方法[13]对W进行分割完成聚类.
综上所述,将TLSR方法归纳如下:
输入:样本数据集X、λ、γ,类别数量p;
输出:p个类簇.
步骤1:由式(5)得到表示系数α,并得到相似度量d=|α|;
步骤2:由式(10)得到ω,并构造表示矩阵Z;
步骤3:由Z得相似矩阵W,应用标准化分割方法聚成p个类簇.
在不考虑特殊算法的情况下,矩阵加法Cn×m+Dn×m的时间复杂度为O(nm),矩阵乘法Cn×mDm×p的时间复杂度为O(nmp),矩阵Cn×n求逆的时间复杂度为O(n3).对于高维数据A∈Rm×(n-1)(mn),根据计算时间复杂度理论[14],式(5)的解析解α=(ATA+λI)-1ATy,其计算时间复杂度为O(n2m).类似的,式(6)的解析解为ω=(ATA+λI+γDD)-1ATy,其计算时间复杂度也为O(n2m).从计算时间复杂度理论的角度分析,由于mn,而n往往很小,因此TLSR计算时间复杂度不高.但是TLSR存在两个阶段的计算,增加了求解D的步骤,与LSR对比,计算时间较长.
本节通过实验验证TLSR的有效性.实验环境为:操作系统Win10专业版(64位),处理器Intel(R)Core(TM)i7-8700 CPU3.2 GHz,安装内存8 GB(7.8 GB可用),MATLAB版本为2018b.对比方法为子空间聚类方法:LSR、LRR、KLSR以及传统的聚类方法(K-均值和层次聚类法(HC)).比较各种方法的聚类准确率.
对一个给定的样本,令ri表示聚类方法计算得到的类标签,si为标准数据集的类标签,定义准确率的计算公式[15]为
ACC=(∑ni=1δ(si,map(ri)))/n,(12)
其中,样本总数为n,δ(x,y)={1,x=y
0,x≠y,map(ri)是一个正交函数,将每个类标签ri映射成与样本类标签等价的类标签.
以上所有方法的正则参数λ设置为{0.000 1,0.001,0.01,0.1,1},TLSR的局部约束项正则参数γ设置为{0.000 1,0.001,0.005,0.01,0.1,1},KLSR的高斯核参数σ设置为{0.5,1.0,1.5,2.0,2.5,3.0,3.5,5.0}.所有方法采用遍历以上参数的方式给出最大聚类准确率.
实验数据为广泛应用在模式识别研究的4个人脸图像数据集:orlraws10P、warpAR10P、warpPIE10P、ORL和4个基因表达数据集:CLL_SUB_111(以下简写为CLL)、GLIOMA、lung、TOX_171.数据集的简要信息如表1.
为避免随机性的影响,利用MATLAB重置随机生成数编译器rand('twister',5489),使在不同算法下有相同的初始化,同时又保证实验结果可以复现,实验结果见表2.
从表2的聚类准确率对比中发现,除在warpPIE10P和lung数据集上,TLSR在其他数据集上都取得了最
大的聚类准确率.TLSR和KLSR 两种方法都考虑了高维数据的非线性特性,它们的聚类准确率明显高于其他方法.对比TLSR和KLSR,在大部分数据集上TLSR的聚类准确率都高于KLSR,因此用局部信息刻画高维数据的非线性特性,有利于提高聚类准确率.TLSR在warpPIE10P和lung 两个数据集上的聚类准确率略低于KLSR,一种可能的原因是warpPIE10P和lung的维数与样本数之比较小; 说明TLSR比KLSR更适合高维小样本数据的聚类研究.对比TLSR和LSR,TLSR的聚类准确率明显高于LSR,因此TLSR是LSR的一种有效改进.和LRR对比,TLSR的聚类准确率在总体上也优于LRR.实验结果表明TLSR考虑局部信息约束,能更加适应高维数据的非线性特性,从而取得更好的聚类准确率.与K-means和HC相比,TLSR优势更加明显,可见基于欧式距离的传统聚类方法不适合高维数据的聚类.
本文借鉴局部流形思想,提出TLSR方法.该方法利用局部信息约束改进LSR.8个标准数据集的实验表明TLSR适合高维数据的聚类研究.参数选择对TLSR的聚类准确率存在影响,因此如何更好地选择参数,将在以后的研究给出.