Sharper Error Bounds in Late Fusion Multi-view Clustering Using Eigenvalue Proportion

Liang Du, Henghui Jiang, Xiaodong Li, Yiqing Guo, Yan Chen, Feijiang Li, Peng Zhou, Yuhua Qian·December 24, 2024

Summary

这篇论文提出了一种用于分析多视图聚类的新型理论框架,重点是晚期融合方法。它解决了处理噪声和冗余分区以及跨视图捕获高阶相关性的局限性。通过利用局部拉德查尔复杂性和主特征值比例,作者提出了一种改进的多项核k均值收敛率,超越了现有方法。他们还提出了一种低通图滤波策略,结合多项线性k均值框架,以减轻噪声和冗余,提高聚类准确性。实验结果在基准数据集上证实了该方法的优越性能,与最先进的方法相比。 论文引入了多项核k均值的泛化误差边界,实现了前所未有的收敛率O(1/n),优于传统方法。它提出了一种低通图滤波增强策略,结合多项线性k均值框架,以提高聚类性能。论文讨论了两个相关工作:一次通过晚期融合,将共识分区矩阵学习和聚类标签分配整合到统一优化框架中;最大-最小-最大晚期融合,将基于核融合的最小-最大学习整合到晚期融合多视图聚类中。论文还涵盖了符号、预备知识,并展示了多项核k均值框架的简化线性案例,用于共识聚类。 MKKM在大型数据集上表现出色,由于其融合方法。它通过局部拉德查尔复杂性定义的假设空间,提供了更紧的O(1/n)泛化误差边界,超越了先前的LFMVC方法。通过优化主特征值比例,进一步提高了这个边界。分析集中在将数据映射到聚类中心的函数空间上,通过控制模型复杂性的拉德查尔复杂性估计泛化误差。局部拉德查尔复杂性提供了更精确、更保守的泛化误差边界估计。 文本讨论了机器学习中的泛化边界,重点是多项核方法。它引入了局部拉德查尔复杂性的假设空间的边界,涉及特征值和范数值。定理提供了使用主导特征值比例估计泛化误差边界范围的估计,通过多个不等式和假设关于核函数谱衰减的证明。文本还概述了多项核k均值损失函数的不等式,将真实风险R(f)与经验风险ˆR(f)和几个常数联系起来。证明涉及经验局部拉德查尔复杂性,显示在概率1-δ下,对于θ>1,真实风险被经验风险加上涉及θ、b和δ的项所限制。 文本概述了一种数据聚类算法,侧重于优化融合多个视图以实现平滑嵌入的公式。它引入了图滤波增强的多项线性k均值(GMLKM)方法,通过最小化目标函数实现这一目标。算法交替优化变量Y、γ和µ,使用坐标下降法优化Y。由于目标函数值单调递减,保证了算法的收敛性。该方法通过在十个基准数据集上进行的实验得到了验证,覆盖了各种领域,证明了其有效性。 该研究将GMLKM方法与近期的LFMVC方法进行了比较,包括AWP、LFMVC、OPLF、LFLKA、ALMVC、M3LF、sLGm和RIWLF。GMLKM在准确性(ACC)、归一化互信息(NMI)和调整Rand指标(ARI)方面始终优于竞争对手,无论是在各种数据集上。 文本讨论了多篇研究论文,重点是机器学习技术,特别是核方法、多项核学习和聚类领域。关键主题包括结构预测、鲁棒多项核k均值、晚期融合多视图聚类和自适应共识聚类。论文探讨了简单多项核k均值、无限核学习、坐标下降k均值等方法,旨在提高泛化边界、效率和多视图和谱聚类性能。技术涉及自适应邻居、加权Procrustes和图扩散,针对多媒体、图像处理和数据挖掘应用。

Key findings

2

引言
背景
多视图聚类背景信息
目标
研究目标与创新点
方法
多项核k均值的泛化误差边界
泛化误差边界理论
收敛率O(1/n)的实现
低通图滤波策略
策略原理与应用
结合多项线性k均值框架
相关工作
一次通过晚期融合
学习共识分区矩阵与聚类标签分配
最大-最小-最大晚期融合
基于核融合的最小-最大学习整合
符号与预备知识
基本符号定义
预备知识概述
多项核k均值框架简化线性案例
简化案例介绍
共识聚类应用
多项核k均值的泛化误差边界分析
拉德查尔复杂性定义
假设空间的边界
主特征值比例优化
提高泛化误差边界
多项核k均值框架的理论基础
泛化边界讨论
机器学习中的泛化边界
局部拉德查尔复杂性
假设空间的估计
多项核k均值损失函数的不等式
真实风险与经验风险
不等式与常数联系
经验局部拉德查尔复杂性估计
GMLKM方法与实验验证
GMLKM方法介绍
目标函数与优化策略
实验设计与结果
多个基准数据集验证
与LFMVC方法比较
比较与讨论
GMLKM与LFMVC方法比较
准确性、NMI与ARI指标
多篇研究论文综述
关键技术与方法
结论与未来方向
Basic info
papers
machine learning
artificial intelligence
Advanced features
Insights
论文中提出的新型理论框架解决了哪些问题?
这篇论文的主要贡献是什么?
GMLKM方法在实验中表现如何?