近日,hth官方下载入口安卓计算数学与控制系教授张振跃取得重要科研突破。其作为第一作者、以hth官方下载入口安卓为第一单位的研究论文《Global understanding via local extraction for data clustering and visualization》,在国际顶级学术期刊《Patterns》(CELL出版社子刊)上发表。该研究聚焦复杂无标签数据聚类与可视化难题,提出GULE框架,通过类一致的局部提取、全局传播以及自我学习,实现高精度聚类(如 RNA-seq 数据细胞类型鉴定)和拓扑结构保留可视化,为生物医学等领域提供新工具,推动多学科数据模式发现。

在当今大数据时代,从复杂数据中提取潜在类别信息是科学研究领域的重要挑战。无论是生物医学中的细胞分类,还是社交网络中的用户行为分析,传统的聚类方法往往依赖于对数据结构或分布的强假设,然而,现实数据通常具有高度复杂性,缺乏明确的分布规律,导致现有算法的准确性和鲁棒性受限。如何在不依赖预设条件的情况下,从原始数据的局部关联中挖掘潜在类别,成为亟待解决的问题。

图1:GULE框架概述
GULE(Global Understanding via Local Extraction)框架基于“局部一致性提取-全局传播”的核心原理,通过两层自学习网络实现类结构解析。该方法通过两个核心步骤实现:一是局部提取,从数据的局部连接中捕捉类别一致性,无需预先假设数据结构;二是全局传播,将局部发现的一致性信息通过全局网络传递和自我学习,最终形成完整的类别划分。研究人员通过理论分析证明,GULE能够高精度地还原数据中的潜在类别。此外,该方法还可用于数据可视化,在降维过程中保留类别的拓扑结构。实验表明,GULE在聚类准确性和可视化可靠性上均显著优于传统方法,尤其在生物医学等复杂数据场景中表现突出。

图2:小鼠脑数据集上的脑细胞聚类方法性能对比
GULE通过三项关键技术,为复杂数据处理开辟了新路径。首先为自适应图切割(Acut),通过参数β调节类内连接最大化与类间连接最小化的平衡,适应不同密度和结构的数据集。其次是渐进式学习:两层投影逐步优化类一致性,第一层处理原始数据的稀疏图,第二层针对低维投影的密集图进一步细化,提升聚类精度。最后通过拓扑保留可视化,结合t-SNE等技术,将原始数据与GULE投影结合,在降维中保留类内拓扑结构,如COIL20数据集的环状结构和PIE数据集的线性模式。

图3:基于GULE投影的数据可视化拓扑增强
GULE的核心创新在于摆脱了对数据分布的传统假设,仅借助局部关联来挖掘全局模式。这一突破性理念为处理现实世界中的非结构化数据开辟了全新路径。这项研究不仅推动了无监督学习技术的发展,也为跨学科复杂数据分析提供了实用工具。未来,GULE或将成为数据驱动研究的重要基石,为生物学、医学等领域的多样化应用提供新见解。
论文链接:https://www.cell.com/patterns/fulltext/S2666-3899(25)00114-X