当前位置: 首页  学院动态

物电学院电子信息专业研究生在国际知名期刊Knowledge-Based Systems 上发表研究成果

作者:苏丽诗  发布者:吴瑛   发布时间:2026-06-03  浏览次数:11

近日,物电学院2024级电子信息专业硕士研究生李军辉,在基于骨骼的手势识别(SGR)领域取得重要进展。其以第一作者身份撰写的研究论文“SG-DGCN:Semantic-Guided Dynamic Graph Convolutional Network for Skeleton-based Gesture Recognition”在SCI一区国际知名期刊Knowledge-Based Systems上发表。其导师Mohammed A. A. Al-qaness(克尼斯)教授为该论文的通讯作者。

基于骨骼的手势识别技术在人机交互与视频分析中有着广泛的应用前景,这主要得益于骨骼数据对环境变化(如光照、背景杂乱等)具有极强的鲁棒性,并且能够以极其精简的形式表达复杂的运动动态。然而,现有的动态图卷积网络(GCNs)在处理骨骼数据时经常面临结构不稳定的问题。这类方法推断连接性通常仅依赖于瞬时帧级相关性,导致所学习到的拓扑结构极易受到特征抖动的影响,且缺乏全局一致性。

为解决上述痛点,该研究提出了一种全新的语义引导动态图卷积网络(SG-DGCN)(图1)。

(图1. SG-DGCN网络整体架构图)

该模型的核心优势具体总结如下:第一,空间建模引入通用拓扑先验。模型采用语义引导图卷积(SGGC),通过将源自类别嵌入质心的数据集级运动学原型直接拼接到图生成过程中,施加了稳定的语义偏置。这有效防止了拓扑结构对瞬态噪声产生过拟合现象。配合硬Top-k稀疏化策略,物理层面修剪了虚假连接,精准保留最显著的功能依赖关系(图2)。

(图2.不同模型学习到的空间拓扑结构(邻接矩阵)对比,SG-DGCN(图b)呈现出更精准、稀疏的功能连接)

第二,时间建模有效缓解过度平滑。研究设计了配备门控注意力机制的多分支时间模块(MBTM)。该机制能够在全局上下文和局部运动细节之间进行动态插值,从而在捕获长距离依赖的同时精准保留局部特征(图3)。

(图3. SG-DGCN在“捏”手势中的拓扑注意力动态演变。对比模型(上)注意力僵化,而SG-DGCN(下)能精准随时间将注意力转移至发生交互的指尖)

广泛的实验评估表明,SG-DGCN在DHG-14/28、Briareo以及NW-UCLA等主流数据集上均达到了当前最佳水平(SOTA)。此外,通过对多流融合特征进行t-SNE可视化分析,可以直观地看到SG-DGCN展现出极高的类内紧凑性与极其清晰的类间边界(图4),这充分证明了该模型在区分视觉模糊运动模式方面的强大鲁棒性。

(图4.多流融合特征的t-SNE可视化,SG-DGCN展现出极高的类内紧凑性与清晰的类间边界)

截至目前,李军辉已在Knowledge-Based Systems、Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery以及Robotics and Autonomous Systems等国际知名期刊上累计发表高水平论文3篇(均为本人一作,导师通讯):

1.Li J, Al-qaness M A A. SG-DGCN: Semantic-Guided Dynamic Graph Convolutional Network for Skeleton-Based Gesture Recognition[J]. Knowledge-Based Systems, 2026: 116254.

2.Li J, Wang L, Ni S, Al-qaness M A A. Skeleton‐Based Hand Gesture Recognition: Backgrounds, Datasets, Methods, Applications, Future Trends, and Challenges[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2026, 16(2): e70092.

3.Li J, Al-qaness M A A. SA-STGCN: Structural-Adaptive Spatio-Temporal Graph Convolution with Spatio-Temporal Attunement for skeleton-based gesture recognition[J]. Robotics and Autonomous Systems, 2026: 105371.