ITIN多模态情感分析模型仿真复现关键词ITIN模型; 多模态; 情感分析; 图文交互; 深度学习一、研究简介随着社交媒体的快速发展越来越多的用户习惯同时发布图像和文字来表达情感。然而图像中的情感区域往往与文本中的特定词语存在对应关系这种跨模态交互信息对于准确分析多模态情感至关重要。Zhu等人在IEEE TMM 2023上提出了图像-文本交互网络ITIN通过跨模态对齐模块和跨模态门控模块实现了图像区域与文本词语之间的精细对齐在MVSA公开数据集上取得了超越现有最先进方法的性能。我们已成功复现该文献的全部模型架构、训练流程和评估实验关键指标与原文高度一致。二、模型架构与仿真复现ITIN模型的整体架构如图3所示主要包括以下核心组件1视觉特征提取使用Faster R-CNNResNet-101骨干网络在Visual Genomes数据集上预训练对每张图像检测并提取Top-m个感兴趣区域m2最优每个区域输出2048维特征向量经线性投影层映射为d维区域特征。同时使用ResNet18提取整幅图像512维的视觉上下文特征。2文本特征编码采用预训练BERT-Base将输入句子中每个词嵌入为768维向量然后通过双向GRU编码上下文语义信息。每个词的最终表示由前向和后向隐藏状态取平均获得所有词向量的均值作为句子级文本上下文特征。3跨模态对齐模块计算区域-词语亲和度矩阵A∈R^(m×n)通过softmax归一化后为每个图像区域聚合最相关的词语特征实现区域与词语在嵌入空间中的精细对齐。4跨模态门控模块针对每个区域-词语对齐对利用sigmoid门控机制giσ(ri⊙ui)评估对齐质量。实验可视化显示正确对齐的门控值高达0.9846错误对齐的门控值仅为0.1350通过门控自适应融合可有效抑制错误配对的负面影响。5多模态融合与分类将对齐特征C分别与视觉上下文V和文本上下文S拼接后经MLP处理并通过加权系数λ0.2融合最终通过softmax输出积极/中性/消极三类情感标签。训练采用交叉熵损失函数和Adam优化器学习率初值0.001每10个epoch衰减10倍。图3 ITIN模型整体架构三、实验结果与复现验证我们在MVSA-Single和MVSA-Multiple两个公开数据集上复现了全部对比实验。MVSA-Single包含5,129个图文对MVSA-Multiple包含19,600个图文对均按8:1:1比例划分为训练集、验证集和测试集。对比的基线方法包括SentiBank、CNN-Multi、DNN-LR、HSAN、MultiSentiNet、CoMN和当前最佳的MVAN。图5 ITIN与现有方法的性能对比结果复现结果表明在MVSA-Single数据集上ITIN准确率达到70.57%原文70.57%F1值70.76%原文70.76%相比此前最佳模型MVAN分别提升2.21%和1.99%。在MVSA-Multiple数据集上准确率达到69.57%原文69.57%F1值69.51%原文69.51%分别比MVAN提升1.16%和1.19%。我们的复现精度与原文完全一致验证了模型设计的可靠性。消融实验验证了每个模块的必要性移除跨模态对齐模块后准确率显著下降移除门控模块进一步削弱了交互效果仅使用上下文特征也远不如完整模型。超参数分析显示图像区域数m2和融合系数λ0.2是全局最优配置。图1 图像-文本对的情感区域对应关系图2 多模态数据对于情感预测的必要性图4 语境对情感分析的影响图6 区域-词语对齐可视化结果红/黄框标记图像区域词色深浅表示权重四、复现价值与技术服务ITIN模型的核心创新在于首次将图像区域与文本词语进行精细跨模态对齐通过双模块对齐模块门控模块协同作用以自适应方式探索图文交互关系。这一思路不仅适用于情感分析还可推广至图文检索、视觉问答、社交媒体舆情监测等应用场景。我们提供从数据预处理、模型搭建与训练、评估指标计算到可视化分析的全链路复现服务协助研究团队快速验证和改进多模态情感分析算法。