汉阳大学与韩国外国语大学联手破解医疗数据困局
这项由韩国汉阳大学与韩国外国语大学联合开展的研究于2026年6月以预印本形式发布论文编号arXiv:2606.19827目前正在等待正式会议或期刊收录。对完整技术细节感兴趣的读者可通过该编号在arXiv平台查阅原文。医院里每天都在产生海量的表格数据——患者年龄、血压读数、实验室检验结果、病史评分……这些数据被整整齐齐地排列在电子健康档案里却像一座巨大的沉睡宝库很少被充分挖掘。原因并不难理解要让AI从这些数据中真正学到有用的知识通常需要医生逐一标注每条记录——这位患者有肝脏问题、那位患者心衰风险高——但医生的时间极其宝贵标注工作既昂贵又耗时。研究团队从这个痛点出发探索了一种让AI在没有人工标注的情况下依然能从医疗表格数据中自主学习的方法。他们的核心创新可以用一个非常直观的比喻来理解教一个孩子认识事物你不会一开始就要求他分辨米其林三星餐厅的红酒与二星餐厅的区别而是先让他分清甜的还是咸的等他掌握了基础再逐步引导他识别更细微的差异。这个从粗到细、循序渐进的思路就是这篇论文的灵魂所在研究团队将整套方法命名为自适应分箱Adaptive Binning。一、为什么表格数据让AI如此头疼在理解这项研究的创新之前有必要先搞清楚一个问题AI处理图片、文字都已经相当成熟为什么一遇到医疗表格数据就犯难图片有像素的空间规律文字有语法和语义的序列结构但表格数据两样都没有。一张表格里第一列可能是患者性别男/女/其他第二列是年龄具体数字第三列是某项血液指标浮点数第四列是是否有某种病史是/否。这些数字和类别混在一起彼此之间的关系复杂且非线性就像一个菜单里同时出现了食材重量、烹饪时间、口味评分和菜系分类AI很难找到统一的语言来理解它们。正因如此在没有标注数据的情况下传统的深度学习方法在表格数据上的表现往往不如XGBoost、CatBoost这类基于决策树的经典算法。这些决策树算法天生擅长处理混合类型数据会自动对数据进行切分——比如把年龄分成小于45岁和大于等于45岁两组再在每组内继续切分最终形成一棵判断树。于是有研究者萌生了一个聪明的想法既然深度学习在表格上打不过决策树那能不能让深度学习也学会决策树那种切分的思维方式具体来说就是把连续的数值特征比如年龄预先分成若干个箱子比如0-20岁、20-40岁、40-60岁……然后让AI预测每个数据点落在哪个箱子里。这种方法叫做分箱预训练任务在无标注学习领域已经被验证是有效的——这正是这篇论文所改进的基础方法由韩国延世大学等机构2024年提出发表于国际机器学习大会ICML。然而已有的分箱方法存在一个根本性的局限所有特征从头到尾都用同样数量的箱子箱子的边界在训练开始前就固定死了整个过程中从不调整。这就好比教学生认识音乐无论是学鼓还是学钢琴无论是初学者还是进阶者永远只给他们同一套粗粒度的乐理入门知识而不根据每个学生的进展来调整教学深度。这种一刀切的方式自然会留下大量可以改进的空间。二、从一套固定菜谱到因材施教自适应分箱的核心逻辑汉阳大学与韩国外国语大学的研究团队设计了一套精妙的机制让AI在学习过程中能够动态调整每个特征的分箱精细度。整套方法由三个紧密配合的模块构成分别回答了三个关键问题何时细化、在哪里细化、如何在细化的同时保持正确的学习方向。**一、何时细化——特征级高原触发机制FPT**每一位有经验的教练都知道运动员的训练不能一直停留在同一难度上但也不能毫无根据地随意加难。最好的时机是当运动员在当前难度上已经达到瓶颈、进步停滞时再推进到下一个层次。研究团队把这个逻辑直接搬进了AI的训练过程。在整个预训练阶段AI会同时学习多个数值特征比如患者年龄、血压、胆固醇水平等。每个特征的学习进度是不同的——有些特征的规律简单AI很快就能掌握有些特征的规律复杂需要更长时间。系统会独立监控每一个特征的学习损失一个衡量AI预测有多不准的指标当某个特征的损失在连续若干轮训练中不再下降、陷入高原期系统就会判定好了这个特征在当前粗粒度下已经学到头了是时候把它的箱子分得更细给AI一个更难的挑战。这种按需触发、特征各自为政的机制避免了全局统一加难带来的效率损耗——那些还在快速进步的特征不会被打扰而已经停滞的特征会得到针对性的推进。研究中将这个等待周期高原触发所需的轮数设为5轮通过大量实验验证这是一个稳健的默认值。**二、在哪里细化——基于分散度的信息增益分裂机制DIGS**当某个特征被判定需要细化时新的分界线应该画在哪里这是第二个需要回答的问题。最简单的方法是直接用统计学中的方差减少原则把一个箱子从中间劈开使得两个子箱内部的数值差异尽可能小即降低方差。这和决策树的分裂逻辑如出一辙直觉上合理但有一个盲点它完全无视了AI当前已经学到的内心世界——那些被AI处理后形成的高维表示向量。研究团队在这里加入了一个独到的设计。他们不仅考虑数值空间中的方差减少还同时考虑AI内部表示空间中的分散度减少。简单来说就是候选的分割线不仅要让两组数据在原始数值上更均匀还要让AI对两组数据的理解在语义空间中更加聚焦、内部更加一致。这就像在图书馆重新分类书籍不仅要按照出版年份原始数值来划分还要参考读者实际借阅行为形成的隐含相关性表示空间。只有同时满足两个维度的分割才能真正提升分类的质量。最终系统会计算每个候选分割的综合得分——数值方差减少量乘以表示分散度减少量——只有当得分超过预设阈值时这个分割才会真正执行。研究将这个阈值设为万分之一并通过系统性实验证明这个选择相当稳健。**三、如何细化——异质感知的序数损失函数HORD**前两个模块解决了何时和在哪里的问题第三个模块则解决用什么方式学习的问题。医疗表格中的特征大致分为两类一类是纯类别型特征比如性别、民族这些类别之间没有大小顺序之分男不比女大也不比女小另一类是数值型特征比如年龄、血压这些特征被分成箱子后箱子之间是有顺序的——第1箱代表最小值范围第3箱代表中间值范围第5箱代表最大值范围预测错一格比错五格要轻得多。现有的分箱方法对两类特征一视同仁都用均方误差方差来衡量预测的好坏这对数值特征来说是个合理的近似但本质上忽略了箱子之间的有序关系。研究团队为此设计了一套新的损失函数对类别特征沿用经典的交叉熵损失即让AI准确预测属于哪个类别而对数值特征则引入了软序数标签——当真实答案是第3箱时不是硬性要求AI只能预测第3箱而是用一个以第3箱为中心、向两侧衰减的分布作为目标预测成第2箱或第4箱扣的分比预测成第1箱或第5箱少得多。此外这个损失函数还加入了对预测分布的均值和方差的约束防止AI做出过于模糊或过于极端的预测。最终整个预训练的损失函数将类别特征的损失和数值特征的损失按照各自的特征数量加权平均无论一张表格里类别特征多还是数值特征多两类特征都能获得公平的监督信号。三、在什么数据上验证验证了什么为了让实验结果有说服力研究团队专门整理了一个标准化的医疗表格数据集基准涵盖了来自不同临床场景的八个公开数据集。这八个数据集覆盖了几乎所有常见的预测任务类型包括两个二分类任务判断患者是否患有肝病或心力衰竭两个无序多分类任务判断心脏超声图像属于哪种类别、判断癫痫发作类型两个有序多分类任务预测肥胖程度等级、预测母婴健康风险等级以及两个回归任务预测帕金森病震颤的严重程度评分、预测体脂率。这些数据集的规模从252条记录到11500条不等特征数从6个到178个有些数据集存在缺失值有些则没有。这种多样性确保了实验结论不是针对某一种特殊情况的偶发结果。研究团队为所有方法设定了统一的预训练协议在没有任何标签的情况下模型在这些数据上训练1000轮期间完全不使用任何下游任务的标签信息。预训练完成后再用两种方式评估学到的表示质量。第一种方式是线性探针——冻结预训练好的编码器只在顶部训练一个极简的线性分类器或回归器训练100轮。如果预训练学到了好的表示这个线性探针的效果就好如果预训练几乎什么都没学到线性探针就会很差。这种评估方式对表示质量的要求极为苛刻因为线性层本身几乎没有任何拟合能力。第二种方式是微调——使用预训练权重初始化模型然后在有标签的数据上进行端到端的训练。研究团队测试了多种下游模型架构包括标准MLP多层感知机、ResNet残差网络、TabNet专为表格设计的注意力模型、FT-Transformer基于Transformer的表格模型和T2G-Former基于关系图的表格Transformer。四、数字背后的故事方法真的有效吗在线性探针评估中研究团队对比了十种不同的方法组合包括原始值重建、掩码预测、固定分箱重建以及是否加入随机遮挡或固定值替换等噪声扩增手段。评估指标被汇总为平均排名——每种方法在每个数据集上的排名取均值排名越低表示综合表现越好。结果相当清晰自适应分箱在三种遮挡配置无遮挡、固定值遮挡、随机值遮挡下分别获得了3.56、2.50和1.50的平均排名而其他所有方法的最佳成绩是固定分箱加随机遮挡的6.31分。也就是说即便自适应分箱在完全不加噪声的情况下运行也比固定分箱加了最优噪声的版本强得多。研究团队特别指出这说明自适应分箱带来的提升主要来自训练自适应的特征级分箱机制本身而不是噪声扩增带来的正则化效果——后者只是锦上添花。在具体数据集上这种改进也体现得相当突出。以心力衰竭数据集的AUC分类面积指标越高越好为例固定分箱加最优遮挡得到90.11%而自适应分箱不加遮挡就达到93.25%加了随机遮挡后更是飙升至96.88%提升幅度相当显著。在帕金森病震颤预测回归任务上固定分箱的均方根误差最好约为15.71而自适应分箱不加遮挡就已降至14.27加了随机遮挡后更进一步降至11.32几乎减少了近三分之一的误差。消融实验即逐个拆除方法的某一模块来验证其贡献的结果同样清晰地展示了三个模块各自的价值。移除特征级自适应机制让所有特征同步细化会导致多个数据集上性能下降。移除高原触发机制改为固定间隔触发分裂带来更大的损失。移除表示空间感知分裂只用方差减少判断分裂点损失最为显著。移除序数感知损失函数的损失同样不可忽视——尤其是在心力衰竭数据集上虽然训练过程中几乎没有触发任何分裂特征规律相对简单但仅仅换上更合适的损失函数AUC就从88.41%提升到了96.88%可见序数感知监督本身就具有独立的价值。超参数敏感性实验对研究的实用价值同样重要。研究团队系统地测试了损失函数中三个权重系数以及高原触发的等待轮数和分裂阈值在不同取值下的表现结果显示选择默认配置时各数据集上的统计显著性最强偏离默认值越远性能下降越明显。这意味着研究者不需要为每个新数据集重新调参一套默认配置就能提供可靠的起点降低了在临床部署中因过度调参而引入风险的可能性。在微调评估中自适应分箱的预训练初始化在大多数模型架构和数据集的组合上都能达到与固定分箱持平或更优的性能。特别是对于TabNet和FT-Transformer这类更具表达力的架构自适应分箱的预训练带来的提升尤为明显。以FT-Transformer在心力衰竭数据集上的结果为例无预训练的纯监督训练AUC为89.43%固定分箱预训练初始化为92.47%而自适应分箱预训练初始化达到了93.43%逐级提升的趋势相当稳定。这表明自适应分箱学到的表示是真正可转移的归纳偏置而不只是在线性探针这种特殊评估条件下的表面优势。五、这项研究的意义与边界归根结底这项研究解决的核心问题是如何让AI从无标注的医疗表格数据中学到更好的表示从而减少对昂贵人工标注的依赖。医疗场景对这一问题的需求尤为迫切。一个关于肝病风险的预测模型、一个关于心衰早期筛查的工具都需要大量经过医生确认的标注数据才能训练而这在许多医疗机构中是难以为继的。自适应分箱提供了一个可行路径先用大量无标注的常规检查数据对模型进行预训练让它学会如何理解不同特征之间的关系和每个特征的内部结构再用少量标注数据微调就能达到相当不错的效果。研究团队自己也坦承了这项工作的局限性目前的实验都是在同一个数据集上进行预训练和下游任务评估也就是说数据没有跨机构、跨数据集的泛化验证此外评估的下游任务种类相对有限。未来的研究方向指向跨数据集的预训练与迁移适应以及更广泛的临床终点评估这些都是将这项技术真正推向实际应用所必须解决的问题。另一方面这项研究还为领域提供了一个标准化的医疗表格SSL基准——八个数据集、统一的评估协议、公开的代码实现这对一个过去缺乏可比较实验标准的研究方向来说本身就是一项重要贡献。说到底这篇论文做的事情就是把按需教学这个朴素的教育直觉用严谨的数学和工程语言实现在了AI的自学过程里。它告诉AI不同的知识点应该分开学学到瓶颈了再加难加难的时候要聪明地选位置而且学习不同类型的知识要用不同的方式打分。这些听起来理所当然的原则落实到代码层面并不简单但带来的效果也是扎实的。对于那些希望用深度学习处理医疗数据却苦于标注成本的研究者和工程师来说这篇工作提供了一套值得尝试的工具——不需要针对每个数据集反复调参一套默认配置就能让AI在没有监督的情况下学会越看越仔细。有兴趣深入了解全部技术细节的读者可以通过arXiv编号2606.19827查阅完整论文也可以访问论文中提到的开源代码库获取可复现的实验实现。QAQ1自适应分箱方法和普通分箱方法相比主要区别是什么A普通分箱方法在训练开始前就固定好箱子数量和边界整个训练过程中从不改变所有特征用同样的分箱粒度。自适应分箱则会监控每个特征的学习进度当某个特征陷入停滞时才触发细化而且细化位置由AI当前学到的内部表示共同决定同时对数值型和类别型特征分别采用不同的损失函数。Q2自适应分箱需要标注数据吗A预训练阶段完全不需要标注数据AI只通过预测每个特征落在哪个箱子里来自我学习。只有在后续的微调或线性探针评估阶段才会用到少量有标注的数据。这正是这套方法在标注成本高昂的医疗场景中具有实际价值的原因。Q3自适应分箱方法在哪些数据集上做了验证A研究团队在八个公开医疗表格数据集上进行了验证涵盖肝病患者数据集、心力衰竭临床记录、心脏图谱、癫痫发作识别、肥胖程度估计、母婴健康风险、帕金森遥测监控和体脂预测任务类型包括二分类、无序多分类、有序多分类和回归数据规模从252条到11500条不等。