复旦大学与StepFun联手打造的AI摄影助手
这项由复旦大学与StepFun阶跃星辰联合开展的研究发表于2026年6月论文编号为arXiv:2606.25763有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。**镜头前的两难困境**每次掏出手机或相机准备拍照你大概都经历过这样的场面站在对方身后的人努力挪动手机试图把画面框出个好看的样子而站在镜头前的人则手足无措不知道该把手放在哪里腿又该怎么放。拍出来的照片要么构图歪歪扭扭要么人物姿势僵硬得像木头人。这两个问题其实分别需要两种不同的专业知识一个是拍摄者的构图眼光另一个是被拍者的姿势经验。长期以来学术界关注的主要是第一个问题也就是如何让机器自动帮照片裁剪得更好看。这类研究通常假设一张照片只要被裁一裁就能变好却忽略了有些照片根本不值得救有些照片其实已经很好不需要动更忽略了站在镜头前那个人同样需要帮助。正是这个被忽视的空白促使研究团队提出了一套全新的系统——ShutterMuse快门缪斯。ShutterMuse的核心理念是把拍好一张照片这件事拆解成两个同等重要的任务并用一个统一的AI模型同时解决它们一端是拿着相机的摄影师需要知道当前的取景要保留、要调整还是直接放弃另一端是站在镜头前的被拍者需要知道在这个具体场景里应该摆出什么样的姿势才好看。这个思路本身就已经是一次重要的突破因为在此之前没有任何一个系统尝试同时解决这两侧的问题。**一、现有工具的短板要么只会裁图要么说不清楚**现有的工具大致可以分成两类它们的局限性恰好互补合在一起恰好覆盖了ShutterMuse要解决的问题。第一类是专门做图像裁剪的专业模型比如InstructCrop和Venus。这类工具经过大量专业照片的训练能够精确地画出一个裁剪框告诉你把哪个区域保留下来构图最好看。但问题在于它们只会做一件事给你推荐一个裁剪方案。不管你送进去的照片是光线太差还是角度严重倾斜它都照样给你框出一个区域根本不懂得说这张照片没救了不用裁了。更不要说告诉站在镜头前的人应该如何摆姿势。第二类是通用的多模态大语言模型也就是那些既能看图又能对话的AI比如GPT系列和Gemini系列。这类模型能理解图片内容也能做出一定的判断——比如判断这张照片构图好不好、需不需要修改。但它们的问题是在判断完之后对于裁剪框应该精确画在哪里这个问题表现往往不够精准经常说得比做得好听。至于姿势建议这类通用模型同样无能为力你用它们直接生成标准化的人体关键点坐标得到的几乎都是无法使用的乱码输出。两类工具的短板如此互补研究团队意识到需要一个全新的框架来填补这个空缺。**二、搭建评测标准先定义好是什么**在着手开发新模型之前研究团队做了一件更基础的事情他们发现这个领域根本缺乏一套合适的评测标准。现有的图像裁剪基准测试只评估裁出来的框有多准而不评估该不该裁以及怎么摆姿势。于是他们先建立了一套叫做CaptureGuide-Bench的评测基准专门用来衡量在拍摄过程中的实时引导能力。这套评测基准分为两个部分。摄影师侧的评测涵盖五种有代表性的拍摄场景包括人像、静物、风景、街头抓拍和动物。对于每一张照片系统需要做出一个三选一的判断是调整构图refine、保持原样keep、还是直接放弃reject。如果判断为需要调整系统还必须输出一个精确的裁剪框坐标。被拍者侧的评测则包含五种常见的人体姿势类型用来检验系统能否根据具体场景推荐合适的摆姿方案。整个评测基准包含421个摄影师侧样本和552个被拍者侧样本全部独立于训练数据之外确保测试的公正性。评测指标同样经过精心设计。对于裁剪质量使用的是两种几何度量IoU交并比衡量预测框与标准框的重合程度越高越好和BDE边界位移误差衡量框的边界偏移距离越小越好以及一个综合成功率RIoU超过0.7则算成功。对于三种判断决策的准确性分别统计了拒绝成功率RSR和保留成功率KSR。除此之外还引入了一个叫MLLM-Score的综合评分让另一个大语言模型扮演裁判角色从美学角度评估构图结果的整体质量。被拍者侧的评测则更加复杂因为对于同一个场景来说合适的姿势并不只有一种。研究团队的解决方案是把模型推荐的关键点坐标渲染成一个骨架图叠加在场景图上然后从三个维度打分——身体姿势是否符合人体生理可能性物理合理性、姿势与场景环境的互动是否自然场景互动性、姿势本身是否好看有表现力姿势美感。每个维度都使用0、0.5、1三档打分。**三、数据从哪来一个精心设计的数据工厂**有了评测标准接下来的问题是ShutterMuse靠什么数据来学习研究团队构建了一个叫做CaptureGuide-Dataset的大规模数据集总共包含约13万个样本其中摄影师侧约10万个被拍者侧约3万个。摄影师侧的数据来之不易。从网络上收集的海量原始图片必须经过专业标注才能变成有价值的训练数据。研究团队训练了10位专业标注人员采用交叉审核机制对每张图片做出三类判断并写下理由如果需要调整画出调整后的裁剪框并描述构图问题和改进策略如果可以保留解释当前构图的优点如果需要拒绝说明无法通过裁剪修正的缺陷所在。对于有争议的样本会进行重新标注最终产出了一个质量可靠的1.2万张种子数据集。但1.2万张远远不够专业标注的成本也不允许无限扩充。研究团队因此设计了一套叫做EMDP的自蒸馏扩充流程就像用一块面团不断发酵出更多面团的过程。具体做法是先用种子数据训练出一个初始模型再用这个初始模型对未标注的图片库约50万张生成伪标注然后用Gemini 3.0 Pro作为验证器筛掉不可靠的标注把通过验证的样本加入训练集再训练出一个更强的模型如此循环三轮。为了防止错误积累整个过程中始终保留一个固定的专家验证集来监控每轮的质量。三轮循环之后训练集从1.2万张扩展到了10万张而且质量可控。被拍者侧的数据构建思路则完全不同因为这里需要的不是裁剪框而是场景姿势说明的三元组。研究团队从已有的人像照片出发首先用一个叫做Nano-Banana-Pro的工具把照片里的人物擦除留下一张空场景图与此同时用YOLO26x-Pose模型从原始人像照片中提取出人体的17个关键点坐标包括鼻子、眼睛、耳朵、肩膀、肘部、手腕、臀部、膝盖和脚踝。这些关键点来自摄影行业通用的COCO-17标准格式每个关键点还被标记了可见性状态完全可见记为1在画面内但被遮挡记为0超出画面边界记为-1。然后Gemini 3.0 Pro被用来分析原始人像照片理解场景环境和人物姿势生成一段解释为什么这个姿势适合这个场景的推荐理由。五位专业摄影师进一步审核这些理由和关键点标注确保内容准确且表达风格符合实际拍摄建议。整个流程最终产出了3万个空场景关键点文字理由的完整训练样本。**四、ShutterMuse是如何学会这些的**有了数据怎么让一个AI模型真正掌握这些能力研究团队采用了两阶段的训练策略就像先教一个学生背课本再通过做题来强化和纠正。第一阶段叫做监督微调SFT。他们以Qwen3-VL-8B这个开源多模态大模型为基础把整个CaptureGuide-Dataset喂给它让它学习如何输出结构化的JSON格式答案。对于摄影师侧的任务模型输出包含三个字段任务类型标为composition推荐理由用自然语言描述构图坐标用四个归一化数值表示空值代表拒绝[0,0,1,1]代表全图保留其他值代表具体的裁剪框。对于被拍者侧的任务输出字段变为任务类型标为pose推荐理由描述姿势17个关键点的归一化坐标以及对应的17维可见性向量。整个第一阶段在8块A800 GPU上训练了5轮使用AdamW优化器。第二阶段叫做强化微调RFT使用的算法叫GRPO组相对策略优化。这个阶段使用了专门构建的2万个强化学习样本让模型通过尝试-反馈-调整的方式进一步提升。强化学习的奖励机制分为摄影师侧和被拍者侧两套。摄影师侧有两个奖励信号。第一个是决策奖励如果模型判断的类别保留、拒绝、调整与标准答案完全一致得1分否则得0分。第二个是主体保留奖励对于需要调整的样本用BiRefNet这个显著目标检测模型从原图中提取出最重要的物体所在的区域也就是主体掩码然后检查模型预测的裁剪框是否覆盖了至少90%的主体区域覆盖到位得1分否则得0分。最终摄影师侧的总奖励就是这两个分数之和。被拍者侧则简洁得多只要模型预测的17维可见性向量与标准答案完全一致就得1分否则得0分。每次训练时模型会对同一个输入生成32组不同的回答通过比较这32组回答各自得到的奖励计算出相对优势值再用这个优势值来更新模型参数让模型逐渐偏向产出更好答案的方向。整个强化学习阶段训练了1轮学习率设为极小的0.000001并加入了KL散度惩罚防止模型偏离太远。**五、和对手比赛的结果处处领先或旗鼓相当**研究团队在CaptureGuide-Bench上对ShutterMuse进行了全面测试对手包括闭源的GPT-5.5、GPT-5.4、Gemini系列各版本开源的Kimi-K2.6、Qwen3-VL各尺寸版本、InternVL3.5以及专业裁剪模型CACNet、UNIC、InstructCrop和Venus。摄影师侧的结果可以用一个简单的故事来理解。专业裁剪模型比如InstructCrop和Venus是那种非常擅长画裁剪框的选手Venus的IoU能达到69.43但它们完全不懂得说不——拒绝成功率RSR和保留成功率KSR几乎都是0。这意味着不管你给它什么照片它都会给你画一个框哪怕那张照片已经好得不需要动或者差得没有救。通用大模型比如Gemini-3.1-Pro则像一个有判断力的顾问它的RSR能达到79.31KSR达到89.09懂得说这张不用改或者这张真的没救但画出来的框不够精准IoU只有65.63。ShutterMuse则在所有维度上取得了最佳或接近最佳的成绩IoU 74.30最高BDE 0.054最低精修成功率R达70.03%最高拒绝成功率RSR达82.76%保留成功率KSR达74.55%综合美学评分MLLM-Score 0.64最高。它是唯一一个在裁剪精度和决策准确性上都表现出色的模型真正做到了既会说要不要动也会说动哪里。被拍者侧的情况则稍有不同。由于没有任何专门的AI模型能处理这个任务研究团队用GPT-Image-2和Nano-Banana-Pro这两个图像生成编辑工具作为对比——让它们直接在场景图里生成一个合适姿势的人物然后提取关键点重新渲染成骨架图用统一标准评分。Nano-Banana-Pro在物理合理性上表现最好得0.63场景互动得0.35综合均值0.39GPT-Image-2综合均值0.35ShutterMuse综合均值0.34与前者非常接近。关键的区别在于效率。Nano-Banana-Pro平均每次姿势推荐需要55秒GPT-Image-2需要102秒而ShutterMuse只需要4.96秒生成的token数也只有412个是前两者的不到三分之一。换句话说ShutterMuse用接近的姿势质量换取了约10倍到20倍的速度提升这对需要实时反馈的拍摄场景来说意义重大。**六、拆开研究细节每块砖都有它的意义**研究团队还做了一系列消融实验专门检验如果去掉其中某一块设计结果会变成什么样。先看训练阶段的贡献。仅做完第一阶段监督微调的模型IoU已经达到72.39RSR 68.97KSR 63.64MLLM-Score 0.56。加上第二阶段强化微调后这些数字分别提升到74.30、82.76、74.55和0.64。提升幅度最大的是RSR从68.97跳到82.76和KSR从63.64跳到74.55说明强化学习对于学会什么时候该说不这个判断能力特别有帮助。被拍者侧的物理合理性也从0.52提升到0.58场景互动性从0.25提升到0.27。再看各个奖励信号的贡献。去掉决策奖励后RSR从82.76跌至62.07KSR从74.55跌至65.45印证了这个奖励信号对于三类决策的辨别能力至关重要。去掉主体保留奖励后IoU从74.30跌至73.76MLLM-Score从0.64跌至0.61说明这个奖励帮助模型在裁剪时不把画面主体切掉。去掉被拍者侧奖励后物理合理性从0.58跌至0.53证明针对可见性预测的奖励确实能让模型更准确地描述哪些身体部位在画面内可见。EMDP数据扩充流程的可靠性也经过了独立检验。研究团队保留了450个专家标注样本作为固定测试集三轮循环完成后模型在这个测试集上的IoU从66.11%提升至70.99%RSR从34.48%提升至88.77%KSR从16.95%提升至54.24%。负责筛选伪标注的Gemini验证器在所有数据类别和所有轮次中F1分数都保持在87%以上接受率也稳定维持在52%以上证明整个扩充流程是可靠的没有产生严重的错误积累。**七、真人评审的验证机器的判断和人类的直觉一致吗**研究团队还做了一个用户研究来验证MLLM评分系统的可信度。他们从评测基准中各抽取了100个样本邀请六位参与者进行盲评最后把人类评审得出的模型排名与MLLM-Score得出的排名进行比较用Spearman秩相关系数SRCC来衡量两者的一致性。结果是SRCC达到0.90摄影师侧的排名与人类判断高度吻合——ShutterMuse排第一、Venus排第二、Gemini-3.0-Pro排第三或第四这个顺序人类评审也基本认同。被拍者侧的排名则与人类判断完全一致没有任何差别。这意味着研究团队设计的MLLM打分体系确实在很大程度上能替代人工评审且结论可信。**说到底这个研究做了什么、意味着什么**归根结底这项研究打开了一个之前被忽视的门让AI在你按下快门之前就介入而不是只在照片拍完之后才帮你修图。ShutterMuse做的事情看起来简单——帮拍照的人决定要不要调构图、帮被拍的人决定摆什么姿势——但背后涉及的技术链条相当复杂从数据构建到训练策略再到评测方法每一环都有新的设计。这项研究的意义不仅仅在于它做出了一个好用的工具更在于它定义了一个新的研究方向和评测框架。CaptureGuide-Bench和CaptureGuide-Dataset的建立给这个领域提供了一把可以量化比较的尺子后续研究者可以在这个基础上继续推进。而ShutterMuse本身也有明确的局限需要改进比如被拍者侧使用的COCO-17关键点格式只定位到脚踝无法准确表示脚与地面的接触关系导致骨架图有时看起来像在浮空。引入更密集的关键点或专门的接触感知表示是未来值得探索的方向。如果你对AI在艺术创作和实用工具之间的交叉地带感兴趣或者对多模态大语言模型如何从看图说话进化到实时行动指导这件事有好奇心这篇论文值得一读。通过arXiv编号2606.25763可以找到完整原文。---QAQ1ShutterMuse和现有的AI裁图工具有什么区别A现有专业裁图工具只会给所有照片推荐裁剪方案不懂得判断是否需要裁剪。通用大语言模型虽然能做判断但裁剪框不够精准也无法提供姿势建议。ShutterMuse同时解决了这两个问题能判断照片该保留、调整还是放弃还能告诉被拍者如何在当前场景里摆姿势而且推理速度比图像生成类工具快约10到20倍。Q2CaptureGuide-Dataset的13万条数据是怎么收集和标注的A摄影师侧数据先由10位专业标注员人工标注了1.2万张种子数据再通过一套自蒸馏循环流程扩充到10万张——用已训练模型生成伪标注由Gemini 3.0 Pro验证筛选然后再训练更强模型循环三轮。被拍者侧数据则从人像照片出发擦除人物后提取姿势关键点由Gemini生成推荐理由再经五位专业摄影师审核最终产出3万个样本。Q3ShutterMuse在姿势推荐上的表现和GPT-Image-2相比如何A在姿势质量上ShutterMuse综合得分为0.34GPT-Image-2为0.35差距极小。但在效率上差距显著ShutterMuse平均只需约5秒和412个token完成一次推荐GPT-Image-2则需要约103秒和1427个token。对于需要实时反馈的拍摄场景ShutterMuse的速度优势意味着更实际的可用性。