VisProg高级技巧:如何通过提示工程优化视觉程序生成效果
VisProg高级技巧如何通过提示工程优化视觉程序生成效果【免费下载链接】visprogOfficial code for VisProg (CVPR 2023 Best Paper!)项目地址: https://gitcode.com/gh_mirrors/vi/visprogVisProg是CVPR 2023最佳论文项目它通过提示工程将自然语言指令转化为视觉程序实现图像理解与编辑。本文将分享5个实用提示工程技巧帮助你显著提升VisProg的视觉程序生成效果即使是新手也能快速掌握 核心技巧1明确对象与操作关系在编写提示时清晰的对象描述具体操作是提升VisProg准确性的关键。例如在图像编辑任务中需要精确指定目标对象及其属性# 模糊背景中的红色巴士错误示例 Instruction: 模糊红色巴士 # 正确示例明确对象与操作 Instruction: Select the red bus and blur the backgroundVisProg会解析这种结构化指令生成包含SEG分割→ SELECT选择→ BGBLUR背景模糊的完整程序链。通过prompts/imgedit.py中的示例可以看到所有高质量提示都遵循对象描述操作指令的黄金结构。图1VisProg通过提示工程实现多任务视觉程序生成包括图像问答、编辑和推理️ 核心技巧2利用类别约束提升定位精度当图像中存在多个相似对象时添加类别约束能大幅提高VisProg的识别准确率。在prompts/imgedit.py第49行可以看到这种技巧的应用# 带类别约束的选择指令 OBJ1SELECT(imageIMAGE,objectOBJ0,queryman wearing a red suit,categoryperson)通过指定categorypersonVisProg会优先在人物类别中搜索穿红西装的男人避免将类似颜色的物体误识别为目标。这种方法特别适用于复杂场景下的多对象处理。 核心技巧3合理设置列表长度参数在知识标签类任务中通过max参数控制返回结果数量至关重要。prompts/knowtag.py第38行展示了如何优化列表长度# 限制返回4种鞋子类型 LIST0LIST(querytype of shoes,max4)设置合适的max值能避免信息过载简单分类任务建议设为5-10精细识别任务可提高到15-20而特定目标查找如哈利波特扮演者则应设为1。图2VisProg包含图像理解、操作和知识检索三大模块提示工程需匹配对应模块能力 核心技巧4多步骤操作的顺序优化复杂编辑任务需要合理规划操作顺序。以替换地面为白雪并将棕熊改为北极熊为例最优提示应分阶段描述# 多步骤操作的正确顺序 Instruction: Replace the ground with white snow and the bear with a white polar bearVisProg会生成先处理背景地面再处理主体熊的程序链如assets/teaser2.png所示。若颠倒顺序可能导致新替换的北极熊被后续背景操作覆盖。 核心技巧5情感化提示增强表现力在人物编辑任务中添加情感化描述能让生成结果更符合预期。例如在prompts/imgedit.py第16行# 情感化提示示例 Instruction: Hide the faces of Nicole Kidman and Brad Pitt with ;) and 8)通过指定不同表情符号winking_face和smiling_face_with_sunglassesVisProg能为不同人物添加符合其形象的表情处理使结果更生动自然。 实战应用从安装到提示编写要开始使用这些技巧首先通过以下命令克隆项目git clone https://gitcode.com/gh_mirrors/vi/visprog然后参考prompts/目录下的示例文件尝试编写自己的提示。建议从简单任务如prompts/nlvr.py中的视觉推理开始逐步挑战复杂的多步骤编辑任务。图3VisProg将自然语言指令分解为视觉程序实现从棕熊到北极熊的场景转换通过以上技巧你可以充分发挥VisProg的强大能力无论是图像编辑、视觉问答还是知识标签任务都能获得更精准、高效的结果。记住优秀的提示工程不仅是指令的传递更是与AI系统的高效协作【免费下载链接】visprogOfficial code for VisProg (CVPR 2023 Best Paper!)项目地址: https://gitcode.com/gh_mirrors/vi/visprog创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考