6月24日豆包上线专业版办公任务模式实测惊艳2亿用户开启AI普惠办公新时代6月24日豆包正式上线专业版同步发布豆包2.1系列大模型。首个Agent驱动的办公任务模式搭载豆包2.1 Pro实测调研报告、财报分析、自建Skill等办公场景交付质量对标Claude Opus 4.6。作为2亿日活的国民AI应用豆包开始认真干活了。这次更新最核心的变化是全新的「办公任务模式」分别为专业版用户和免费用户提供豆包2.1 Pro和豆包2.1 Turbo模型这也可以被认为是豆包的第一个Agent版本。在这个模式下豆包能完成一个完整的工作目标自主拆解步骤调用本地电脑、浏览器、飞书办公套件等工具产出可以直接交付使用的工作成品一份行业报告、一张数据分析表、一套PPT或者一个带后端数据库的网站。谈到模型能力有个效果十分吸睛的Demo一个芯片设计RTL的测试豆包2.1 Pro连续运行近18小时完成6个核心模块、1303行RTL代码经历9轮迭代还跑通了仿真、测试、综合检查等完整工程流程展现出模型在真实工程场景里的生产级Coding交付能力。过去完成该任务需要3 - 5个工程师做数周。豆包日活超过2亿是中国用户量最大的AI应用。这2亿人里大多数从未接触过Claude Code和Codex等专业Agent工具。Agent能力进入一个每天2亿人打开的App覆盖的是一个全新的用户群体。免费用户不受任何影响现有功能和额度保持不变底层模型升级为豆包2.1 Turbo能力甚至有显著提升。办公任务模式也在一定额度内向所有用户免费开放。对于豆包的免费用户来说免费服务的现有功能和额度保持不变还整体接入了豆包2.1模型能力有所提升。此外免费用户还能体验接入豆包2.1 Turbo模型的办公任务模式。那么这个Agent模式到底能把活干到什么程度三大场景实测豆包Agent办公任务模式的逻辑很简单Agent明确目标拆解步骤调用工具交付成品。产出物是可以直接发给同事、交给客户的工作成果。以下三个场景按难度递进用交付结果说话。场景一本地电脑操作 应用生成第一个场景直接测豆包新推出的办公任务模式最硬核的能力之一——操作用户本地电脑上的文件写代码、跑代码、发现问题自己修。实测分两轮。第一轮Prompt设计一个可复用的本地软件帮助我检测出重复照片中质量最好的将其余质量相对更差的放入回收站。可以用我本地文件夹的这些照片来测试并完善软件。豆包先查看了本地照片文件夹了解测试数据然后开始写代码。过程中经历了多轮自我迭代遇到依赖兼容性问题主动切换技术方案发现评分算法和分组逻辑的Bug后自行修复重跑直到测试结果达标才交付。第二轮Prompt能否加上一套极简UI让连运行Python代码都不会的人也能傻瓜式操作豆包用tkinter做了一个完整的图形界面文件夹选择、严格度滑块、备份模式、可视化扫描结果、进度条、二次确认弹窗删除默认进系统回收站。生成了一个双击启动脚本用户点一下就能打开。最终交付四个文件命令行版、GUI版、启动脚本和使用说明。最终Agent从两张相同场景的照片中成功挑出了质量最好的一张。正确对焦的清晰照片IMG_5676.jpg错误对焦的模糊照片IMG_5684.jpg成功选出了更清晰的第一张照片IMG_5675.jpg。一个完全不会写代码的人全程鼠标操作就能清理完重复照片。场景二财报数据分析 对比图表实测Prompt帮我整理近半年全球AI芯片行业的财报核心数据对比英伟达、AMD两家公司的营收增速、毛利率变化生成对比分析表格并给出行业趋势总结输出为飞书表格 500字以内的投资摘要文档。Agent要从多个数据源提取财务指标清洗比对生成可读性强的表格还要写出有判断力的趋势分析。从信息提取到数据处理到可视化到文字总结这是一个多步骤链式任务任何一环断了都交不出合格的活。豆包交付了两个文件一份双Sheet的飞书表格和一份投资摘要文档。表格链接https://my.feishu.cn/sheets/DFBHsfWtOh7zHMtJur4cootPn9c文档链接https://my.feishu.cn/docx/Xwxfd5Dv5opPaAxcGLPccvs6nbd表格做到了什么程度第一个Sheet是季度对比按公司分列、按指标分行英伟达FY2027 Q1营收816亿美元同比 85%、GAAP毛利率74.9%、数据中心收入752亿美元同比 92%AMD 2026 Q1营收103亿美元同比 38%、毛利率53%。第二个Sheet是年度核心数据包括全年营收、AI业务占比、市值等维度。每个数字都有明确的时间范围标注不需要人去猜「这个季度到底是哪几个月」。投资摘要没有停留在复述数字的层面而是提炼出了三个行业趋势判断全球AI算力建设加速驱动需求持续超预期、英伟达CUDA生态加硬件迭代形成深厚护城河、竞争格局呈现「一超多强」分化。最后给出了配置建议英伟达超配、AMD标配并提示关注三季度新品节奏和云厂商资本开支变化。AI生成的财务数据仍需人工核验文档也标注了「部分内容由豆包生成」。但作为初稿这份表格加摘要的双交付已经覆盖了一个初级分析师大概半天的工作量。场景三自建Skill 世界杯数据分析实测Prompt创建一个可以生成数据可视化面板的技能然后用这个技能把今天世界杯的所有比赛数据分析一下。第三个场景展示的是Agent最有想象空间的能力用户在教AI学一个新技能然后让它用这个技能干活。这条Prompt里包含两个任务。第一步是创建一个自定义Skill第二步是调用刚创建的Skill执行具体分析。豆包先生成了一个名为「data - dashboard」的Skill基于ECharts构建支持统计卡片、柱状图、饼图、折线图、双轴图等多种图表类型响应式设计深色渐变主题并附带了完整的HTML模板和使用指南。然后豆包调用这个Skill抓取了6月24日世界杯4场比赛的实时数据生成了一个交互式数据面板。面板里的信息让人很难相信这是一句Prompt的产物。6个关键指标统计卡片总进球、零封场次、场均进球等各队进球数对比柱状图比赛状态分布饼图进球时间分布折线图小组积分形势双轴图外加一张完整的赛程数据表格。数据的时效性也跟上了葡萄牙5比0大胜乌兹别克斯坦C罗梅开二度siuuuuu成为历史首位在六届世界杯中全部取得进球的球员41岁138天这些细节都准确呈现在面板里。图源央视新闻这个案例的价值在于Agent完成了「先造工具再用工具干活」的复合指令。传统工作流里创建一个数据分析模板和用模板执行分析是两个独立步骤通常需要不同的技能栈。豆包只需要一句Prompt。而且这个Skill创建一次之后可以反复调用明天、后天的世界杯赛事数据不需要重新描述需求。三个场景之外办公任务模式还有几项能力值得留意。本地电脑操作方面经用户授权后豆包可以协助整理本地文件、归类文档、跨应用搬运信息。定时任务方面用户可以设定豆包在固定时间自动执行重复性工作比如每周一上午9点自动生成AI行业动态周报。网站和应用生成方面办公任务模式支持创建带后端数据库的生产级网站可供个人或团队快速搭建信息系统。所有能力仍在持续迭代更多专业Skill后续会陆续上线。底座之变豆包2.1 Pro是什么水平办公任务模式的交付质量底层由模型能力决定。豆包专业版搭载的是最新的豆包2.1 Pro免费版用户则可使用豆包2.1 Turbo。豆包大模型2.1 Pro已经达到了可用的标准可以对标Claude Opus 4.6的水平进入到了Agent的可用门槛。一个有意思的变化是此前Seed团队有单独的Coding模型SeedCode豆包2.1发布后Coding和Agent能力全部合并到了主版模型里与此同时推出了Seed Evolving系列在2.1基础上每一两周更新一次。在面向真实Coding场景的众测开发者评估中Seed 2.1 Pro对比Claude Opus 4.6获得了59.1%的胜率。在ALEAgents Last Exam基准评测中这个覆盖13个行业集群、1000多项高经济价值真实任务的测试里Seed 2.1 Pro处于第一梯队。Agents Last Exam基准评测中左侧为完整通过率右侧为平均综合得分GDPval。基准衡量模型在真实工作任务中的完成质量和经济价值Seed 2.1 Pro拿到了参评模型的最高分。Terminal Bench 2.1的得分为71.0与Claude Opus 4.7的71.7基本持平。跑分是参考维度之一前面的实测也更能反映Agent在真实办公场景中的交付水平。两者结合来看豆包2.1 Pro确实已经迈过了Agent的可用门槛。价格方面Seed 2.1 Pro的API定价为输入6元/百万Token、输出30元/百万Token约为海外同水平模型的四分之一。豆包专业版采用三档订阅标准68元/月加强200元/月高级500元/月区别仅在使用额度功能和模型完全一致。与此同时豆包即将推出面向在校大学生提供认证后38元/月的专属优惠针对视障人群的视频通话功能也有特殊优惠方案。再重复一遍关键信息免费用户现有功能和额度不受影响。办公任务模式也在一定额度内向所有用户免费开放免费用户可以体验接入豆包2.1 Turbo模型的办公任务模式。而专业版主要解决的是专业用户在复杂任务场景下的额度需求。2亿人的Agent飞轮豆包日活超过2亿。这2亿用户里也有相当多使用智能手机还不算流畅的中老年人等相对的「科技弱势群体」。他们大多数不知道Claude Code和Codex是什么。Claude Code、Codex对这个群体来说Agent此前只是科技媒体报道里的概念。办公任务模式把Agent工作流放进了这些人每天都在用的App里。一个从没写过代码的行政人员现在能用一句话让豆包帮她整理本地文件、生成周报甚至部署一个内部查询网站。一个大学生可以用38元/月的学生优惠价获得搭载旗舰模型的办公Agent。让2亿普通用户零门槛使用专业级工作流是AI普惠当下最务实的一步。2亿日活还带来一个结构性优势——海量用户在Agent模式下处理真实工作任务积累的数据将持续反哺模型的Agent能力迭代。用户量级带来数据量级数据量级加速模型进化模型进化再拉动更多用户使用Agent功能。Seed Evolving系列每一两周更新一次就是这种飞轮效应的产品化体现。办公任务模式将不断快速进化即将上新的功能包括但不限于技能商店页面支持用户添加 / 管理手机远程操作电脑电脑端支持GUI操作进一步和飞书融合打通。方向已经很清楚了。Agent时代跑分是入场券2亿日活才是战场。当一个国民级应用开始替用户干活改变的是2亿国民的工作方式。