AI家务数据采集火热:劳动者低价“喂养”机器人,具身智能落地仍需5 - 10年
突发AI家务数据采集背后的危机与挑战如果机器人会写科幻小说大概会以“我重生了重生为一台家务机器人开机的一瞬间拖地扫地、叠衣服、刷碗等技能一个不落甚至能单手打出一个完美结实的垃圾袋收口”这样的内容开头。事实上韩国LG推出的家务机器人LG CLOiD 让机器人学会做家务本质就像让猴子打出莎士比亚全集。无限猴子定律与AI发展的转折无限猴子定律告诉我们只要时间足够长一只随机敲击键盘的猴子终能打出莎士比亚全集。在AI发展早期这个思想实验引发科学家们无穷的想象认为只要采集足够多的随机数据就能涌现出智能。但答案显然是否定的纯随机的数据就像猴子的无序敲击效率低到宇宙毁灭也等不来一次有价值的灵感涌现。不过AI的发展改写了这个结果科学家主动采集数据从每一次搜索到每一帧监控画面、每一段家务视频。到了2026年镜头无处不在行为被持续记录数据被源源不断地抽走、标注、喂养给正在学习如何替代人类的模型。AI数据采集披上兼职外衣月薪四千允许AI机器人采集个人的一举一动最终训练出一个完全替代自己劳动职能的智能体不少人会本能地拒绝。但当这份工作被包装成“AI数据采集员”隐瞒真实用途又瞄准急需补贴家用、拥有大量空闲时间的宝妈群体时自我蒸馏就被很多人接受了。小敖在BOSS直聘上刷到这种岗位当时她刚从上一家公司离职想躺平又怕存款告急就想着在家找个自由点的赚钱活路。HR承诺“只录手部就行不用露脸不用说话时间自由随时能做”她以为找到了轻松的居家兼职在家封垃圾袋、拖地板、整理衣物拍下视频就能换钱。她接了单第一次拍摄叠衣服视频上传后三天后台提示“审核不通过”理由是“光线不均匀左侧有阴影”。一开始她觉得审核员强词夺理后来明白这种有阴影的视频AI没法识别很难成为训练素材。她来回重拍了四次才勉强合格第一条通过审核的20秒视频她前后搭进去了将近两个小时。正式开工后合格率依然低得惊人拍摄角度稍微偏一点、手部动作超出画面边缘、背景里有杂物入镜、光线从左边打到右边而非正面等情况都会被退回。做家务对她来说完全成了表演她感觉自己就是镜头背后的群演一群机器人是最忠实的观众。真正让她决定不干的是一次意外发现。系统派发的任务包里要求重点采集抓取垃圾袋收口的动作包含5种以上收口方式她意识到自己拍的东西和网上家务机器人演示视频里的动作一模一样。“我当时全身发凉我录了两个月叠衣服、封垃圾袋、捡玩具原来全都是在教机器人怎么替代我。”而视频最终通过审核后报酬是3.2元。不同采集员的现状亚楠几年前还在跑外卖如今成了一名专职数据采集员。每天戴上设备拍自己叠衣服、擦拭桌面、做三明治。以家居场景为例一天能采集200多条视频有效时长约2到3个小时月薪6000到7000元比居家采集员的3000到4000元高出不少但依然算不上高薪。她的工作流程被系统精确切割成一个个标准动作。前一天晚上在线上领取任务第二天就在房间里反复执行在杂乱环境中识别目标物戴上夹爪抓取换一个方位再来一遍。一条视频只有20到30秒公司规定每天最低要求是1.5小时有效时长也就是说她每天要产出至少180条合格视频。从穿戴上设备到脱下设备她一天里大部分时间都在重复同一件事。数据采集圈的层级划分具身智能数据采集员的时薪和他们创造的数据最终卖出的价格之间隔着10倍以上的差价。一条高质量的真机操作数据在数据市场上的售价可能高达数百甚至上千元而采集它的人只拿到了十几二十块。数据采集圈有着像印度种姓一样的严格划分。最底层是采集员常见人群包括宝妈、失业者、兼职人员他们是整个链条的燃料。第二层是外包平台从数据公司接单后分包给采集员中间抽取30%到50%。第三层是数据公司将原始数据清洗、标注、对齐后打包成可训练的数据产品。最上层是宇树、优必选、智元、特斯拉等机器人本体公司花高价购买这些数据来训练模型。劳动者在产业链的最底端拿着最低的报酬产出着最原始的数据而这些数据最终可能训练出一个替代自己的机器人这可能就是自我蒸馏的更高形态不仅在出卖自己的劳动人格还在以极低的价格亲手为终将取代自我的机器添砖加瓦。AI数据采集的变化与冲击AI数据采集早就不是新鲜事早几年普通话录制、便利店货架标注、道路图像框选等零散分布在众包平台上的微任务是典型的互联网dirty work 重复、机械、低门槛、低回报。虽然枯燥但用工需求大、结算快一度成为热门副业大学生、全职妈妈、小镇青年、暂时找不到工作的人都能靠它贴补家用。大家心知肚明自己在为算法提供原料语音数据用来训练语音识别标注的图像喂给自动驾驶模型商品分类服务于推荐系统。只是那时候这些数据离自己的核心技能很远没有威胁到饭碗就选择睁一只眼闭一只眼。但如今AI正从“坐在电脑里处理文本和图像”的软件形态进化成“走进真实世界动手干活”的具身智能。数据采集也随之从语音、静态图像扩展到了全身动作、连续家务行为。Nydia就是在这个转折点上撞上了现实。大龄失业的她本想找份过渡工作看到招聘信息写着“数据采集员”以为是普通的办公室文职。到了现场才知道是“给机器人当牛马”试岗内容是用遥控器操作机械臂把面前的积木按指定顺序码放整齐。她试了三次机械臂要么抓歪了要么放偏了要么直接把积木碰倒了。面试官告诉她“今天到这里吧回去等通知”她心里清楚等不到录取通知。真正让她震惊的是排队等面试的人里有好几个看着二十出头的年轻人穿着整齐手里拿着简历一看就是刚毕业没多久。“我以为这种活只有我们这种年纪大、找不到工作的人才会来结果人家年轻、学历高也在往这个行业挤。”试岗结束后工作人员带她们参观了展示厅里面摆着正在测试的家务机器人叠衣服的、擦桌子的、整理杂物的甚至还有一台能打麻将的机器人。Nydia站在叠衣服的机器人前面看了很久机器人的夹爪动作比她想象中流畅得多。“机器人真的要来和人类抢饭碗了。科技发展得越快被取代的速度也越快。年轻人尽早规划找出路而我们这些大龄失业者该何去何从”这是她最直白的心声。危机与现实的差距Nydia离开面试公司时脑子里一直回荡着叠衣服机械臂流畅动作的画面“如果它有天能叠得比我好是不是就不再需要我了”顺着这个问题往下想答案往往是肯定的。那些数据正在被采集、被标注、被喂给模型劳动者在产业链最底层拿着最低的报酬而产出的数据最终可能训练出一个替代自己的机器人。马克思笔下所提到的异化在数据采集员身上全部实现了。但这不是明天就会发生的事。动作流畅的机械臂绝大部分还没有大规模投产落地号称走进家庭的机器人演示视频大多是在严格控制光照、桌面材质和物体形状的环境下拍出来的一旦换到真实的、杂乱的客厅和厨房它们就会迅速现出原形。具身智能的真正难点远不止学会叠衣服这么简单。家务机器人能叠衣服、区分垃圾和玩具是因为有人反复展示并录制相关动作喂给它们但实际上它们并没有真正读懂只是对已有数据的机械重复。它们不认识棉和麻的区别遇到训练数据里未出现过的布料就会卡住。家务机器人就像一面回音壁把人类的经验压缩、编码但无法理解更深刻本质的东西比如为什么要做家务、为什么要叠衣服、为什么要拖地它们理解不了复杂的家庭关系和流动情感。我们做家务是为了拥有安心休憩的空间而机器人只明白被预设的程序。这是机器人和人之间永远无法抹平的差距虚拟世界里完美运行的算法一进现实世界就失灵这是具身智能领域公认的“最后一公里”难题。理性看待与应对之策目前在非结构化家庭环境中完成一套完整、可靠、低成本的家务劳动至少还需要5 - 10年甚至更久。我们应既看到不公平也看到距离既不盲从恐慌也不放弃批判。我们的家务不只是动作数据还需要倾注对家人的情感。比如同一道红烧肉人人口味千变万化温度的控制、成分的搭配、火候的拿捏都藏在一个人多年观察、实践的经验里这些是当前的AI无法理解、也难以编码的东西。我们应当警惕的不是技术本身而是利用信息差、把数据采集包装成轻松兼职的招募话术。了解技术真实的边界比贩卖焦虑或盲目拥抱都更重要。AI的变化就像一列飞驰而过的地铁我们坐在车里来不及看清窗外的风景更没法让它慢一点。但至少我们还可以决定自己要在哪一站换乘而不是一路接受支配驶向终点。