数据采集竟然还可以反向付费?
作者|景行
编辑|古廿
“压榨也是越来越狠了。”
某机构机器人数据采集员李华(化名)对「市象」表示,在数据采集领域,甲方一直在试图增加有效采集时长,以追求用更低的成本提升数据获取量,给到新岗位的工资也在走低。
李华所在的机构,起初对采集员的要求是每日提供4个小时有效数据,时间自由分配,累了可以休息,但每日红线不能少。
但目前,企业已将数据时长要求提高到5个小时,据说正在考虑再提升到6个小时。
这份来自一线从业人员的观察,能从侧面印证具身智能创业公司在数据维度,是如何焦虑、追赶,生怕落后于人。
5月25日,自变量机器人发布公告,公司率先在国内推动机器人常驻家庭真实应用。具体做法是,由志愿者提出申请,自变量提供搭载WALL-B世界统一模型的全新机器人进入这些家庭,开展家政工作。
此前,自变量还与58同城合作发布149元3小时智能保洁服务,由家政阿姨、自变量机器人、工程师三方协作完成上门保洁。
但服务本身遭遇了舆论风波,有消费者评价称,机器人的工作效率远不及人工,且过程中依赖人工监督。
有业内人士评价:目前多少是不具备实际消费价值的,多数消费者还是尝鲜心理,企业可能更看重保洁过程中的数据。
因此在具身智能圈子里,还有一个调侃是:如果企业更需要机器人上门,那这149元是不是应该付给愿意让机器人上门的家庭。毕竟占用了3个小时的家庭空间,酒店钟点房也差不多是这个价格。
从上门到驻家这还远远不够,近期自变量还在公开招募UMI&EGO采集项目供应商,背后是整个具身智能行业的数据饥渴症。
绕不开的数据荒
极度饥渴,这是整个具身智能行业对训练数据的真实态度。
“自动驾驶需要约100亿英里的训练数据。”在今年年初的发言中,特斯拉CEO马斯克如此表述。理由是,只有积累足够庞大的数据量,才能覆盖更多极端场景,实现全无人的完整自动驾驶。
自变量对此的观点相近。在公开表述中自变量提到,人类从婴儿时期迈出的第一步也是走得很慢,经常犯错,每一个伟大的旅程,都是从踉踉跄跄的第一步开始。
具身智能模型的主流训练方法是模仿学习,即采集员使用带有传感器的夹爪,反复进行同一个动作,并将每一个关节的运动数据加以记录。
无论是佩戴摄像头进行劳动,所产出的第一视角视频,还是传感器数据,都意味着谁能更快以更低成本拿到天文数字的数据量,谁就能在具身智能的竞赛中占得先机。
在业内,雇佣大量数据采集员进行标准劳作,以供给数据训练,这成为行业的通行做法。
京东已在宿迁搭建全国首个具身智能数据采集社区,让采集员头戴设备干家务,或在工厂里裁剪服装;特斯拉要求采集员戴好5颗摄像头,每天用8个小时在实验室拿杯子、擦桌子、拉窗帘,在工厂的传送带上工作。
在此方面,自变量花的心思要更多。
在与58同城合作开展的保洁套餐活动中,自变量选择了“加量少加价”的打法。
「市象」粗略检索58同城保洁服务发现,下沉市场(三线及以下城市)价格约为44.86元每小时起,一线城市约为45.59元至46.56元每小时起。相比之下,自变量的机器人服务定价要略高于常规保洁服务市场价。
尽管对自变量来说,149元3小时的价格,远远不及机器人测试成本与工程师的人力成本。但对消费者而言,现阶段的机器人家政难以体现实际价值,更多是花钱买个热闹。
这也是博主体验套餐发表“动作慢、声音大、专人陪跑”的吐槽后,官方第一时间发文回应,承认机器人比人笨难以避免的原因所在。
另一层是,消费者贡献家庭场景,为自变量的数据采集添砖加瓦,不仅拿不到报酬,还要为此额外付费。
李华向「市象」介绍了数据采集背后的企业成本重压——动辄30万元以上的机器人价格,加上200元以上每天的采集员人力成本。即便抛弃机器人本体,采用附带高精度传感器的夹爪训练,单人一天采集的数据也只有500条左右。
想要进一步增产,必须扩大产能,其中训练场地、高精度采集设备、采集人员缺一不可。
而受限于训练场地、采集设备的高昂成本,具身智能企业率先思考的,往往是在采集人员身上做文章。这也是为什么,李华的每日有效数据时长要从4个小时扩展到6个小时。
同时企业不得不想方设法广开财源,解决采集模式的持续性问题。“公司不仅在招人做采集,还一边卖采集设备,一边销售采集数据,客户一拨拨的来。”李华表示。
同时,能给到采集员的待遇也在走低。李华表示,采集员的工作内容,就是拿起一个机械夹剥开水果皮、叠好衣物,从业门槛只需大专及以上,所谓的上岗面试,只是初步熟悉工作内容。
这在业内早已是常态。「市象」整理发现,市面大量数据采集员岗位不要求全职,对工作时间与工作时段也不作要求,20元的时薪随处可见。
尽管大部分岗位标榜高科技环境,简单轻松,但仍然被求职者冠以“赛博流水线”的称谓。
李华表示,这份工作胜在简单明了无需思考,可以边听音乐边干,但时间一长,肩膀和手腕显著酸痛,大部分求职者都是看一眼就离开。
省钱才是驻家机器人的关键?
从家政上门服务,到走进志愿者家庭成为新的家庭成员,自变量的数据采集方案迭代,核心不在于“见世面”,而是人力成本的大幅下降。
为确保不打扰用户生活,自变量CEO王潜给出了严格的隐私保护政策,如原始图像打码,用户同意后设备才开机,设备全程不向第三方共享。
自变量表示,对于具身智能而言,要见更大的世面,核心不再更大的算力集群,不在更SOTA的模型,而在生活日常中。
这一判断基于现实考量。当今时代,机器人的硬件能力早已完善,匮乏的是应对小概率场景的智能性。
在公开演讲中,自变量联合创始人兼CTO王昊将实验室固定环境训练的数据称为糖水数据,将真实家庭环境中复杂、充满随机性的数据称为牛奶数据。
前者稳定可控,但缺少对真实世界的认知能力;后者采集成本更加昂贵,但具备对物理环境随机性的应对底气。
上门家政的业态中,自变量采用的是一人一机,现场管理;但在驻家工作后,陪同安全员的工作被完全取代。
从专人现场监督,到后台工程师监督,从全程管理走向长尾管理,一切如Robotaxi故事。
有无人车从业者对「市象」表示,相较安全员模式,后台监督可以大大节约人力:“上路后,几个维修人员定期查看车辆即可,跟着导航走就没问题,有极少数情况出现事故,派人去现场就行。”
在Robotaxi跨过成本拐点的历史进程中,这是相当重要的一环。
以百度萝卜快跑为例,2024年百度宣布,萝卜快跑每单服务成本首次低于传统网约车,验证了Robotaxi的商业逻辑。
三个事件共同促成了这一商业模式的成立,分别是硬件成本,人力成本与规模效益:
其一是车辆成本跳崖式下降。从第五代车Apollo Moon到第六代Apollo RT6,萝卜快跑整车成本从48万元骤降至20.46万元。
背后是核心传感器的价格跳水。借助禾赛科技等厂商的传感器,萝卜快跑能以几千元的价格替代早期的昂贵进口雷达。
其二是安全员的减配。早期的主驾安全员得以尽数退场,让车辆实现独立上路,而不需要在复杂路况下人工接管,驾驶模式变成云端监控。
其三是全天运营的效率质变,同时也是人力减配的副产品。在武汉,数千台RT6的运营昼夜不息,24小时运营+品牌认知度提升,令萝卜快跑在单个区域产生巨大的规模效益。
回看自变量机器人,它要解决的问题要更复杂。
相较售价9.9万元起,主攻运动场景,以关节电机为主要硬件成本的宇树G1,主攻家政方向的自变量需要更高的双臂自由度、细致性更强的机械手。
更关键的在于,要深入到服务场景中,完成更精细的环境理解与操作,自变量选择大力投入WALL系列大模型研发,并在传感器、计算平台等“大脑”维度大力下成本。
以自变量Quanta X2量子2号为例,仅传感器体系,就搭载有一个2D激光雷达(构建地图)、4个超声波传感器(近距离避障)、一个RGBD相机(物体识别)、一个3D-TOF相机(中距离环境感知)、一个单点TOF(补充测距)、一个红外传感器(辅助感应)。
反观宇树G1,感知系统仅LIVOX MID360 3D激光雷达与Intel RealSense D435i深度相机两个核心传感器。
自变量机器人需要更多的感知能力以适应精细环境的工作,并支付更高的BOM成本。同时也面临使用寿命与迭代速度的压力。企业需要将机器人成本压至极低,以保证购入家务机器人的家庭,在成本上打赢人工服务。
这意味着,自变量的入家梦,是一场与时间的赛跑。
在零部件成本下降之前,自变量都无力回答一个核心问题,如何在成本战中赢下人工队,让用户确信,自己不是为企业花钱打数据工。(文中人物为化名)