清华大学交叉信息研究院助理教授高阳,作为千寻智能联合创始人,分享了具身智能领域的技术演进与行业思考。他指出,当前行业正处于从L1(单一任务智能)向L2(多任务场景)突破的关键阶段,端到端视觉语言动作模型(VLA)已成为技术共识,其核心在于通过海量互联网视频数据与真机遥操数据结合,实现机器人操作能力的泛化提升。
在硬件形态方面,人形机器人商业化场景挑战主要源于物理世界的人类适配性需求。尽管双足运控技术难度较低,但短期更现实的路径是轮式底盘配合双臂形态,这种设计可覆盖80%的室内场景需求。中国在硬件制造与快速迭代方面具有显著优势,但本体开发仍需与传感器、芯片等产业链协同模式深度整合。
技术实现上,叠衣服动作智商测试揭示了具身智能的核心难点——非结构化状态理解与柔性操作。通过快慢系统协同机制,机器人可融合高频触觉反馈(快系统)与语义化任务规划(慢系统)。数据规模定律表明,需整合百亿级有效视频数据与强化学习微调,才能突破跨任务泛化能力瓶颈。
商业化路径需分阶段推进,L1阶段聚焦工业场景中传统机械臂无法解决的柔性需求,L2阶段拓展至办公服务场景。当前行业面临非共识困境,但技术收敛的关键在于能否通过VLA模型实现通用能力跃迁。产业链分工将参考汽车行业模式,大脑模型价值占主导,本体制造依赖专业化分工,最终形成具身智能阶段化商业化生态。