清华大学陈建宇教授指出,大模型技术的革新应用为机器人行业带来转折点。传统机器人需针对不同场景开发专用模型,而大模型技术(如GPT系列)的出现推动了通用机器人技术发展的可能性,尤其是在人形机器人智能突破领域。
VLA架构(视觉-语言-动作)被视为通用机器人的核心框架。其设计结合视觉感知、语言理解和动作执行,通过端到端机器人模型实现多模态数据融合技术。陈建宇强调,人类作为天然VLA模型,为AGI在机器人中的应用提供了参照,未来需构建能处理触觉、声音等全模态的智能系统。
当前技术路径集中在模仿学习策略与深度强化学习算法的结合。例如,阿罗哈机器人系统通过低成本硬件与Transformer架构实现精细化操作,而Google DeepMind的RT-1项目则验证了机器人基座模型的可行性。学术界正尝试将语言模型(如ChatGPT)与视觉模型协同,用于任务规划与异常检测。
通用机器人技术发展仍面临模型架构的规模化难题,需解决科学层面的多模态融合与工程层面的数据收集问题。陈建宇预测,未来五年内人形机器人将逐步进入生活场景,但需先经历机器人技术收敛趋势,最终实现商业场景与底层架构的统一。