本期播客精华汇总:
- [CV] LLMs can see and hear without any training (大语言模型无需任何训练就能看会听): Meta AI 提出 Multimodal Iterative LLM Solver (MILS) 框架,无需训练即可赋予 LLM 多模态能力,利用 LLM 的推理能力和现成的多模态模型,实现零样本多模态学习,并在多种任务上取得 SOTA 结果。核心创新在于无需训练和利用 LLM 涌现能力。
- [CL] Beyond Turn-taking:Introducing Text-based Overlap into Human-LLM Interactions (超越轮流发言:在人与大模型交互中引入文本重叠): Sungkyunkwan University & Google DeepMind 研究人员提出在人机文本交互中引入文本重叠机制,模仿自然人际对话。开发 OverlapBot 原型,用户研究表明重叠机制提升了沟通性、沉浸感和互动速度。核心创新在于突破传统轮流模式,提升人机对话自然性。
- [LG] Joint Learning of Energy-based Models and their Partition Function (基于能量的模型及其配分函数的联合学习): Google DeepMind 提出联合学习能量模型及其配分函数的新框架,解决 EBMs 配分函数难以计算的问题。提出 Min-Min 优化公式和双重随机梯度下降算法,无需 MCMC 即可训练,并在多标签分类和标签排序任务上验证有效性。核心创新在于联合学习配分函数和无需 MCMC。
- [LG] Diverse Preference Optimization (多样化偏好优化): Meta 提出 Diverse Preference Optimization (DivPO) 方法,解决 LLM 后训练阶段多样性坍缩问题。DivPO 在偏好优化中引入多样性考量,选择高质量但不太常见的回复作为优选样本,显著提升生成内容多样性,同时保持质量。核心创新在于偏好优化中引入多样性考量。
- [LG] Think Smarter not Harder:Adaptive Reasoning with Inference Aware Optimization (更聪明而不是更努力地思考:基于推算感知优化的自适应推理): MetaAI 提出 Inference Budget-Constrained Policy Optimization (IBPO) 算法,让 LLM 具备推理预算意识,根据问题难度自适应调整推理长度。IBPO 在 MATH500 数据集上显著提升了受控推理预算下的性能,核心创新在于推理预算约束和自适应推理长度。
完整推介:https://mp.weixin.qq.com/s/1JVAk0_nICg6QOhjvQGPJA