节目

111: Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端

最近更新: 2025-06-13时长: 01:34:56

扫码下载蜻蜓app

听书/听小说/听故事

4.5亿用户的选择

「长期看，LLM 是 Agent 和人类之间交互的前端，后端则靠 RL 模型完成工作。」几乎所有主流 AI Agent 产品，都把大语言模型（LLM），或者它的多模态升级版当作“大脑”，靠一个或几个 LLM 编排工作、调用工具。但也有不同的路。这期节目的嘉宾，Pokee.ai 的创始人朱哲清（Bill），认为 LLM 只是 Agent 理解人类需求、向人类递交产出的“前端”，后端决策、完成任务则可以靠用强化学习方法训练的、不依赖自然语言的模型完成。 Bill 提到，把 LLM 当作大脑时，Agent 调用工具的能力有限。这是因为 LLM 使用工具时，需要先把工具描述、输入、输出等相关信息传入上下文，而 LLM 支持的上下文长度有限。把 Agent 的决策中枢换成另一个强化学习模型可以解决这个问题。本期节目中，Bill 还聊到优秀的通用 Agent 需要具备四个要素：实现任务比人快、无需人工干预、能读取信息也能写入信息、成本低。Agent 产品的壁垒不在技术，而在于和用户的工作流深度绑定。此外，我们还和 Bill 聊了他对通用 Agent 接下来竞争态势的判断，以及他在强化学习还并没有成为显学时，便相信强化学习潜力的原因。 Bill 本科开始便在海外留学，不熟悉、常用一些专业术语的中文表达。节目中高频提及的英文术语，可参考 Shownotes 文末附录。本期嘉宾： Pokee.ai 创始人，前 Meta 应用强化学习负责人、工程经理朱哲清时间线： -创业前，花近十年研究、落地强化学习算法 04:02 一边在斯坦福读博士，一边在 Meta 上班，每周工作 110 个小时 07:20 拒绝 LLM 创业机会，留在强化学习主航道上 10:17 刚开始研究强化学习的时候，强化学习还并不是显学 16:52 DeepSeek R1 带火了强化学习，让投资人意识到强化学习重要性 -强化学习做 Agent 的优势 19:26 现有 LLM 写入能力较弱，调用工具数量有限 23:51 长期看，LLM 可能只是模型和用户的交互层，Agent 之间沟通不一定用语言 -如何设计一款 Agent 产品，服务专业用户 31:02 保留用户控制节点，避免“自由落体”的失控感 36:36 Pokee.ai 想服务专业用户，未来还要进入企业工作流 43:46 一项子任务失败，不一定挡住 Pokee.ai 完成其他子任务 45:33 抛开 browser-use，强化学习 Agent 完成一项任务只需要数十秒 46:53 Pokee.ai 最初没用 MCP，团队自己设计更简单的协议 48:47 目前主流做 Agent 的方法还是以 LLM 为核心 50:00 优秀 Agent 的四要素：速度快、无需干预、能读能写、成本低 -创业故事：从垂直 Agent 回归通用 Agent 58:20 Pokee.ai 团队全职员工只有四人，成员主要来自 Meta 59:30 早期产品：旅行规划助手 / Shopify 助手 01:02:07 强化学习爆火后，回归创业初衷做通用 Agent 01:07:33 Manus 出圈是意料之内 01:09:54 Pokee.ai 发布产品不会用邀请码，单次任务成本是同类产品的 1/10 01:10:59 技术不是 Agent 的护城河，重要的是和用户工作流绑定 01:20:24 Pokee.ai 在做通用 Agent，但也能帮垂直 Agent 落地 01:22:15 Agent 行业最后会存留三到五家公司，接下来是各个通用 Agent 差异化的时候 01:26:03 判断技术潜力的好方法：Toy Example（玩具案例）附录： RL（Reinforcement Learning）：强化学习； policy：策略，强化学习语境下指模型完成任务的方式； exploration：探索，强化学习语境下指探索可能完成任务的新路径； exploitation：利用，强化学习语境下指利用已知信息，选择最优的动作，和 exploration 相对； reward model：奖励模型，是强化学习算法的一部分，用于评价某个动作的好坏； ground truth：真值，指训练强化学习模型时使用的标准答案； prosumer（professional consumer）：专业用户，本期节目语境下指用 Agent 产品完成工作需求的用户； context length：大模型的上下文长度； browser-use：使 AI 能够像人类一样浏览、操作网页的开源工具； Monte-Carlo Tree Search：一种基于随机模拟的搜索算法，用于在决策过程中评估不同选择的潜在结果，常用于需要策略规划的情境中； API：应用程序编程接口，是一组允许不同软件系统之间通信、交换数据的规则； SDK：软件开发工具包，旨在帮助开发者为特定平台或系统构建应用程序。剪辑制作：甜食本期主播：孙海宁（微信 @_HaydenSun）程曼祺小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q) https://hv.z.wiki/autoupload/20250422/AHFm/1788X252/WechatIMG1762.jpg https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。 https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png 关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章： https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png

还没有评论哦

蜻蜓FM 倾听海量音频内容

蜻蜓FM网络收音机，囊括了国内外数千家网络广播，并与全国各大地方电台合作，将传统电台整合到网络电台中，为用户呈现前沿丰富的广播节目和电台内容，涵盖了有声小说、相声小品、新闻、音乐、脱口秀、历史、情感、财经、儿童、评书、健康、教育、文化、科技、电台等三十余个大分类。蜻蜓FM是多年来用户喜爱的音频应用，手机必装的应用！

快捷入口

郭德纲相声单田芳评书袁阔成评书刘兰芳评书白眉大侠评书河南戏豫剧选段

热门内容

苏北大鼓河北梆子甘薇周笔畅迪丽热巴杨紫宋茜 angelababy

关于蜻蜓联系我们公众平台开放平台加入我们隐私政策用户服务协议侵权投诉指引涉互联网算法推荐反馈算法备案信息公示

沪ICP备06026464号-4 沪ICP备06026464号-6 信息网络传播视听节目许可证: 0922681 icp经营许可证编号: 沪B2-20040650

网络出版服务许可证: （总）网出证（京）字第128号

出版物经营许可证: 新出发沪批字第U6911号公安备案号: 31011502009349

跟帖评论自律管理承诺书举报受理和处置管理办法

上海互联网举报中心

儿童色情信息举报专区

反电信网络诈骗防范劝阻电话：962110（如网民接到该电话，请立即接听)