Lightcone 播客

AI提示工程揭秘:顶尖初创公司的实践

主持人:Garry Tan (YC总裁兼CEO), Diana Hu (YC全职合伙人), Harj Taggar (YC管理合伙人), Jared Friedman (YC管理合伙人)

点击每个时间点旁的标题展开/折叠详细内容。

引言:元提示 (Meta Prompting) 的力量 0:00 - 0:31
  • Garry Tan观点:元提示正成为一个非常强大的工具。
  • 类比1:感觉像1995年编程(工具不成熟,处于新领域前沿)。
  • 类比2:也像学习如何管理一个“人”——需要清晰传达需求,以便AI做出良好决策。
本期主题:顶尖AI初创公司的提示工程实践 0:32 - 0:53
  • 事实:本期节目将揭示顶尖AI初创公司在提示工程方面的实际做法。
  • 事实:YC调研了十几家公司,获取了它们在前沿构建AI产品时的实用技巧。
案例1: Parahelp (S24) - AI客服 0:54 - 1:47
  • Parahelp (S24批次):提供AI客户支持服务。
  • 客户案例:Perplexity, Replit, Bolt等顶尖AI公司提供支持。
  • 核心分享:Parahelp分享了他们实际使用的提示。
  • Jared观点:获取这类提示很难,因为它们是AI公司的“皇冠上的明珠”(核心IP)。
Parahelp 提示结构深度解析 1:48 - 3:54
  • 特点1 (长度与细节):提示非常长且详细 (约6页)。
  • 特点2 (角色设定):首先为LLM设定角色,例如“你是一个客服坐席的经理”。
  • 特点3 (任务分解):将任务分解为要点,例如“你的任务是批准或拒绝来自坐席的工具调用,并提供反馈”。
  • 特点4 (输出格式):明确规定输出格式,例如使用类似XML的标签(如 <manager_verify>accept</manager_verify>)。
  • 特点5 (高层计划):提供分步计划(1-5步)。
  • 特点6 (重要提示):包含重要注意事项,例如“工具调用不应包含错误信息”。
  • 特点7 (Markdown风格):使用Markdown风格的标题和子要点组织结构。
  • 特点8 (规划示例):包含如何规划和创建步骤的示例。
  • Diana观点:优秀的提示更像编程而非自然语言写作。LLM在RLHF(基于人类反馈的强化学习)阶段常接触XML等结构化数据,因此更易遵循此类格式。
定制化提示与工具化 3:55 - 4:39
  • Garry观察:Parahelp展示的提示是通用框架,具体场景示例会在后续阶段针对不同客户进行定制。
  • Jared观点:Parahelp面临的挑战是如何为不同客户的工作流程构建一个通用的产品。
  • 核心理念:需要“分叉和合并”提示,区分哪些部分是客户特定的,哪些是公司通用的。
元提示 (Meta Prompting) 进阶 4:40 - 6:20
  • 元提示:一个提示可以动态生成更好的自身版本。
  • 应用案例:Tropir (X25)Duckie (W24) 都在使用。例如,一个分类器提示可以根据先前的查询生成一个专门的提示。
  • Garry观点:LLM“非常了解自己”,因此能帮助改进自身的提示。
  • 提示折叠 (Prompt Folding):元提示的一种形式,用于处理复杂任务。
  • 应用案例:Jazzberry (X25) (自动bug查找) 会给LLM提供专家级程序员才能解决的复杂示例(如N+1查询),帮助LLM更好地推理。
  • Diana观点:这类似于LLM的“测试驱动开发”。
  • “逃生舱口” (Escape Hatch)Tropir发现需要给LLM一个明确的指示——如果信息不足,不要臆造,而是请求更多信息,以防止幻觉。
“前线部署工程师”模式与创始人角色 6:49 - 9:04
  • Harj类比:当前AI创业者的角色类似于Palantir的“前线部署工程师”(Forward Deployed Engineer, FDE)。
  • Garry观点 (Palantir经验):
    • Palantir的理念是将技术专家派驻到客户(如财富500强、政府机构)现场,深入理解其面临的巨大实际问题(在AI之前被称为“数据挖掘”)。
    • 真正的护城河在于深刻理解用户,并为他们构建真正有效的软件。
    • Palantir派遣的是工程师而非传统销售,这是初创公司击败老牌巨头的方式——展示用户前所未见、真正让他们感到被理解的产品。
  • Jared观点:AI初创公司创始人自身就应扮演FDE的角色,痴迷于用户工作流程的细节。
  • Diana观点:这正是垂直领域AI代理(Vertical AI Agents)兴起的原因。创始人与企业客户会面,获取上下文信息,将其融入提示,并快速迭代演示。
  • 成功案例:HappyRobot (S23) 通过这种方式与顶级物流经纪公司签下了7位数合同。
  • 成功案例:Giga ML (S23) (客服,尤其语音) 也是通过令人印象深刻的演示赢得大单。
LLM的“个性”与评估标准 (Rubrics) 9:04 - 9:47
  • Garry观点:不同的LLM似乎有不同的“个性”。
  • Diana观点:Claude更“乐于助人”且易于引导;Llama 4则需要更多引导,像与开发者沟通。这可能源于RLHF训练程度的差异。
  • Harj实践:为LLM提供评分标准 (Rubrics) 是获得数值化输出(如评估投资者)的最佳实践。
  • 模型对比 (内部测试):
    • 某03模型 (可能指GPT-3系列) 对评分标准非常刻板。
    • Gemini 1.5 Pro 则更灵活,能理解规则并推理例外情况。
个人项目中的元提示应用 9:47 - 9:59
  • Harj建议:在个人项目中,可以运用元提示
    • 给LLM设定角色(如“资深提示工程师”)。
    • 提供你当前的提示。
    • 附上你希望如何改进的说明。
    • LLM会据此提出修改建议。
模型蒸馏与延迟优化 9:59 - 10:10
  • Diana实践:
    • 使用更强大、更昂贵的模型(如Claude 3 Opus, GPT-4o)进行元提示以获得高质量的优化提示。
    • 然后,将这个优化后的提示用于更小、更快、成本更低的“蒸馏”模型(如Haiku, Sonnet, 或其他微调的小模型)进行生产部署。
    • 原因:对于语音AI代理等对延迟敏感的应用,这点尤为重要。

原文

Lightcone播客视频