今日多数人使用 AI 的方式:只让它做一个步骤
人类可以做需要多步的复杂任务,希望 AI 也可以:
AI Agent:可以完成多步骤复杂的任务
- 做计划:计划的先后顺序是重要的。不能先订餐厅,再收集大家的空闲时间
- 根据环境改变计划:原来打算订餐厅 A,但是没有位置了,要针对变化做出反应,如改订餐厅 B
一些可以体验的 AI Agent:
AI Agent 运作原理
- AI Agent 有一个终极目标(要达成的任务)
- AI Agent 有记忆(过去和环境互动的经验)
- AI Agent 从环境了解现在的状态
- 根据终极目标、记忆、环境,AI Agent 生成一个计划(短期目标)
- AI Agent 根据计划执行行为
- 行为改变环境的状态
- AI Agent 可以根据外界环境的状态修改记忆,修改计划
- 再产生新的行为,以此循环,直到达到终极目标
有记忆的 ChatGPT
现在的 ChatGPT 是没有长期记忆的,一旦按了“开始新对话”,它就是一个全新的 GPT,没有了之前对话的任何记忆
- OpenAI 在打造有记忆能力的 ChatGPT:Open AI is working on it?
- MemGPT 是具有记忆、推理和上下文管理功能的有状态代理框架
AI Agent 的难点
现在做 AI Agent 大都是语言生成模型,它产生的行为是一段文字,如何将文字的指令转换成真正改变外界环境的动作,是当前 AI Agent 面临的难点
- RL-GPT: Integrating Reinforcement Learning and Code-as-policy
- RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback
上面论文指出要有两个 Agent:
- Slow Agent 负责高层次的行动,产生的指令都是人类可以理解的文字
- Fast Agent 按照 Slow Agent 的指令想办法真的执行行动(如生成代码并执行来改变物理或虚拟世界)
AI Agent 的记忆
拥有过去的经验能够根据当前环境产生更好的计划和行动