问题定义
智能体(Agent)指能自主感知环境、决策行动并实现目标的 AI 系统。核心问题包括:环境建模与感知、序列决策与规划、学习与泛化、多智能体协作、以及人机协同。
核心算法
强化学习 (RL)
通过环境奖励信号学习最优策略。Q-Learning 基于值函数估计,Policy Gradient 直接优化策略参数,Actor-Critic 结合两者优势。
Q(s,a) ← Q(s,a) + α[r + γ maxa' Q(s',a') - Q(s,a)]
其中 α 为学习率,γ 为折扣因子
其中 α 为学习率,γ 为折扣因子
深度 Q 网络 (DQN)
将 Q-Learning 与深度卷积网络结合,通过经验回放和目标网络稳定训练,在 Atari 游戏上达到人类水平。
L(θ) = E_{(s,a,r,s')∼U(D)} [(r + γ maxa' Q(s',a';θ⁻) - Q(s,a;θ))²]
目标网络 θ⁻ 定期从在线网络 θ 复制参数
目标网络 θ⁻ 定期从在线网络 θ 复制参数
近端策略优化 (PPO)
Trust Region 策略梯度方法,通过裁剪机制限制策略更新幅度,兼顾稳定性和样本效率。
L^CLIP(θ) = Et [min(r_t(θ)A_t, clip(r_t(θ), 1-ε, 1+ε)A_t)]
其中 r_t(θ) = π_θ(a_t|s_t) / π_θ_old(a_t|s_t),ε 通常取 0.2
其中 r_t(θ) = π_θ(a_t|s_t) / π_θ_old(a_t|s_t),ε 通常取 0.2
多智能体系统
研究多个智能体的协作与竞争。合作型通过共享奖励或通信协同;竞争型如 Self-Play;混合型涉及博弈论分析。
合作:r_shared = Σ_i r_i(共享奖励)
竞争:minimax 策略,r_i = -r_j(零和博弈)
竞争:minimax 策略,r_i = -r_j(零和博弈)
LLM Agent
基于大语言模型的智能体,具备工具使用(Tool Use)、长期记忆(Memory)、多步规划(Planning)能力。
ReAct: Thought → Action → Observation → ... → Final Answer
Tool Use: Agent 调用外部 API/函数获取信息或执行操作
Tool Use: Agent 调用外部 API/函数获取信息或执行操作
算法复杂度分析
| 算法 | 时间复杂度 | 空间复杂度 | 备注 |
|---|---|---|---|
| Q-Learning | O(|S| × |A|) per update | O(|S| × |A|) | |S| 状态数,|A| 动作数 |
| DQN | O(batch_size × d_model) | O(|Q-network| + |Replay|) | 深度网络前向/反向传播 |
| PPO | O(n_steps × batch_size × d_model) | O(n_steps × d_model) | n_steps 为收集的样本步数 |
| MCTS | O(b^d) | O(b × d) | b 为分支因子,d 为搜索深度 |
| LLM Agent (推理) | O(tokens × d_model × n_layers) | O(context × d_model) | 每次 LLM 调用 |
工程实践指南
强化学习训练
- 奖励设计:稀疏奖励使用 shaped reward,奖励塑形需谨慎避免副作用
- 探索策略:初期 ε-greedy 探索,后期逐渐衰减;PPO 使用熵奖励促进探索
- 样本效率:优先使用 off-policy 算法(DQN、SAC),on-policy 算法需大量样本
- 稳定性:使用目标网络、经验回放、梯度裁剪等技巧
LLM Agent 开发
- Prompt 工程:明确角色定义、任务步骤、输出格式;使用 few-shot examples
- 工具设计:工具描述要清晰、参数要简洁;提供错误处理和 fallback
- 记忆管理:短期记忆用对话历史,长期记忆用向量数据库检索
- 规划策略:ReAct 结合推理与执行,CoT 适用于复杂推理任务
常见问题与解决
- 训练不稳定:降低学习率、增加批大小、使用梯度裁剪
- 样本效率低:使用探索策略优化、优先经验回放、模型预训练
- LLM 幻觉:添加验证机制、多模型投票、限制工具调用范围
- 循环调用:设置最大迭代次数、检测重复模式、维护调用图
开源项目
Hugging Face Transformers
提供 RLHF、Agent、Tools 调用等 LLM Agent 开发能力,支持 OpenAI、Anthropic、Cohere 等多种模型。
LangChain / LangGraph
模块化 Agent 开发框架,支持 Chains、Agents、Memory、Tool calling,可构建复杂的多步骤推理与执行流程。
AutoGen
微软开源的多智能体对话框架,支持多 Agent 协作、代码执行、工具调用,适用于复杂任务分解与求解。
OpenAI Gym
强化学习环境标准接口,提供 Classic Control、Atari、MuJoCo 等数百个基准环境,是 RL 算法评估的基础工具。
PettingZoo
多智能体强化学习环境库,继承 Gym API 设计,提供合作、竞争、混合场景的并行环境。
参考文献
- Playing Atari with Deep Reinforcement Learning. Mnih et al., 2013
- Proximal Policy Optimization Algorithms. Schulman et al., 2017
- Self-Play: Developing a Competitive Go Agent without Human Knowledge. Silver et al., 2017
- GPT-4 Technical Report. OpenAI, 2023
- ReAct: Synergizing Reasoning and Acting in Language Models. Yao et al., 2023
- AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation. Wu et al., 2023