Python 实现推理与规划

本章节介绍 AI Agent 的核心智能能力，即推理与规划能力。

不同于传统的指令执行模式，具备推理能力的 Agent 能够进行复杂的思考过程。

它能够将复杂任务分解为可执行的步骤，并基于上下文做出决策。

ReAct 框架

ReAct（Reasoning + Acting）是一种将推理与行动相结合的框架。

在 ReAct 模式中，Agent 会交替进行推理和行动，形成一个闭环。

推理指导行动，行动结果又反馈给推理过程，如此循环往复。

ReAct 模拟了人类的问题解决过程：在采取行动前先思考，行动后观察结果，然后基于新信息继续推理。

工作原理

ReAct 的核心思想可以概括为三个阶段的循环：

第一步，推理阶段。Agent 基于当前上下文生成下一步的行动思考。

第二步，行动阶段。Agent 执行选定的工具或动作。

第三步，观察阶段。Agent 接收行动结果，更新上下文，返回第一步继续推理。

代码实现

下面是一个 ReAct Agent 的简化实现：

ReAct Agent 基本实现

class ReActAgent:
"""
ReAct 框架的 Agent 实现
核心机制：推理 -> 行动 -> 观察 -> 推理（循环）
"""

def __init__(self, llm, tools, max_iterations=5):
# LLM 实例，用于推理和生成
self.llm = llm
# 可用工具列表
self.tools = tools
# 最大迭代次数，防止无限循环
self.max_iterations = max_iterations

def run(self, task):
"""
执行 ReAct 循环
:param task: 用户任务描述
:return: 执行结果
"""
# 初始化上下文，包含任务和历史信息
context = {
"task": task,
"steps": [], # 已执行步骤的记录
"observations": [] # 观察结果的记录
}

for i in range(self.max_iterations):
# 阶段一：推理 - 基于当前上下文生成下一步行动
reasoning = self.llm.reason(context)

# 判断是否需要执行工具，还是直接返回答案
if reasoning.needs_action:
# 选择要使用的工具
action = reasoning.select_tool(self.tools)
# 执行工具并获取观察结果
observation = action.execute(reasoning.tool_input)
# 将观察结果添加到上下文
context["observations"].append(observation)
else:
# 不需要行动，直接返回推理得出的答案
return reasoning.answer

# 达到最大迭代次数仍未完成
return "达到最大迭代次数限制"

典型应用场景

ReAct 模式特别适合以下场景：

需要在环境中探索、收集信息后才能完成的任务。

智能搜索场景：Agent 需要先搜索信息，再基于搜索结果进行推理和总结。

对话式问答：Agent 需要通过多轮对话澄清需求并获取信息。

复杂问题求解：问题不能一步解决，需要多个中间步骤。

注意：ReAct 模式的优势在于它的灵活性，能够根据每一步的执行结果动态调整后续行动。但这也意味着执行路径可能不稳定，适合需要探索的任务。

思维链（Chain of Thought, CoT）

思维链是一种促使模型展示逐步推理过程的技术。

CoT 不是让模型直接给出答案，而是引导它先展示推理步骤，再得出最终结论。

为什么需要思维链

直接让模型输出答案存在几个问题：

复杂推理的中间步骤容易被忽略或跳过。

难以定位错误发生在哪里。

用户无法理解模型的思考过程。

思维链通过要求模型展示推理过程，解决了这些问题。

Zero-shot CoT

Zero-shot CoT 是一种无需示例即可激发逐步推理能力的方法。

只需要在提示词末尾添加 "让我们一步一步地思考" 这样的触发语句。

Zero-shot CoT 示例

# Zero-shot CoT 的提示词模板
prompt = """
问题：小明有 5 个苹果，小红给了他 3 个，小明吃掉了 2 个，还剩多少个？
让我们一步一步地思考：
"""

# 调用语言模型
response = llm.generate(prompt)

# 模型输出示例：
# 第一步：计算小明收到苹果后的总数
# 小明原来有 5 个苹果，小红给了他 3 个
# 5 + 3 = 8 个
#
# 第二步：计算吃掉后的数量
# 小明吃掉了 2 个
# 8 - 2 = 6 个
#
# 结论：还剩 6 个苹果

Few-shot CoT

Few-shot CoT 通过提供包含详细推理过程的示例，帮助模型学习特定的推理模式。

当 Zero-shot CoT 效果不佳时，可以尝试 Few-shot CoT。

Few-shot CoT 示例

# Few-shot CoT 的提示词模板
prompt = """
示例 1：
问题：小张有 10 元钱，买了 3 本书，每本 2 元，还剩多少？
让我们一步一步地思考：
- 小张原来有 10 元
- 每本书 2 元，买了 3 本，花费 3 × 2 = 6 元
- 10 - 6 = 4 元
答案：还剩 4 元

示例 2：
问题：一只猫每小时抓 2 只老鼠，8 小时抓了多少只？
让我们一步一步地思考：
- 每小时抓 2 只老鼠
- 8 小时抓了 8 × 2 = 16 只
答案：抓了 16 只

问题：{user_question}
让我们一步一步地思考：
"""

response = llm.generate(prompt)

思维链的优势

思维链技术带来三个核心价值：

可追溯性：将复杂推理分解为可追踪的中间步骤，便于理解推理过程。

可解释性：增强模型的可解释性，让用户知道答案从何而来。

准确性提升：显著提升复杂推理任务的准确率，尤其在数学和逻辑任务上效果明显。

Tree of Thoughts（ToT）

思维树是思维链的扩展，它不再局限于线性推理。

ToT 在每个推理节点探索多条可能的路径，形成树状结构。

这使得 Agent 能够进行多路径探索、回溯和全局评估。

与思维链的区别

CoT 采用线性推理，每一步依赖前一步的结论，适合有明确路径的问题。

ToT 采用空间推理，同时考虑多个可能的分支，适合需要探索和规划的问题。

代码实现

ToT Agent 基本实现

class ToTAgent:
"""
Tree of Thoughts Agent 实现
核心机制：在每个节点生成多个候选分支，评估后选择最优继续
"""

def __init__(self, llm, max_depth=4, beam_size=3):
# LLM 实例
self.llm = llm
# 最大搜索深度
self.max_depth = max_depth
# 每层保留的候选节点数量（beam width）
self.beam_size = beam_size

def solve(self, problem):
"""
使用 ToT 框架解决问题
:param problem: 问题描述
:return: 最优解
"""
# 创建根节点，包含问题作为初始状态
root = ThoughtNode(problem, depth=0)
# 初始化前沿节点列表（待扩展的节点）
frontier = [root]

# 逐层扩展
for depth in range(self.max_depth):
# 存储所有候选节点
all_candidates = []

# 遍历所有前沿节点
for node in frontier:
# 为当前节点生成多个候选下一步
candidates = self.llm.generate_thoughts(
node.content, # 当前节点内容
n=self.beam_size # 生成数量
)
# 创建新节点并加入候选列表
for cand in candidates:
all_candidates.append(
ThoughtNode(cand, depth + 1, parent=node)
)

# 评估所有候选节点
evaluated = self.evaluator.rank(all_candidates)

# 选择最优的 beam_size 个节点作为下一轮前沿
frontier = evaluated[:self.beam_size]

# 检查是否找到解决方案
if self.is_solution(frontier):
break

# 回溯找到最优解
return self.backtrack_best(frontier)

应用场景

ToT 特别适合需要做选择或规划的场景：

创意写作：生成多个故事发展方向，评估后选择最优。

战略规划：评估多个行动方案的潜在结果。

复杂决策：需要考虑多种可能性的决策问题。

任务规划与 MCTS

蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）是一种用于复杂决策问题的启发式搜索算法。

MCTS 在 Agent 规划中有广泛应用，尤其适合游戏 AI 和复杂任务规划。

核心思想

MCTS 通过模拟随机游戏来评估每个决策节点的潜在价值。

它不需要评估所有可能的路径，而是通过抽样和统计来指导搜索方向。

MCTS 的四个步骤

第一步，选择（Selection）：从根节点开始，递归选择最优子节点直到达到叶节点。

选择时使用 UCB（Upper Confidence Bound）公式平衡探索与利用。

第二步，扩展（Expansion）：在叶节点添加一个或多个子节点。

第三步，模拟（Simulation）：从新节点开始，随机模拟游戏直到结束。

第四步，反向传播（Backpropagation）：更新模拟路径上所有节点的统计信息。

代码实现

MCTS 规划器实现

import math

class MCTSNode:
"""
MCTS 树节点
存储节点状态、统计数据和子节点关系
"""

def __init__(self, state, parent=None, action=None):
# 当前状态
self.state = state
# 父节点引用
self.parent = parent
# 从父节点到达此节点的动作
self.action = action
# 子节点列表
self.children = []
# 此节点的访问次数
self.visit_count = 0
# 此节点的累计奖励值
self.reward = 0.0

def is_fully_expanded(self):
"""检查是否已扩展所有可能的子节点"""
return len(self.children) > 0

def is_terminal(self):
"""检查是否为终止节点（游戏结束或目标达成）"""
return self.state.is_terminal()

def uct_child(self):
"""
使用 UCT 公式选择最优子节点
UCT = reward/visits + C * sqrt(ln(parent_visits)/visits)
C 是探索常数，通常设为 sqrt(2)
"""
# 探索常数，平衡探索与利用
C = math.sqrt(2)

return max(
self.children,
key=lambda c: c.reward / c.visit_count +
C * math.sqrt(math.log(self.visit_count) / c.visit_count)
)

class MCTSPlanner:
"""
MCTS 规划器
使用蒙特卡洛树搜索为 Agent 生成行动规划
"""

def __init__(self, simulation_limit=1000, exploration_constant=1.41):
# 最大模拟次数
self.simulation_limit = simulation_limit
# 探索常数
self.exploration_constant = exploration_constant

def plan(self, initial_state):
"""
从初始状态开始规划
:param initial_state: 初始状态
:return: 最优动作
"""
# 创建根节点
root = MCTSNode(initial_state)

# 执行多次模拟
for _ in range(self.simulation_limit):
# 1. 选择：从根节点向下选择最优子节点直到叶节点
node = self._selection(root)

# 2. 扩展：如果不是终止节点，扩展一个新节点
if not node.is_terminal():
node = self._expansion(node)

# 3. 模拟：从新节点开始随机模拟到终止
reward = self._simulation(node)

# 4. 反向传播：更新路径上所有节点的统计
self._backpropagation(node, reward)

# 返回根节点最优子节点对应的动作
return root.best_child().action

def _selection(self, node):
"""选择阶段：选择最优子节点"""
while node.is_fully_expanded() and not node.is_terminal():
node = node.uct_child()
return node

def _expansion(self, node):
"""扩展阶段：添加新子节点"""
# 生成所有可能的动作
possible_actions = node.state.get_possible_actions()
# 为每个动作创建一个子节点
for action in possible_actions:
new_state = node.state.apply_action(action)
child = MCTSNode(new_state, parent=node, action=action)
node.children.append(child)
# 返回随机一个子节点（也可使用确定性策略）
return node.children[0]

def _simulation(self, node):
"""模拟阶段：随机模拟到游戏结束"""
state = node.state
while not state.is_terminal():
# 随机选择动作
actions = state.get_possible_actions()
action = random.choice(actions)
state = state.apply_action(action)
# 返回最终奖励
return state.get_reward()

def _backpropagation(self, node, reward):
"""反向传播：更新统计信息"""
while node is not None:
node.visit_count += 1
node.reward += reward
node = node.parent

注意：MCTS 的计算成本较高，适合需要深度规划但有明确终止条件的场景。对于实时性要求高的任务，可能需要限制模拟次数或使用其他方法。

Reflexion（自我反思）

Reflexion 是一种让 Agent 具有自我反思能力的技术。

通过为 Agent 添加反思机制，它能够在失败后分析错误原因，调整策略并重试。

核心思想

Agent 不仅执行动作，还要观察结果并反思：我为什么失败？下次应该如何改进？

这种能力对于持续学习和自我改进至关重要。

代码实现

Reflexion Agent 实现

class ReflexionAgent:
"""
具有自我反思能力的 Agent
核心机制：执行 -> 评审 -> 反思 -> 重试
"""

def __init__(self, actor, reviewer, max_retries=3):
# 执行器：负责执行具体任务
self.actor = actor
# 评审器：负责评估执行结果
self.reviewer = reviewer
# 最大重试次数
self.max_retries = max_retries

def run(self, task):
"""
执行带自我反思的任务
:param task: 任务描述
:return: 执行结果
"""
# 维护执行历史
history = []

for attempt in range(self.max_retries):
# 阶段一：尝试执行任务
result = self.actor.execute(task, history)

# 记录本次尝试
history.append({
"attempt": attempt,
"result": result
})

# 阶段二：评审结果
feedback = self.reviewer.evaluate(task, result)

# 阶段三：检查是否成功
if feedback.is_success:
return result

# 阶段四：反思失败原因
# 生成新的策略提示，指导下一次尝试
reflection = self.reviewer.reflect(
task, # 原始任务
result, # 失败结果
feedback # 评审反馈
)

# 将反思结果添加到历史，供下次尝试参考
history.append({
"type": "reflection",
"content": reflection
})

# 所有重试都失败，返回历史记录
return history

class Reviewer:
"""评审器：评估执行结果并生成反思"""

def evaluate(self, task, result):
"""
评估执行结果
:return: 包含是否成功及详细反馈的对象
"""
# 检查结果是否满足任务要求
is_success = self.check_success(task, result)

if is_success:
return EvaluationResult(is_success=True)
else:
# 生成失败原因分析
failure_reasons = self.analyze_failures(task, result)
return EvaluationResult(
is_success=False,
reasons=failure_reasons
)

def reflect(self, task, result, feedback):
"""
生成反思内容
帮助 Actor 理解失败原因并改进策略
"""
prompt = f"""
任务：{task}
执行结果：{result}
失败原因：{feedback.reasons}

请分析失败原因，并给出改进建议。
重点说明：
1. 哪里出了问题？
2. 下次应该如何避免？
3. 需要改变什么策略？
"""
return self.llm.generate(prompt)

应用场景

Reflexion 特别适合以下场景：

需要持续改进的任务，如对话系统、代码生成等。

错误代价高但重试成本低的场景。

需要从失败中学习的情况。

任务分解策略

复杂任务通常需要分解为可管理的子任务。

有效的任务分解是规划能力的基础。

递归任务分解

将任务递归地分解为更小的子任务，直到子任务可以直接执行。

递归任务分解

def decompose(task, is_executable_fn, decompose_fn):
"""
递归分解任务
:param task: 要分解的任务
:param is_executable_fn: 判断任务是否可直接执行的函数
:param decompose_fn: 分解任务的函数
:return: 可执行任务列表
"""
# 如果任务可以直接执行，直接返回
if is_executable_fn(task):
return [task]

# 分解任务为子任务
subtasks = decompose_fn(task)

# 递归分解每个子任务
result = []
for subtask in subtasks:
# 对子任务递归调用分解函数
result.extend(
decompose(subtask, is_executable_fn, decompose_fn)
)

return result

# 示例：判断任务是否可执行
def is_code_complete(task):
"""检查任务是否可以直接执行代码"""
return task.get("type") == "code" and len(task.get("dependencies", [])) == 0

# 示例：分解复杂任务
def decompose_programming_task(task):
"""分解编程任务"""
if "write_function" in task["type"]:
return [
{"type": "understand_requirements", "task": task["spec"]},
{"type": "write_code", "spec": task["spec"]},
{"type": "write_tests", "function": task["function_name"]},
{"type": "verify_tests", "function": task["function_name"]}
]
return [task]

平行任务分解

识别可以并行执行的独立子任务，提高执行效率。

这是加速任务执行的关键策略。

层次任务分解

将任务分为不同抽象层次，高层任务调用低层任务，形成任务层次树。

适合需要多层抽象的复杂系统。

Plan-and-Execute 模式

Plan-and-Execute 是一种将规划与执行分离的架构模式。

Agent 首先完整地规划整个任务流程，然后按计划执行。

与 ReAct 的区别

ReAct 是边推理边执行，更灵活但路径可能不稳定。

Plan-and-Execute 是先规划后执行，更稳定但缺乏动态调整能力。

代码实现

Plan-and-Execute Agent 实现

class PlanAndExecuteAgent:
"""
Plan-and-Execute 架构的 Agent
核心机制：先完整规划，再按计划执行
"""

def __init__(self, planner, executor):
# 规划器：负责制定执行计划
self.planner = planner
# 执行器：负责执行具体步骤
self.executor = executor

def run(self, task):
"""
执行任务
分为规划阶段和执行阶段
"""
# ==================== 规划阶段 ====================
# 一次性生成完整的执行计划
plan = self.planner.create_plan(task)

# ==================== 执行阶段 ====================
results = []

# 按计划顺序执行
for step in plan.steps:
# 执行当前步骤
result = self.executor.execute(step)
results.append(result)

# 检查是否需要重新规划
# 例如：执行结果与预期不符，或出现意外情况
if self.needs_replan(results):
# 基于当前结果重新规划
plan = self.planner.replan(task, results)

# 整合所有结果
return self.summarize(results)

def needs_replan(self, results):
"""
判断是否需要重新规划
检查执行结果是否符合预期
"""
# 获取最后一个结果
last_result = results[-1]

# 如果结果明显不符合预期，需要重规划
if last_result.is_unexpected():
return True

# 如果结果导致后续步骤无法执行，需要重规划
if last_result.blocks_future():
return True

return False

class Planner:
"""规划器：生成任务执行计划"""

def create_plan(self, task):
"""创建初始执行计划"""
prompt = f"""
任务：{task}

请制定详细的执行计划，包括：
1. 需要执行的步骤顺序
2. 每个步骤的具体操作
3. 步骤之间的依赖关系

输出格式：
步骤1: [操作描述]
步骤2: [操作描述]
...
"""
plan_text = self.llm.generate(prompt)
return Plan.parse(plan_text)

def replan(self, task, results):
"""基于执行结果重新规划"""
# 分析已完成的结果
completed = [r for r in results if r.is_success]
failed = [r for r in results if not r.is_success]

# 生成调整后的计划
prompt = f"""
原始任务：{task}
已完成步骤：{completed}
失败步骤：{failed}

请制定调整后的执行计划：
"""
plan_text = self.llm.generate(prompt)
return Plan.parse(plan_text)

class Executor:
"""执行器：执行具体的计划步骤"""

def execute(self, step):
"""执行单个步骤"""
# 根据步骤类型选择执行方式
if step.type == "tool_call":
return self.execute_tool_call(step)
elif step.type == "code":
return self.execute_code(step)
elif step.type == "query":
return self.execute_query(step)

return Result(success=False, error="Unknown step type")

注意：Plan-and-Execute 模式适合任务结构相对稳定、可以提前规划的场景。对于需要灵活应变的环境，ReAct 模式可能更合适。

章节小结

本章节介绍了 AI Agent 的推理与规划核心能力。

ReAct 框架通过推理与行动的循环，让 Agent 能够边执行边调整策略。

思维链（CoT）通过展示逐步推理过程，提升复杂任务的执行准确性。

思维树（ToT）扩展了思维链，支持多路径探索和回溯。

MCTS 是一种启发式搜索算法，适合复杂决策和规划问题。

Reflexion 赋予 Agent 自我反思能力，从失败中学习和改进。

任务分解策略是规划能力的基础，包括递归分解、平行分解和层次分解。

Plan-and-Execute 采用先规划后执行的模式，适合结构稳定的任务。

这些技术可以单独使用，也可以组合使用，构建更强大的 Agent 系统。

菜鸟教程 -- 学的不仅是技术，更是梦想！

智能体工具

Vibe Coding

Python 实现智能体

Python 实现推理与规划

ReAct 框架

工作原理

代码实现

ReAct Agent 基本实现

典型应用场景

思维链（Chain of Thought, CoT）

为什么需要思维链

Zero-shot CoT

Zero-shot CoT 示例

Few-shot CoT

Few-shot CoT 示例

思维链的优势

Tree of Thoughts（ToT）

与思维链的区别

代码实现

ToT Agent 基本实现

应用场景

任务规划与 MCTS

核心思想

MCTS 的四个步骤

代码实现

MCTS 规划器实现

Reflexion（自我反思）

核心思想

代码实现

Reflexion Agent 实现

应用场景

任务分解策略

递归任务分解

递归任务分解

平行任务分解

层次任务分解

Plan-and-Execute 模式

与 ReAct 的区别

代码实现

Plan-and-Execute Agent 实现

章节小结

点我分享笔记

微信关注