背景与问题

核心问题

大语言模型（LLMs）在交互式规划任务中表现出显著不足，如全局规划中的盲目试错（缺乏先验任务知识）和局部规划中的幻觉行动（缺乏动态状态认知）。传统方法依赖静态数据或手动设计知识，难以泛化到复杂环境。

模仿人类的 “心理世界知识模型”，提出参数化世界知识模型（WKM），通过融合先验任务知识（全局规划指导 Task Knowledge）和动态状态知识（局部行动约束 State Knowledge），提升AI Agent的规划能力。

上面的任务可以表述为部分可观测的交互式任务，那么这里要解的核心问题，其实就是一个部分可观测的马尔科夫决策过程问题（Partially Observable Markov Decision Process）。

上面的公式表示，在Agent给定任务u的前提下，得到转移方程T的概率

我们的最终目标是使得 reward r(u, T ) 的结果最大化，所以换言之就是通过调整 θ 来实现结果最大化

经验Agent探索

自我知识合成：通过提示（Prompt）引导Agent模型对比专家轨迹和拒绝轨迹，生成任务知识。

状态知识生成：基于专家轨迹的历史行为（动作 - 观察序列），提示模型生成当前任务状态的总结性知识，例如 “当前任务是清洁肥皂并放入橱柜，已找到肥皂，下一步需清洁”。

状态知识库构建：将状态知识(s_t)与前后动作组合为三元组((a_t, s_t, a_t+1))，构建状态知识库 B。通过检索，利用语义相似性匹配当前状态，约束下一步动作。注意：这里并不是把总结出来的状态知识直接放到LLM的上下文中，而是一个外挂一样的存在

Agent Model：

WKM：

两个模型训练都是使用同样的底层模型（比如Mistral-7B），利用LoRA做微调训练，两者的区别就是WKM多了state knowledge，而损失函数的核心，都是去计算结果与专家轨迹tw的差值和

任务知识引导全局规划： WKM 首先生成任务知识k，作为Agent模型的初始指导，例如 “清洁并放置物品时，应先定位物体，再清洁，最后放置”。

状态知识约束局部动作：

其中γ 为超参数（如 ALFWorld 设 0.4，平衡模型生成与知识库约束）。

注意：在推理阶段WKM的temperature被设置为0，Agent Model为0.5。γ 的取值代表了人为对Task Knowledge和State Knowledge Planning的偏好。如果γ 为0，则完全信任状态知识库，为1时则完全信任Agent模型

数据集：

ALFWorld（家庭环境交互，二进制奖励）、WebShop（电商场景，密集奖励）、ScienceWorld（科学推理，密集奖励），包含可见 / 不可见任务。

基线方法： REACT、Reflexion（提示基线），NAT、ETO（含拒绝轨迹的微调基线），KNOWAGENT（知识增强基线），以及 GPT-3.5/4。

关键结果：

成功率优势
- WKM 在所有数据集上超越强基线，例如在 ALFWorld 可见任务中，Mistral-7B 模型成功率从 ETO 的 66.84% 提升至 73.57%，不可见任务从 71.43% 提升至 76.87%。
- 弱模型（Mistral-7B）生成的任务知识可提升强模型（GPT-4）性能，验证 “弱导强” 范式可行性。
消融实验
- 任务知识对不可见任务泛化至关重要，状态知识有效减少幻觉行动（ALFWorld 幻觉率从 ETO 的 36.57% 降至 29.85%）。
- 显式状态知识直接输入会降低性能，验证隐式知识库检索的合理性。
效率提升
- WKM 通过减少无效步骤（平均规划步骤比基线少 20%-30%），提升规划效率，且多任务统一训练进一步增强泛化能力。

局限：

未来方向：

在Oncall、OS排障、调优等场景，当前不论是通过代码框架编排还是通过Aily、Coze等可视化工具编排，都是属于偏静态的设计。这就导致在泛化能力这块会比较弱。所以在条件允许，且专家经验SOP足够积累时，可以适当考虑通过微调模型来实现泛化能力的增强
在一些关键节点，比如意图识别、工具选择等行动路径判断节点，可以尝试类似的方法，提升路径选择的准确率