算法研究探讨 | 通过递进知识更新和自一致性增强大语言模型推理能力
算法研究探讨 | 通过递进知识更新和自一致性增强大语言模型推理能力
摘要:针对大语言模型(large language models,LLMs),虽然现有方法在复杂多步推理任务中(如思维链(chainof thought)通过引导模型生成推理步骤来增强推理能力,但常出现生成的中间步骤错误和信息遗漏问题,一旦某环节出错,往往导致最终解答失败。为此,提出了一种全新的推理方法——递进一致性推理(progressive consistentreasoning,PCR)。PCR通过构建一个动态已知量库(一个在推理过程中不断更新的结构化信息列表),从原始问题中提取显式关键信息建立初始已知量库,并将问题分解为多个子问题;在每一次解答子问题后,通过从子问题答案中提取新信息对已知量库进行动态更新,然后基于最新的已知量库对“原始问题”重新思考后进行一次完整的解答尝试,生成阶段候选解。最后,采用聚合策略整合各阶段候选解,输出更加稳健、准确的最终答案。与其他方法相比,PCR方法在GSM8K、CSQA等多项复杂推理基准上相比传统思维链和自一致性方法(self-consistency reasoning)提高了 11.9%.5.73% 和 3.45%.0.95% 。结果表明,PCR方法能够有效降低中间步骤错误和信息遗漏对结果的影响,增强推理的稳定性和准确性。