解密Prompt系列10. 思维链COT原理探究

407 0 0

作者:风雨中的小七

前一章思维链基础和进阶玩法我们介绍了如何写Chain-of-thought Prompt来激活生成逐步推理，并提高模型解决复杂问题的能力，这一章我们追本溯源，讨论下COT的哪些元素是提升模型表现的核心？

要进行因果分析，需要把思维链中的不同元素拆解开来，然后通过控制变量实验，来研究不同元素对COT效果的影响。以下两篇论文的核心差异就在于: COT的变量拆解，以及控制变量的实验方式。

结合两篇论文的实验结论，可能导致思维链比常规推理拥有更高准确率的因素有

思维链的推理过程会重复问题中的核心实体，例如数字，人物，数字等
思维链正确逻辑推理顺序的引入

友情提示：以下论文的实验依赖反事实因果推断，这种因果分析方式本身可能存在有偏性进而得到一些错误结论，读论文有风险，迷信论文需谨慎哈哈~

TEXT AND PATTERNS: FOR EFFECTIVE CHAIN OF THOUGHT IT TAKES TWO TO TANGO

测试模型：PaLM-62B，GPT3，CODEX

google这篇论文比较早，按个人阅读舒适度来划分个人更推荐第二篇论文哟~

COT元素

论文把影响元素拆分成了Text，Symbol和Pattern三个部分, 如下

论文给出了symbol和pattern的定义，剩下的token全是Text

symbol:是数据集的核心主体，数学问题就是数字,SPORT数据集就是运动员和运动项目, DATE数据集就是时间，这里的symbol类似实体的概念
pattern: 可以是symbol的组合，连接符(公式)或者帮助模型理解任务的表述结构。这里允许pattern和symbol重合，也就是整个公式是pattern，但公式中的数字同样是symbol。但在非数学问题上我个人觉得pattern的定义有点迷幻...

实验

论文针对以上3个元素分别进行了实验，通过改变COT few-shot prompt中特定元素的取值，来分析该元素对COT效果的贡献

观点1.Symbol的形式和取值本身对COT影响不大

这里论文用了两种控制变量的方式：symbol随机采样和特殊符号替换

特殊符号替换(symb_abs)

abstract symbol就是用特殊符号来替换symbol，这里作者同时替换了question，prompt和answer里面的symbol如下

随机替换(symb_ood)

OOD类似随机替换，不过论文的替换方式有些迷幻。对于GSM8k数学问题，作者用一一对应的数学数字替换了文字数字;对于体育常识问题的替换比较常规作者用随机的人名和赛事进行替换;对于时间常识问题作者用未来时间替换了当前时间?? 注意这里的替换作者保证了推理逻辑的一致性，包括同一数字用同一symbol替换，替换实体也符合推理逻辑，以及对问题中的答案也进行了替换。所以这里纯纯只能论证symbol本身的取值和类型(例如数字1和一)是否对COT有影响

abstract symbol就是用特殊符号来替换symbol，这里作者同时替换了question，prompt和answer里面的symbol如下

这种替换方式下的实验结果如下，除了体育问题中的随机实体替换，其余symbol的替换对COT的效果影响都非常有限。这让我想到了一篇关于NER模型的泛化性主要来自模型学会了不同类型的实体会出现在哪些上下文中，而不仅是对实体本身的形式进行了记忆。他们的实验方式和作者替换symbol的操作其实很类似，这种替换并不大幅影响下文对上文的Attention。

观点2. pattern是COT生效的必要不充分条件

对于Pattern作者更换了实验方式，控制变量采用了只保留pattern，和只剔除pattern这两种实验类型。

以数学问题为例，只保留pattern就是推理过程只保留数学公式，只剔除pattern就是整个推理过程只把公式剔除。其余问题类型，考虑在前面的pattern定义阶段个人就感觉有些迷幻，... 所以我们直接跳到实验结论吧

只有pattern的COT效果很差，和直接推理差不多，说明只有patten肯定是不够的，这和上一篇博客提到COT小王子尝试过的只有数学公式的COT效果不好的结论是一致的。
剔除pattern的COT效果受到影响，因此pattern对COT有显著影响，但很显然还有别的因素

观点3. 推理出现问题中的关键实体且和问题保持格式一致很重要

最后针对Text部分，作者采用了实体替换和语法替换

实体替换(text_diff_entities)：把推理中的实体随机替换成和问题中不一样的实体，包括数学问题中的数字，常识问题中的时间，地点和任务。个人感觉这应该是symbol的实验？？

- 语法替换(text_yoda_thought): 把常规的英文表达改成了Yoda的说法风格。Yoda是按照名词-形容词-动词顺序来说话的。例如常规是This is my home，Yoda会说My home this is。只对thought进行语法替换，question保持正常的英文表达。

效果上，随机实体替换对所有任务的COT效果影响非常大, 所以在推理阶段使用Question中的核心实体很重要。其次推理和question在语法上的不一致会影响COT在部分任务上的表现。