Don’t Take the Easy Way Out:Ensemble Based Methods for Avoiding Known Dataset Biases

Abstract

最先进的模型通常利用数据中的表面模式,这些模式不能很好地泛化到域外或对抗性设置中。 例如,文本蕴涵模型经常学习特定关键词意味着蕴涵,而不管上下文,而视觉问答模型学习预测原型答案,而不考虑图像中的信息。 在本文中,我们表明,如果我们有这些偏差的先验知识,我们可以训练一个模型对域转移更加具有鲁棒性。 我们的方法有两个阶段:我们 (1) 训练一个纯粹基于数据集偏差进行预测的朴素模型,以及 (2) 训练一个健壮模型作为与朴素模型集成的一部分,以鼓励它专注于其他内容更有可能概括的数据。 在五个外域测试数据集上的实验表明,在所有设置中都显着提高了鲁棒性,包括在不断变化的先验视觉问题回答数据集上获得了 12 分的收益,在对抗性问答测试集上获得了 9 分的收益。

1 Introduction

虽然最近的神经模型已经显示出显着的结果,但这些成就受到了观察的影响,即它们经常利用数据集特定的模式,这些模式不能很好地推广到域外或对抗性设置 . 例如,在 MNLI 上训练的蕴涵模型(Bowman 等人,2015 年)将仅根据特定关键字的存在(Gururangan 等人,2018 年)或句子对是否包含相同的词(Mc-Coy 等人,2015 年)来猜测答案。 , 2019),而在 SQuAD 上训练的 QA 模型(Rajpurkar 等人,2016 年)倾向于选择文本附近的问题词作为答案,而不管上下文(Jia 和 Liang,2017 年)。

我们将这些肤浅的模式称为偏见。依赖偏差的模型可以在域内数据上表现良好,但脆弱且容易被愚弄(例如,SQuAD 模型很容易被包含许多疑问词的不相关句子分散注意力)。 最近对数据集偏差的关注促使研究人员重新检查许多流行的数据集,从而发现了各种各样的偏差(Agrawal 等人,2018 年;Anand 等人,2018 年;Minet al.,2019 年;Schwartz 等人 等,2017)。

在本文中,我们以这些工作为基础,表明一旦确定了数据集偏差,我们就可以通过防止模型利用该偏差来提高模型的域外性能。 为此,我们利用这样一个事实,即这些偏差通常可以使用简单的、受约束的基线方法显式建模,通过基于集成的训练将它们从最终模型中剔除。

我们的方法分为两个阶段。首先,我们构建了一个仅偏倚模型,旨在捕获一个在训练数据上表现良好,但在域外设置上泛化较差的解决方案。接下来,我们将第二个模型与预先训练的仅偏倚模型进行集成训练,以激励第二个模型学习替代策略,在测试集中单独使用第二个模型。我们在专家式ap方法的基础上探索了几种不同的集成方法(Hinton,2002;史密斯等人,2005年)。图1显示了应用此过程防止视觉问答(VQA)模型猜测答案的示例,因为它们是问题的典型答案,这是在VQA模型中观察到的缺陷(Goyal等人,2018;Agrawal等人,2018年)。

我们在一系列不同的任务上评估我们的方法,所有这些任务都需要模型来克服训练和测试数据之间具有挑战性的领域转移。首先,我们通过向 MNLI 添加人工特征来构建一组包含人工构建偏差的合成数据集。 然后考虑先前工作提出的三个挑战数据集设计用来采用表面策略的断裂模型(Bowman等人,2015)、阅读理解(Rajpurkar等人,2016)和VQA(Antol等人,2015)数据集。

此外,我们还构建了一个新的QA挑战数据库TriviaQA-CP(用于TriviaQA变更优先级)。这个数据集是由TriviaQA(Joshi et al.,2017)提出的问题构建的,这些问题从列车集合中询问特定类型的实体,并对开发集合中的这些问题进行评估,以便挑战模型来概括不同类型的问题。

我们能够在所有设置中提高域外性能,包括在两个QA数据集上获得6和9点增益。在VQA challenge集合上,我们实现了12点的增益,与之前工作的3点增益相比。总的来说,我们定义了采用一种能动态选择何时信任偏倚模型的集成方法是最有效的,我们给出了综合实验和定性分析来说明这种方法的优点。我们发布了我们的数据集和代码,以方便将来的工作。

研究人员对许多数据集的偏差提出了担忧。例如,许多联合自然语言处理和视觉数据集可以通过忽略任务视觉方面的模型部分解决(Jabri et al.,2016;张等,2016;Anand等人,2018年;Caglayan等人,2019年)。近期多模态QA数据集中的一些问题(Yang等人,2018;Welbl等人,2018)可通过单模型求解(Chen和Durrett,2019;Min等人,2019年)。其他例子包括故事完成(Schwartz et al.,2017)和多项选择题(Clark et al.,20162018)。认识到偏见是不同领域的一个关注点,我们的工作是第一次对跨语言和视觉的多个数据集进行评估。

最近的数据集构造协议试图避免某些类型的偏差。例如,CoQA(Reddy et al.,2019)和QuAC(Choi et al.,2018)同时采取措施防止注释者使用上下文段落中出现的单词,VQA2.0(Goyal et al.,2018)选择示例来限制仅提问模型的有效性,其他人则筛选出了简单基线可解的例子(Yang et al.,2018;张等,2018b;克拉克等人,2018年;Zellers等人,2018年)。虽然减少偏差很重要,但开发方法来预防模型使用已知偏差将允许我们继续利用现有的数据集,并随着我们对希望避免的偏差的理解的发展而更新我们的方法。

最近的工作集中于由于忽略部分输入(例如,在看到证据之前猜测问题的答案)而产生的偏见。解决方案包括强制模型理解所有输入的生成目标(Lewisand Fan,2019),精心设计的模型架构(Agrawal等人,2018;Zhang等人,2016),或从模型的内部表示中对抗性删除类指示性特征(Ramakrish nan等人,2018;张等,2018a;Belinkovet等人,2019年;Grand and Belinkov,2019)相反,我们考虑偏倚超过部分输入(冯等人,2019),并且显示我们的方法在VQA-CP上是优越的,同时,He等人(2019)也建议使用专家感知的产品来训练无偏模型,但我们考虑了更广泛的整合方法,并在其他领域进行了测试。

一项相关的任务是防止模型出现特定的问题数据集特性,而这些特性通常从公平性的角度进行研究(Zhao等人,2017年;Burns等人,2018年)。一种流行方法是利用对手从模型的内部代表中重新确认目标特征,通常是性别种族(Edwards和Storkey,2016;Wang等人,2018;Kim等人,2019年)。相反,我们考虑的偏差与对整个任务至关重要的特性有关,因此不能简单地忽略这些特性。

通过对现有实例施加微小扰动来构建的域外实例的评估模型也是最近研究的主题(Szegedy et al.,2014;别林科夫和比斯克,2018年;卡里尼和瓦格纳,2018年;Glockner等人,2018年)。分布的转变涉及到了输出分布很大的变化,对现有的模型造成一个很大级别的瑕疵。

3 Methods

这一节描述了我们的方法的两个阶段(1)建立一个只有偏差的模型和(2)使用它通过集合训练一个健壮的模型。

3.1 Training a Bias-Only Model

第一阶段的目标是建立一个在训练数据上表现良好的模型,但在域外测试集上表现可能很差。因为我们假设我们无法访问来自测试集,我们必须应用先验知识来实现这个目标。

最直接的方法是确定一组特征,这些特征在训练期间与类标签相关,但已知与测试集中的标签不相关或反相关,然后根据这些特征训练分类器。例如,我们的VQA-CP(Agrawal等人。,2018)仅偏倚模型(见第5.2节)使用问题类型作为输入,因为问题类型和答案之间的相关性在训练集中与测试集中非常不同(例如,答案2是训练集中“有多少……”问题的常见答案,但对于测试集中的这类问题来说是罕见的)

然而,我们方法的一个好处是可以使用任何类型的预测器对偏差进行建模,从而为我们提供了一种捕获更复杂直觉的方法。例如,在 SQuAD 上,我们的仅偏差模型在输入视图上运行 由 TF-IDFscores 构建(参见第 5.4 节),并且在我们不断变化的priviaQA 数据集上,我们的仅偏差模型使用了预训练的命名实体识别 (NER) 标记器(参见第 5.5 节)。

3.2 Training a Robust Model

这一阶段训练一个健壮的模型,避免使用由纯偏差模型学习的方法。

3.2.1Problem Definition

偏见模型为:

[h(x_i)=b_i=<b_{i1},b_{i2},...b_{iC}> ]

其中(<x_1,x_2,...,x_n>)为训练样本,(b_{ij})是偏见模型对第i个样本为第j个类的可能性。

第二个模型:

[f(x_i,theta)=p_i ]

其中(p_i)类似与一个类可能性的分布。

现在的目标是学习参数(theta)使得模型能够准确的预测答案,而不使用偏见模型的策略。

3.2.2 General Approach

我们训练一个(h)(f)一起训练,特别的,对于每一个实例,一个新的类分布(widehat{p}_i)是通过(p_i)(b_i)计算所得。在训练期间,损失是使用(widehat{p}_i)计算出来的,反向传播影响函数(f)。在评价期间只使用单模型(f)。我们提出了几种不同的结合模型的方法。

3.2.3 Bias Product

最简单的结合方式是由Hinton在2002年中提出的:

[widehat{p}_i=softmax(log(p_i)+log(b_i)) ]

等价于,其中(circ)表示element-wise multiplication:

[widehat{p}_ipropto p_icirc b_i ]

3.2.4 Learned-Mixin

条件独立性的假设(等式 3)通常会太强。 例如,在某些情况下,鲁棒模型可能能够预测通过仅偏置模型对于某些类型的训练示例是不可靠的。我们发现这会导致鲁棒模型选择性地调整其行为以补偿仅偏置模型的不准确性,从而导致域外设置中的错误(参见第 5.1 节)。

相反,我们允许模型明确确定在给定输入的情况下信任偏差的程度:

[widehat{p}_i=softmax(log(p_i)+g(x_i)log(b_i)) ]

其中(g)是一个需要学习的函数,我们计算(g)(softplus(wcdot h_i)),其中(w)为一个需要学习的向量,(h_i)是训练样本(x_i)在模型中的最后一个隐藏层的输出。(softplus(x)=log(1+e^x))防止权重变成负数来逆转偏差,其中Bias Product是(f(x_i)=1)时。

但是使用这个方法有一个缺陷,就是当(g(x_i)=0)时,模型很难能把偏见整合到鲁棒模型中,并且作者发现这种现象确实会出现。

3.2.5 Learned-Mixin+H

为了防止上述的问题,作者提出了第三种结合方式。就是在使用Learned-Mixin时,在损失中添加熵惩罚:

[R=wH(softmax(g(x_i)log(b_i))) ]

其中(H(z)=-sum_jz_jlog(z_j))(w)是超参数,惩罚熵鼓励偏差分量不均匀,从而对集成产生更大的影响。

4 Evaluation Methodology

我们在具有域外测试集的几个数据集上评估我们的方法。 其中一些任务,例如 HANS (McCoy et al., 2019) 或 Adversarial SQuAD (Jia and Liang, 2017),可以通过生成类似于测试集中的额外训练样例(例如,Wang 和 Bansal ( 2018))。 相反,我们证明可以通过利用模型可能采用的一般、有偏见的策略的知识来提高这些任务的性能。

我们的评估设置由一个训练集、一个域外测试集、一个仅偏置模型和一个主模型组成。 为了进行评估,我们在训练集上训练仅偏置模型,在训练集上训练主模型,同时采用第 3 节中的方法之一,并在域外测试集上评估主模型。 如果可用,我们还会报告域内测试集的性能。 我们使用已知在主模型的各自任务中工作良好的模型,不要进一步调整他们的超参数或执行提前停止。

我们考虑两个提取 QA 数据集,我们将其视为一个联合分类任务,其中模型必须选择开始和结束答案令牌(Wang 和 Jiang,2017)。 对于这些数据集,我们构建了独立的仅偏置模型来选择开始和结束标记,并将这些偏置与分类器的开始标记和结束标记输出分布单独集成。 我们将 ReLU层应用于问题和段落嵌入,然后是最大池化,以构建隐藏状态来计算学习混合权重。

我们将我们的方法与下面描述的重新加权基线进行比较,并在没有任何修改的情况下训练主模型。 在 VQA 上,我们还与 Ramakrishnan 等人(2018年)的对抗性方法进行了比较。Grand和Belinkov(2019 年)。 我们考虑的其他偏差并非仅基于观察部分输入,因此无法直接应用这些对抗方法。

4.1 Reweight Baseline

作为非集成基线,我们在数据的加权版本上训练主模型,其中每个样本(x_i)的权重为(1-b_{iy_i})(即,我们对示例进行加权 1 减去仅偏差模型分配正确标签的概率)。 这鼓励主模型专注于仅偏置模型出错的示例。

4.2 Hyperparameters

我们的一种方法(Learned-Mixin +H)需要超参数调整。 然而,超参数调整在我们的设置中具有挑战性,因为我们假设我们在训练期间无法访问域外测试示例。一个合理的选择是在dev set上调整超参数。但与区域转移到测试集不完全相同,但不幸的是,我们的数据集都没有这样的dev set。 相反,我们遵循先前的工作(Grand 和 Belinkov,2019 年;Ramakr-ishnan 等人,2018 年)并对测试集进行模型选择。 尽管这对这种方法的结果提出了一个重要警告,但我们认为观察熵正则化器可能非常有影响仍然很有趣。 未来的工作可能能够构建合适的的dev set,或者提出其他超参数调整方法来缓解这个问题。 选择的超参数见附录 A。

5 Experiment

因为我只研究VQA方向所以只介绍了VQA方向相关的实验。

5.2 VQA-CP

Data

我们对 VQA-CP v2 (Agrawalet al., 2018) 数据集进行评估,该数据集是通过将 VQA 2.0 (Goyal et al., 2018) 训练集和验证集重新拆分为新的训练集和测试集而构建的,从而确定问题类型之间的相关性 每次拆分之间的答案都不同。 例如,“网球”是火车集中以“什么运动...”开头的问题的最常见答案,而“滑雪”是测试集中这些问题的最常见答案。 选择这个模型的原因是因为它们在训练数据中是典型的模型在这个测试集上表现不佳。

Bias-Only Model

VQA-CP 带有带有 65 种问题类型之一注释的问题,对应于问题的前几个词(例如,“什么颜色”)。 仅偏置模型使用此分类标签作为输入,并在与主模型相同的多标签目标上进行训练。

Main Model

我们使用BottomUpToDown (Anderson et al., 2018) VQA 模型的流行实现。该模型使用多标签目标,因此我们通过将每个可能的答案视为二分类问题来应用我们的集成方法

Results

结果如下表所示。learned-mixin 方法非常有效,将 VQA-CP 的性能提升了约 9 个点,熵正则化器可以再增加 3 个点,显着超过先前的模型。对于learned-mixin集成而言,我们发现(g(x_i))与偏差的预期准确度有着密切的相关性。与测试数据有一个spearmanr相关系数为0.77。定性示例(图 2)进一步表明,当模型知道是否可以依赖于仅偏置模型时,它会增加 (g(x_i))

learned-mixin模型中的(g(x_i))(标记为“G”)和learned-mixin+H 模型中的(g(x_i))(标记为“G+”)。 问题类型和偏差模型对该类型的最高排名答案如上所示。 当偏差答案可能正确时,我们发现(g(x_i))更大。

6 Conclusion

我们的主要贡献是一种使用人类知识的方法,了解哪些方法不能很好地泛化以提高模型对领域转移的鲁棒性。我们的方法是使用预先训练的朴素模型在集成中训练鲁棒模型,测试过程中只使用鲁棒模型。 大量实验表明,我们的方法在两个对抗性数据集和两个不断变化的先验数据集上运行良好,包括在 VQA-CP 上获得 12 点增益。未来的工作包括学习自动检测数据集偏差,这将使我们的方法适用于不太具体的先验 知识。

内容来源于网络如有侵权请私信删除

文章来源: 博客园

原文链接: https://www.cnblogs.com/boniii/p/15031138.html

你还没有登录,请先登录注册
  • 还没有人评论,欢迎说说您的想法!