LPF: A Language-Prior Feedback Objective Function forDe-biased Visual Question Answering

604 0 0

作者:BONiii

LPF: A Language-Prior Feedback Objective Function forDe-biased Visual Question Answering

作者创新点及其贡献

创新点

作者通过纯问题分支网络或得语言偏见，根据语言的偏见在主网络中为每个训练样本分配动态权重，实现消除语言偏见的效果

贡献

作者所提出的语言先验反馈目标函数（LPF），当从不平衡的VQA数据集中学习时，该函数能自动将训练损失调整为一个平衡形式，并提出一个通用框架，利用纯问题分支计算不同答案的动态权重。
在VQA-CP v2数据集中强于基线网络，并能与当前最新的网络进行竞争。

模型

通常VQA模型的损失函数

[L_{QO}=-frac{1}{N}∑_{i=1}^{N}log⁡(softmax(f_{VQA}(v_i,q_i)))[a_i] ]

纯问题模型

作者将经过LSTM或GRU等的问题编码器生成的问题嵌入经过由MLP层组成的网络得到文本偏见。

损失函数如下：

[L_{QO}=-frac{1}{N}∑_{i=1}^{N}log⁡(softmax(f_{QO}(q_i)))[a_i] ]

重塑VQA目标函数减少语言偏见

根据人工标记真实的答案和纯问题模型的softmax层输出计算(a_i)

[a_i=softmax(f_{QO}(q_i))[a_i]=frac{exp(f_{QO}(q_i))[a_i]}{∑_{j=1}^{|A|}exp(f_{QO}(q_i))[a_j]} ]

通过(a_i)计算出形式化调制因子(beta_i)，其中(gamma)为超参数:

[beta_i=(1-a_i)^gamma,gammageq0 ]

最后通过调制因子(beta_i)控制损失函数的权重：

[L_{LPF}=-frac{1}{N}∑_{i=1}^{N}beta_ilog(softmax(f_{VQA}(v_i,q_i)))[a_i] ]

如下图所示，如果仅通过纯问题模型进行计算出来的答案，其(a_i)比较大，因此其(beta_i)较小，使得其减小(L_{LPF})的权重。

内容来源于网络如有侵权请私信删除

文章来源: 博客园

原文链接: https://www.cnblogs.com/boniii/p/14898428.html

标签： AI 人工智能

你还没有登录，请先登录或注册！

还没有人评论，欢迎说说您的想法！

LPF: A Language-Prior Feedback Objective Function forDe-biased Visual Question Answering