[TG#1] (Arxiv 2019) Encoder-Agnostic Adaptation for Conditional Language Generation

image-20200207133250688

1. 背景

  • 动机:(1)大规模的预训练在自然语言理解(NLU)取得了很大的成功,那么在自然语言生成任务上的性能如何呢?(2)如果能够设计出encoder无关的模型,将能够提升连贯性和语法,即使输入不是文本的情况下;(3)目前的工作表明,encoder无关的模型,不如不pretraining的性能,目前性能好的模型都是text-to-text。
  • 工作:探索了几种encoder-agnostic的适应方法。
  • 观察:(1)目前的适应方法使得重新学习的参数与pretraining的参数差得很远;(2)在trivial conditioning的情况下,即使是不finetuning也能进行合理的生成。
  • 方法:学习一个任务特定的encoder,它将伪历史信息注入到预训练的自关注模型中。

2. 相关工作

  • 语言模型迁移学习:word embedding,Elmo,Transformer,bert,GPT,GPT-2。
  • 预训练的decoder(自然语言生成迁移学习):(1)无条件的语言模型融合有条件的输入;(2)fusion model中语言模型和条件模型的分布合并计算输出分布,本文的baseline基于这类模型。(3)机器翻译中,LSTM用pretrained的参数初始化。
  • 自然语言生成中基于预训练的迁移学习:(1)Bert完形填空的形式在语言生成上效果并不好;(2)最近也有工作用Bert生成,但是它们局限于Text2Text,本文考虑任何的source conditioning;(3)最近,有人提出pseudo self attention用于对话生成。

3. 方法

image-20200211214739473
  • 目标:在有小数量(x, y)标记样本的前提下,对于任意输入x,估计p(y|x)。学习一个模型在新数据的条件下,可能利用到预训练模型。

  • Baseline 1: Repr-Transformer: (1)标准的Transformer;(2)word embedding换成了pretrained LM的output representation。

  • Baseline 2: Context-Attn:(1)标准的Transformer;(2)decoder除了Context Attention,其他部分用LM初始化。

  • 本文提出的方法:伪自关注模型,直接将学习好的encoder注入到模型的预训练的自关注模块中。

image-20200211220542595
  • 优点:参数变化小
image-20200211221019214

4. 实验和结果

  • 在四个任务上进行实验,每个任务都使用了预训练的GPT-2。

4.1 PRELIMINARY: CLASS-CONDITIONAL GENERATION

image-20200211222142430

4.2 DOCUMENT SUMMARIZATION

image-20200211222217124

4.3 CONDITIONAL STORY GENERATION

image-20200211222253896

4.4 IMAGE PARAGRAPH CAPTIONING

  • VG数据集:数据少
image-20200211222320989

5. 分析与讨论

5.1 预训练的有效性

image-20200211222838833

5.2 低资源监督

image-20200211223018415

5.3 人工评测

image-20200211222548505

5.4 定量结果

image-20200211223109546