[TG#2] (Arxiv 2019) Ctrl: A conditional transformer language model for controllable generation

image-20200212132019858

1. 背景

  • 动机:(1)充足数据以及模型能力让生成模型能从复杂的domain进行sample从而进行生成,计算机视觉中研究者现在致力于进行控制生成;(2)在nlp中如何更加显式地进行控制生成。
  • 工作:受到了图像生成中控制生成和多任务学习的启发,设计了一个能够基于多种控制形式的条件Transformer。Control可以是task-specific的还可以是关于不同domain的。

2. 语言建模

image-20200212164239215

3. 利用CTRL进行语言建模

image-20200212170304186
  • Transformer的结构

3.1 数据

  • 140GB不同domain的文本

3.2 实验设置

  • Tokenizer:fastBPE;Vocabulary:250k;使用了英文维基百科和5%收集的数据学习BPE Code。
  • CTRL:模型维度d = 1280,内在维度f = 8192,48 层,每层16 头。

4. 控制生成

4.1 采样

  • 目的:贪婪采样的同时防止重复:
image-20200212172905929

4.2 控制方式

  • Style by domain:

  • More complex control codes:

  • Triggering specific tasks:

  • Zero-shot code mixing

5. 源属性

  • 给定序列,我们可以找到它的domain:

image-20200212185414843

6. 相关工作

  • 语言建模
  • 多任务学习
  • 采样方法和收敛机制:(1)替换成新词,减少重复;(2)收敛机制以及context-based loss

7. 未来方向

  • 更多控制形式和更精细的控制
  • 拓展到NLP的其他领域
  • 分析语言模型和训练数据的关系
  • 让语言模型与人类更显式地进行交互