[TS#1] (ACL 2018) Retrieve, Rerank and Rewrite: Soft Template Based Neural Summarization

image-20200215181400365

一句话总结:参数共享的encoder编码句子,选取模板,然后再编码模板,最后decoder将句子和模板的隐藏状态作为输入,生成摘要。

1. 背景

  • 动机:(1)目前的seq2seq模型利用源文本进行生成,然而在长文本生成上效果较差,容易重复;(2)基于文本的总结是一种传统的方法,填模板中的空,例如:[REGION] shares [open/close] [NUMBER] percent [lower/higher], e.g., “hong kong shares close #.# percent lower”,然而构建模板的过程是十分费时的;(3)soft-template:相似句子中频次最高的一句作为模板,结合seq2seq和template-based方法。
  • 工作:(1)Retrieve:利用一个信息检索平台提取模板;Rerank:排序模板;Rewrite:总结生成;(2)引入soft template;(3)拓展seq2seq成模板排序和模板意识的文本生成;(4)结合了基于信息检索和seq2seq相结合的模板生成模型。

2. 方法

image-20200215185306582

首先,给定语料库,过滤出句子模板,然后rerank和rewrite都使用参数共享的encoder,rerank找到显著值最大的模板,最后decoder同时利用模板和句子的隐藏状态进行生成。

2.1 检索

  • 检索工具:Lucene

2.2 联合重排序和重写

image-20200215192612574

  • 利用Bi-RNN读取句子和模板:
image-20200215190636038

其中,隐藏状态是两个方向的混合:

image-20200215190847997
  • 重排序:使用ROUGH测量模板的真实分数:$s^{}(r,y^{})$,句子和模板的隐藏状态为Bi-RNN的输出:
image-20200215191456533

利用双线性网络预测模板和输入句子的分数:

image-20200215191615279

从而$s$和$s^{x}$的差异将提供seq2seq以监督信息。

2.3 重写

  • 利用encode的隐藏状态进行重写:

image-20200215192245570

image-20200215192259102

image-20200215192312073

2.4 学习

  • 模板选择监督:

image-20200215192411230

  • 语言模型监督:

image-20200215192438264

  • 总损失函数:

image-20200215192454485

  • batch size:64,dropout:0.3,SGD,学习率:1,若损失没有下降则减半。

3. 实验

3.1 数据集

image-20200215192753878

3.2 评测度量

  • 指标:ROUGH

  • 度量一个模板的分数(原文公式有误):

image-20200215192937397

  • 其他指标:LEN DIF,LESS 3,COPY,NEW NE。

3.3 实现细节

  • beam size:5

3.4 Baseline

  • ABS:CNN + NNLM
  • ABS+:CNN + NNLM + hand-crafted features
  • RAS-Elman:attentive CNN + RNN
  • Featseq2seq:Seq2Seq + Handcrafted features
  • Luong-NMT:两层LSTM
  • OpenNMT:官方
  • FTSum:encode fact

3.5 信息评估

image-20200215193527888

image-20200215193545110

image-20200215193559439

3.6 语言质量评测

image-20200215193625847

3.7 模板的有效性

image-20200215193706337

4. 相关工作

  • 文本总结:早期工作(基于模板,语法树,机器翻译方法),最近(Seq2Seq)。
  • 利用手工提取的特征:命名实体,POS等。
  • CopyNet
  • 收敛机制防止重复
  • 强化学习