Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting
文章要約を抽象型(Abstractive)で行う場合の研究例
- 事前知識 Seq2seqを理解するまでの事前知識
- この論文についてのまとめ
- (関連研究)比較対象のPointer-Generator Networksについて
文章要約の方式
- 抽出-要約生成 - スライド.p7
- 文章要約の実行フローの概略図
- 文章(d1,d2,d3...)
- 1.を抽出し、抽出された文章(d1,d2,d3...)を作成
- 2.を要約し、要約された文章(s1,s2,s3...)を作成
処理の流れ
- 文章(d1,d2,d3...)
- Extractor(抽出された文章(d1,d2,d3...)を作成)
- 畳み込みエンコーダーがそれぞれの文節rjとして処理する
- RNNエンコーダーが隠し層hjを処理する
- RNNデコーダーが隠し層jtをタイムステップtで処理する
- Abstractor(要約された文章(s1,s2,s3...)を作成)
- Pointer-Generator Networksを使い要約文書を作成
使用されたデータセットについての説明
- どのように生成したかなどの情報は別ページにまとめ
4 Dataset
We use the CNN/Daily Mail dataset (Hermannet al., 2015; Nallapati et al., 2016), which contains online news articles (781 tokens on average) paired with multi-sentence summaries (3.75 sentences or 56 tokens on average).
- 4 データセット
- 我々はCNN/デイリーメールのデータセットを使った。その内実は、WEB上のニュース記事(平均781単語を含む)とペアになった複数文の要約(3.75文または56単語を平均で含む)である。
We used scripts supplied by Nallapati et al. (2016) to obtain the same version of the the data, which has 287,226 training pairs, 13,368 validation pairs and 11,490 test pairs.
- 我々は、そのデータと同じバージョンのものを手に入れるためナラパティ(2016年)によって提供されているスクリプトを使った
- それには28万7226個の訓練用データのペア、1万3368個の交差検証用のペア、そして1万1490個のテスト用のペアが含まれている
Both the dataset's published results (Nallapati et al., 2016, 2017) use the anonymized version of the data, which has been pre-processed to replace each named entity, e.g., The United Nations, with its own unique identifier for the example pair, e.g., @entity5.
- どちらの公開されているデータセットの結果も匿名化されたデータを使っており、それぞれ前処理で名前付きのエンティティに置き換えられている。例えば"@entity5"といった形。
By contrast, we operate directly on the original text (or non-anonymized version of the data),2 which we believe is the favorable problem to solve because it requires no pre-processing.
- それとは対照的に我々は原文を直接操作した(もしくは匿名化されていないデータを使用した)、これは、前処理を必要としないため、解決するのに好ましい問題であると考えています(訳者注:「解決したほうが良い問題です」の婉曲表現?)。