FreeStyleWiki

Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting

[機械学習]

Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting

文章要約を抽象型(Abstractive)で行う場合の研究例

  文章要約の方式

  • 抽出-要約生成 - スライド.p7
    • 文章要約の実行フローの概略図
  1. 文章(d1,d2,d3...)
  2. 1.を抽出し、抽出された文章(d1,d2,d3...)を作成
  3. 2.を要約し、要約された文章(s1,s2,s3...)を作成

処理の流れ

  1. 文章(d1,d2,d3...)
  2. Extractor(抽出された文章(d1,d2,d3...)を作成)
    • 畳み込みエンコーダーがそれぞれの文節rjとして処理する
    • RNNエンコーダーが隠し層hjを処理する
    • RNNデコーダーが隠し層jtをタイムステップtで処理する
  3. Abstractor(要約された文章(s1,s2,s3...)を作成)
    • Pointer-Generator Networksを使い要約文書を作成

  使用されたデータセットについての説明

4 Dataset

We use the CNN/Daily Mail dataset (Hermannet al., 2015; Nallapati et al., 2016), which contains online news articles (781 tokens on average) paired with multi-sentence summaries (3.75 sentences or 56 tokens on average).

  • 4 データセット
    • 我々はCNN/デイリーメールのデータセットを使った。その内実は、WEB上のニュース記事(平均781単語を含む)とペアになった複数文の要約(3.75文または56単語を平均で含む)である。

We used scripts supplied by Nallapati et al. (2016) to obtain the same version of the the data, which has 287,226 training pairs, 13,368 validation pairs and 11,490 test pairs.

  • 我々は、そのデータと同じバージョンのものを手に入れるためナラパティ(2016年)によって提供されているスクリプトを使った
  • それには28万7226個の訓練用データのペア、1万3368個の交差検証用のペア、そして1万1490個のテスト用のペアが含まれている

Both the dataset's published results (Nallapati et al., 2016, 2017) use the anonymized version of the data, which has been pre-processed to replace each named entity, e.g., The United Nations, with its own unique identifier for the example pair, e.g., @entity5.

  • どちらの公開されているデータセットの結果も匿名化されたデータを使っており、それぞれ前処理で名前付きのエンティティに置き換えられている。例えば"@entity5"といった形。

By contrast, we operate directly on the original text (or non-anonymized version of the data),2 which we believe is the favorable problem to solve because it requires no pre-processing.

  • それとは対照的に我々は原文を直接操作した(もしくは匿名化されていないデータを使用した)、これは、前処理を必要としないため、解決するのに好ましい問題であると考えています(訳者注:「解決したほうが良い問題です」の婉曲表現?)。