[機械学習]
RNNで文章要約
概要把握
- 大自然言語時代のための、文章要約 by 2017年
- Pretraining-Based Natural Language Generation for Text Summarization ~BERTから考える要約のこれまでとこれから by 2019年
まとめると…
- 要約の生成には抽出型(Extractive)と抽象型(Abstractive)の2つのアプローチがある
抽象型(Abstractive)の最近の潮流
年 | 手法 |
---|---|
2014年 | Seq2Seq + Attention |
2017年 | Seq2Seq + Attention + Ptr-Net |
2018年 | BERT |
2019年 | BERT後 |
個々の手法の調査
Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting
- 生成型要約のために、最初に文を抽出しそれを書き直す形で要約を生成
- ソースコード:https://github.com/ChenRocks/fast_abs_rl
- これについてかなり詳細に調べたが、英文の抽出前と抽出後を比べてみると、元の文章と大きく変わるものではないことがわかった
DeepMind-Teaching-Machines-to-Read-and-Comprehend
- Teaching Machines to Read and Comprehend、上記の論文に引用されている。データセットも一緒。
- INPUT: 文章と要約のデータセット(教師データ)
- OUTPUT: 文脈と穴あき問題が与えられたとき答えられるモデル
- ソースコード: https://github.com/thomasmesnard/DeepMind-Teaching-Machines-to-Read-and-Comprehend