Attention
- 2015年発表
- Neural Machine Translation by Jointly Learning to Align and Translate
- バーダナウ(Bahdanau)さんの発表
- encoder/decoder(seq2seq) + attention機構を使って翻訳タスクを実行
- Neural Machine Translation by Jointly Learning to Align and Translate
論文の概要
- 後で書く
attentionありseq2seqとなしのseq2seqで違いは出るのか?
- 調査
- いろいろ調べた結果、Seq2seqによる機械学習の要約は、研究の当初から何らかの形でAttentionの機能が入っている。
- なのでattentionなしのSeq2seqによる機械学習の要約はない
- 私的な調査の結果、FacebookのRushさんが書いた A Neural Attention Model for Abstractive Sentence Summarization がニューラルネットワークを使った文章要約の始祖のようだ
- それまでは翻訳タスクでAttentionが使われていたのを文章要約に転用したのがラッシュ(Rush)さん、上の論文でも最初の方でバーダナウ(Bahdanau)さんの論文を引用している
- この情報に関しては以下のサーベイを元にして書いている
非匿名化データでの結果
抽象型要約の結果に絞って表にした
- DUC 2004コーパスのF値
Models | ROUGE-1 | ROUGE-2 | ROUGE-L | コメント |
---|---|---|---|---|
ABS+ (Rush et al., 2015 | 28.18 | 8.49 | 23.81 | エンコーダーにattentionを使っているみたい |
RAS-Elman (Chopra et al., 2016) | 28.97 | 8.26 | 24.06 | 上と同じ著者で違うモデル |
abstractive model (Nallapati et al., 2016)* | *35.30 | 16.64 | *32.62 | seq2seq + attentionであるがRNNベース(LSTMではない) |
- CNN/Dailymailデータセットに対するスコア
Models | ROUGE-1 | ROUGE-2 | ROUGE-L | METEOR | コメント |
---|---|---|---|---|---|
abstractive model (Nallapati et al., 2016)* | 35.46 | 13.30 | 32.65 | ? | seq2seq + attentionであるがRNNベース(LSTMではない) |
See et al. (2017) (w/o coverage) | 36.44 | 15.66 | 33.42 | 16.65 | このモデルもseq2seq + attentionである |
See et al. (2017) | 39.53 | 17.28 | 36.38 | 18.72 | |
Fan et al. (2017) (controlled) | 39.75 | 17.29 | 36.54 | 20.05 | |
ff-ext + abs | 39.30 | 17.02 | 36.93 | - | |
rnn-ext + abs | 38.38 | 16.12 | 36.04 | 19.39 | |
rnn-ext + abs + RL | 40.04 | 17.61 | 37.59 | 21.00 | |
rnn-ext + abs + RL + rerank | 40.88 | 17.80 | 38.54 | 20.38 | ROUGE-Lは38.54でこれが最高 |
匿名化データでの結果
anonymized-results.png
non-anonymized-results.png