FreeStyleWiki

Attention

[機械学習,数学,文章要約]

Attention

  論文の概要

  • 後で書く

  attentionありseq2seqとなしのseq2seqで違いは出るのか?

  • 調査
    • いろいろ調べた結果、Seq2seqによる機械学習の要約は、研究の当初から何らかの形でAttentionの機能が入っている。
    • なのでattentionなしのSeq2seqによる機械学習の要約はない
    • 私的な調査の結果、FacebookのRushさんが書いた A Neural Attention Model for Abstractive Sentence Summarization がニューラルネットワークを使った文章要約の始祖のようだ
    • それまでは翻訳タスクでAttentionが使われていたのを文章要約に転用したのがラッシュ(Rush)さん、上の論文でも最初の方でバーダナウ(Bahdanau)さんの論文を引用している
    • この情報に関しては以下のサーベイを元にして書いている

非匿名化データでの結果

抽象型要約の結果に絞って表にした

Models ROUGE-1 ROUGE-2 ROUGE-L コメント
ABS+ (Rush et al., 2015 28.18 8.49 23.81 エンコーダーにattentionを使っているみたい
RAS-Elman (Chopra et al., 2016) 28.97 8.26 24.06 上と同じ著者で違うモデル
abstractive model (Nallapati et al., 2016)* *35.30 16.64 *32.62 seq2seq + attentionであるがRNNベース(LSTMではない)
Models ROUGE-1 ROUGE-2 ROUGE-L METEOR コメント
abstractive model (Nallapati et al., 2016)* 35.46 13.30 32.65 ? seq2seq + attentionであるがRNNベース(LSTMではない)
See et al. (2017) (w/o coverage) 36.44 15.66 33.42 16.65 このモデルもseq2seq + attentionである
See et al. (2017) 39.53 17.28 36.38 18.72
Fan et al. (2017) (controlled) 39.75 17.29 36.54 20.05
ff-ext + abs 39.30 17.02 36.93 -
rnn-ext + abs 38.38 16.12 36.04 19.39
rnn-ext + abs + RL 40.04 17.61 37.59 21.00
rnn-ext + abs + RL + rerank 40.88 17.80 38.54 20.38 ROUGE-Lは38.54でこれが最高

匿名化データでの結果