Teaching Machines to Read and Comprehend



Teaching Machines to Read and Comprehend




2 Supervised training data for reading comprehension

2 読解のための教師あり学習のデータ

Here we propose a methodology for creating real-world, large scale supervised training data for learning reading comprehension models.


Inspired by work in summarisation [10, 11], we create two machine reading corpora by exploiting online newspaper articles and their matching summaries.


We have collected 93k articles from the CNN1 and 220k articles from the Daily Mail2 websites.

CNNから9万3000の記事、Daily MailのWebサイトから2万2000の記事を収集しました。

Both news providers supplement their articles with a number of bullet points, summarising aspects of the information contained in the article. Of key importance is that these summary points are abstractive and do not simply copy sentences from the documents.

どちらのニュースプロバイダーも、いくつかの箇条書きで記事を補足し、記事に含まれる情報の側面を要約しています。 重要なことは、これらの要約ポイントは抽象的であり、単に文書から文章をコピーするだけではないということです。

We construct a corpus of document–query–answer triples by turning these bullet points into Cloze [12] style questions by replacing one entity at a time with a placeholder. This results in a combined corpus of roughly 1M data points (Table 1).


Code to replicate our datasets—and to apply this method to other sources—is available online3.


  ドキュメント-クエリ-回答 のコーパス構築はどのようなものか

  • CNNから9万3000の記事を取得したとあるが、そこから約30万のデータセットを生成している、どうやっているのだろうか?
  • 生成後のコーパスから、生成前の記事を調べてみる


  • 生成前の記事には本文の要約が3文並んでいる
  • 同じURLで生成後の記事を検索すると、3つ出てくる。9万3000記事×1記事につき要約文の数3=27万9000記事
Story Highlights
Rick Steves produces 30 guidebooks on European travel
Since 1973 he's spent 120 days a year in Europe
His company, Europe Through the Back Door, conducts European tours
  • ちょうど以下の部分をPythonとXpathで取得している


  • 0000f9bca2d96f6aca145d314589fb5cff5039cf.question
    • 上記を適当なところで折り返し

+ クリックで展開