FreeStyleWiki

Teaching Machines to Read and Comprehend

[機械学習]

Teaching Machines to Read and Comprehend

  機械学習に使われたソースコード

  CNN/デイリーメールのデータセットとは

2015年発表の研究のようだ

2 Supervised training data for reading comprehension

2 読解のための教師あり学習のデータ

Here we propose a methodology for creating real-world, large scale supervised training data for learning reading comprehension models.

ここに我々は、実際の世界のための読解モデル構築のための大規模な教師あり学習データを作成した方式を提示する。

Inspired by work in summarisation [10, 11], we create two machine reading corpora by exploiting online newspaper articles and their matching summaries.

"summarisation"の実績に感化され、我々はオンラインの新聞記事とそれに対応する要約を活用して、2つの機械読み取りコーパス(※言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。)を作成します。

We have collected 93k articles from the CNN1 and 220k articles from the Daily Mail2 websites.

CNNから9万3000の記事、Daily MailのWebサイトから2万2000の記事を収集しました。

Both news providers supplement their articles with a number of bullet points, summarising aspects of the information contained in the article. Of key importance is that these summary points are abstractive and do not simply copy sentences from the documents.

どちらのニュースプロバイダーも、いくつかの箇条書きで記事を補足し、記事に含まれる情報の側面を要約しています。 重要なことは、これらの要約ポイントは抽象的であり、単に文書から文章をコピーするだけではないということです。

We construct a corpus of document–query–answer triples by turning these bullet points into Cloze [12] style questions by replacing one entity at a time with a placeholder. This results in a combined corpus of roughly 1M data points (Table 1).

一度に1つのエンティティをプレースホルダーで置き換えることにより、これらの箇条書きをClozeスタイルの質問(穴埋め問題)に変えて、ドキュメント-クエリ-回答のトリプルのコーパスを構築します。これにより、約100万のデータポイントを組み合わせたコーパスになります(表1)。

Code to replicate our datasets—and to apply this method to other sources—is available online3.

データセットを複製し、この方法を他のソースに適用するためのコードは、オンラインで入手できます

  ドキュメント-クエリ-回答 のコーパス構築はどのようなものか

  • CNNから9万3000の記事を取得したとあるが、そこから約30万のデータセットを生成している、どうやっているのだろうか?
  • 生成後のコーパスから、生成前の記事を調べてみる

生成前

  • 生成前の記事には本文の要約が3文並んでいる
  • 同じURLで生成後の記事を検索すると、3つ出てくる。9万3000記事×1記事につき要約文の数3=27万9000記事
Story Highlights
Rick Steves produces 30 guidebooks on European travel
Since 1973 he's spent 120 days a year in Europe
His company, Europe Through the Back Door, conducts European tours
  • ちょうど以下の部分をPythonとXpathで取得している

生成後

  • 0000f9bca2d96f6aca145d314589fb5cff5039cf.question
    • 上記を適当なところで折り返し

+ クリックで展開