LSA (Latent Semantic Analysis = 潜在意味解析)
- やりたいこと
- 複数文を投入し、概要的・抽象的にまとめる
Does an algorithm exist to help detect the “primary topic” of an English sentence?
基本的なNLP構文解析手法のほとんどは、文の基本的な側面を抽出できます。つまり、鶏肉と七面鳥はNP(noun phrase=名詞句)であり、「のような」などの形容詞でリンクされています。これらを「トピック」または「概念」に変換するということはもっと難しい。
潜在意味解析やその多くの派生物などの手法は、この情報をベクトルに変換し(一部には品詞間の階層/関係を保持する方法があります)、既存の、通常は概念によって事前に分類されたベクトルと比較します。 入門には、http://en.wikipedia.org/wiki/Latent_semantic_analysisを参照してください。
編集これは、さらに追求したいかどうかを確認するために試してみることができるLSAアプリの例です。 ""http://lsi.research.telcordia.com/lsi/demos.html
- gensimの実装
- models.ldamodel – Latent Dirichlet Allocation
- Extracting Topic distribution from gensim LDA model
- 入力文章のトピックを確率分布で出せそうには見える→おそらく文章化はできない