FreeStyleWiki

大規模言語モデル (LLM)

このエントリーをはてなブックマークに追加

[機械学習,LLM]

大規模言語モデル (LLM)

  概要

アイシアの動画見たい

  試してみたい言語モデル

LLaMA
https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
RWKV
完全フリーで3GBのVRAMでも超高速に動く14B大規模言語モデルRWKVを試す
OpenCalm
サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供―

RWKV

  • Transformerの計算量は膨大
  • Transformerは大規模分散が可能であるが、そのためにVRAMが大量に必要(要はグラフィックボードが必要)
RWKV
RNNでできてる

  アイディア

LLMと定理証明器の関係

LLMが数学的推論が非常に不得意なのは,数学的知識体系を構築できないからではないか,という記事

ニューラル ネットワークは、計算を実行したり記号データを操作したりするよりも、

統計的または近似的な問題を解決する方が優れているという評判があります。

この論文では、彼らが記号積分や微分方程式の解法など、数学のより複雑なタスクを驚くほど得意にできることを示します。

数学的問題を表現するための構文と、シーケンスツーシーケンス モデルのトレーニングに使用できる大規模なデータセットを生成する方法を提案します。

私たちは、Matlab や Mathematica などの市販の計算機代数システムを上回る結果を達成します。

➔ 東ロボが使っていたようなTPTPやFOLのような記号体系をLLMに教え込む、もしくはLoRAを作り差し込むような形で強化可能ではないか?

  LLM+LoRA