大規模言語モデル (LLM)
概要
アイシアの動画見たい
試してみたい言語モデル
RWKV
- Transformerの計算量は膨大
- Transformerは大規模分散が可能であるが、そのためにVRAMが大量に必要(要はグラフィックボードが必要)
- RWKV
- RNNでできてる
アイディア
LLMと定理証明器の関係
LLMが数学的推論が非常に不得意なのは,数学的知識体系を構築できないからではないか,という記事
ニューラル ネットワークは、計算を実行したり記号データを操作したりするよりも、
統計的または近似的な問題を解決する方が優れているという評判があります。
この論文では、彼らが記号積分や微分方程式の解法など、数学のより複雑なタスクを驚くほど得意にできることを示します。
数学的問題を表現するための構文と、シーケンスツーシーケンス モデルのトレーニングに使用できる大規模なデータセットを生成する方法を提案します。
私たちは、Matlab や Mathematica などの市販の計算機代数システムを上回る結果を達成します。
➔ 東ロボが使っていたようなTPTPやFOLのような記号体系をLLMに教え込む、もしくはLoRAを作り差し込むような形で強化可能ではないか?