LLMの進化において、長大なコンテキストの処理は常にハードウェアの物理的な限界との戦いでした。数百万トークンに対応したと謳う最新モデルが次々と発表されていますが、その裏では膨大な計算資源とGPUのメモリ領域が力技で消費されています。このスケーリングの壁を根本から破壊する画期的なブレイクスルーとして、Googleの研究チームが発表した論文「Leave No Context Behind」にて提唱された新たなアーキテクチャ「Infini-attention」が技術者の間で大きな話題を呼んでいます。
本記事では、この技術がどのようにして無限長の入力を一定のメモリサイズで処理しているのか、また従来のアテンション機構が抱えていた数学的なボトルネックをどう解決したのか、そのアルゴリズムの深淵を論理的に解き明かします。
無限長の入力シーケンスを一定メモリで処理する圧縮メモリ機構の実態
Infini-attentionの最大の技術的ブレイクスルーは、従来のTransformerが採用していた標準的なアテンション機構に対して、計算レイヤーの内部に「圧縮メモリ(Compressive Memory)」という概念を統合した点にあります。これまでのモデルは、過去の入力データを処理する際、その情報をそのまま巨大な行列として保持し続ける必要がありました。しかしInfini-attentionでは、直近のコンテキストを処理する「マスクされたローカルアテンション」と、過去の全履歴を固定サイズのメモリに圧縮して保持する「長期線形アテンション」を、単一のTransformerブロック内で同時に実行します。
内部のアルゴリズムとしては、標準的なアテンション計算で生成されるクエリ(Q)、キー(K)、バリュー(V)の各状態を再利用します。ローカルな文脈の処理が終わった後、通常であれば破棄、あるいはそのままキャッシュとして積み上げられるKとVのテンソルを、固定次元のメモリ行列に圧縮して格納するのです。具体的には、セグメント$s$におけるメモリ行列
$$M_s$$
と正規化項
$$z_s$$
は、非線形活性化関数
$$\sigma$$
を用いて以下のように逐次更新されます。
$$M_s=M_{s-1}+\sigma(K_s)^TV_s$$
$$z_s=z_{s-1}+\sum\sigma(K_s)$$
そして次のセグメントを処理する際、新たなクエリ
$$Q$$
はこの圧縮メモリに対して検索を行い、過去の文脈を定数時間の計算で引き出します。この巧妙な状態共有の仕組みにより、パラメータ数8B(80億)クラスのモデルであっても、50万単語にも及ぶ書籍全体の要約タスクでSOTA(State-of-the-Art)を達成し、さらに100万トークンの入力から特定の情報を引き出すパスキー検索テストにおいて極めて高い精度を記録するという、驚異的なベンチマーク結果を叩き出しました。
従来のTransformerが抱える計算コストのボトルネックと線形アテンションによる解決
なぜこのようなアーキテクチャの刷新が必要だったのかを理解するためには、従来のTransformerが抱えていた致命的な計算上のボトルネックを知る必要があります。通常のアテンション機構(Scaled Dot-Product Attention)は、入力されるシーケンス長$N$に対して、計算量およびメモリ使用量が二次関数的、すなわち
$$O(N^2)$$
で爆発的に増加するという数学的性質を持っています。長文脈を処理するために「KVキャッシュ」と呼ばれる手法を用いて過去の計算結果をGPUのVRAMに保持しようとすると、100万トークン規模の処理では数百ギガバイトのメモリ領域が要求され、事実上、単一のハードウェアでの推論は不可能に陥ります。
実務において、例えば都市計画法や建築基準法といった極めて膨大な法務ドキュメントを丸ごとAIに読み込ませて網羅的な法的要件の分析を行わせたり、Obsidianなどのナレッジ管理ツールに長年蓄積した数万文字におよぶローカルデータを一括で横断的に処理させたりする際、これまでのアーキテクチャでは必ずコンテキスト長の制限やVRAMの枯渇という強固な壁に直面していました。
Infini-attentionはこの問題を、計算の複雑さを線形
$$O(N)$$
に抑えることで完全に解決しました。過去のトークン数が増加しても、情報を蓄積する行列
$$M_s$$
の次元数は常に一定(定数サイズ)に保たれます。つまり、どれほど長いドキュメントを読み込ませても、消費されるメモリのフットプリントはそれ以上増加しません。ローカルアテンションによる高精度な近傍コンテキストの把握と、線形アテンションを用いた固定サイズメモリからの広域コンテキストの抽出を組み合わせることで、ハードウェアの増強に頼らずに無限の文脈を捉えることを論理的に可能にしたのです。
圧縮情報の損失リスクとストリーミング処理が切り拓く次世代AIの展望
しかし、この技術にも技術的な課題や限界が存在します。数百万トークンという膨大な情報を固定サイズの行列空間に押し込む「圧縮」という性質上、データの微細な解像度は必然的に低下します。人間の脳が「過去の出来事の概要(要点)は完璧に覚えているが、一言一句正確な会話のテキストまでは再現できない」のと同じように、Infini-attentionの圧縮メモリも、全体を俯瞰するような要約タスクや、意図的に埋め込まれた目立つパスキーの抽出には極めて強力に作用しますが、無数に散りばめられた微細で複雑な事実関係を、一切の欠落なく正確に保持し続けることにおいては、完全なKVキャッシュを保持するモデルに理論上劣る可能性があります。
それでも、このアーキテクチャが示す今後のAI研究の方向性は極めて明確です。それは「静的なコンテキストウィンドウ」からの脱却と、「ストリーミング処理型LLM」への完全な移行です。モデルが起動している間、入力されるテキストや音声をリアルタイムかつ無限に読み込み続け、古い情報を自動的に圧縮メモリへと退避させながら推論を行う。これにより、セッションが切れるたびに数万トークンのプロンプトを最初から再入力してコンテキストを再構築するといった現在の非効率な処理は過去のものとなり、真の意味で「文脈を引き継ぎ続ける」常時稼働型のAIエージェントが現実の技術として実装されるフェーズに入ったと言えます。
継続的プレトレーニングによる既存モデルへの統合とローカル環境での活用
開発者やエンジニアにとって、このInfini-attentionの最も魅力的な実践的インサイトは、これがゼロからの莫大な計算資源を投じた学習(フルスクラッチの事前学習)を必ずしも必要としない「プラグアンドプレイ」の特性を備えている点です。論文内でも示されている通り、標準的なアテンション機構を採用している既存のオープンソースLLM(Llamaアーキテクチャなど)に対して、この圧縮メモリのモジュールを後付けで挿入し、比較的小規模な「継続的プレトレーニング(Continual Pre-training)」を施すだけで、既存の推論能力を維持したまま無限コンテキスト対応モデルへと適応させることが可能です。
現在、GitHubなどのオープンソースコミュニティでは、このInfini-attentionの仕組みをPyTorchなどで再現し、ローカル環境で稼働する軽量モデルに統合しようとする動きが活発化しています。技術者としては、巨大なコンテキストウィンドウを力技で提供する商用APIに依存するだけでなく、限られたローカルVRAM環境下で巨大なドキュメント群を処理するための技術スタックとして、こうした線形アテンションや圧縮メモリベースのアーキテクチャの派生リポジトリを注視し、自社のRAG(検索拡張生成)パイプラインの代替手段として検証を進めることが強く推奨されます。
まとめ
Googleが提示したInfini-attentionは、LLMの推論能力とメモリ消費量の間に存在したトレードオフの呪縛を断ち切る、極めてエレガントな数学的アプローチです。既存のTransformerの計算構造を大きく破壊することなく、定数サイズの圧縮メモリを内部に寄生させることで無限の文脈処理を実現した本手法は、テキスト処理の限界を押し広げるだけでなく、今後のLLMアーキテクチャ設計における新たなデファクトスタンダードとなる可能性を十分に秘めています。
Google Research・Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention



コメント