メインコンテンツに移動

なぜ「全知」の大規模言語モデルは二流のフォーキャスターとなるのか

多数の実験結果から、大規模言語モデル(LLM)は時系列予測には不向きであることが示唆されています。

Tangle of wires and paths suggesting an AI network

8月上旬、OpenAIは自社の大規模言語モデル(LLM)の最新バージョンであるGPT-5を発表しました。その可能性は、ほとんどのトピックにおいて博士号取得者並みの知識を持つAIアシスタントとして、洗練されたウェブアプリを数分でコーディングでき、医療関連の質問への回答精度が多くの医師を上回るなど、多岐にわたります。

GPT-5や同種のLLMは、存在する知識の大半を把握しています。しかし、定量金融分野における一部の応用では、この広範な学習が弱点となることが判明しています。

金融市場の実務家や学識者らは、インフレ率や金利、株価の推移といった時系列データの予測にLLMを活用する方法を模索してきました。しかし、こうしたモデルがこの課題に不向きであることが次第に明らかになってきています。

バージニア大学とワシントン大学の研究者による昨年の研究では、LLMコンポーネントを除去したモデルが、LLMを含む同等のモデルと同等の予測精度を達成することが確認されました。

LLMは過去データ(もはや関連性のない可能性のあるデータ)を可能な限り多く学習します。それらは真に適応することができません。
アレクサンダー・デナフ(ターンリーフ・アナリティクス)

研究者がモデルへの時系列入力データをランダムに並べ替えても、LLMと他のモデルタイプとの間に差は生じませんでした。これは言語モデルがデータの連続パターンを特別に理解していないことを示唆しています。

「LLMは大きく進化してきましたが、ハンマーを持っていると、あらゆる問題が釘のように見えてしまうものです」と語るのは、機械学習と代替データを活用したマクロ経済・インフレ予測企業、ターンリーフ・アナリティクスの共同創業者、アレクサンダー・デネフ氏です。

デネフ氏らはインフレ予測テストを実施し、GoogleやAmazonのいわゆるゼロショット時系列対応LLMモデルを、ChatGPTのような汎用ツールや自社開発のより単純な機械学習モデルと比較しました。「比較の対象になりません」とデネフ氏は指摘します。「これらのLLMモデルの誤差は非常に大きいのです」

ただし、デネフ氏を含むクオンツたちは、LLMが特定の用途では非常に有用である点を明確にしています。例えば、インターネットから入手困難なデータセットを掘り起こすことや、不慣れなトピックについて短時間で理解を深めることなどが挙げられます。

しかし未来予測となると、その膨大な知識の重みに押し潰されてしまいます。「LLMは過去まで遡れる限りのデータで学習しますが、そのデータはもはや関連性がない可能性があります」とデネフ氏は説明します。「適応することができないのです」

一部の機械学習研究者は、LLMが限られたデータでより優れた予測を行い、推論を適用して精度を高められると期待していました。楽観論者たちは、電力消費量から気象パターン、金融分野ではあらゆるマクロ経済データや市場データまで、予測課題解決にLLMを活用しようと計画していました。

しかし、さらなる調査により、致命的な弱点と思われるものが明らかになりました。それは、LLMが「知っていることを知らない状態に戻せない」という点です。

予測モデルのバックテストでは、クオンツはモデルが当時保有していた情報のみを用いて予測をどれだけ正確に行えるか検証する必要があります。しかしLLMは現在までのデータで訓練されているため、クオンツはモデルが検証時にその知識を活用していないと確信できません。これはテストにおいていわゆる「先読みバイアス」や「ピーク先読みバイアス」を排除することに細心の注意を払うクオンツにとって、おなじみの問題です。

パラメータが少ないシンプルなモデルは、構造上変更が迅速です
アレクサンダー・デナフ(ターンリーフ・アナリティクス)

デナブ氏は「LLMには特定の時点を捉える概念が存在しない」と述べています。

第二の問題は、金融市場データの非定常性に起因します。これは、市場パターンが過去から乖離する速度、頻度、程度を指します。言語の変化は緩やかです。オックスフォード英語辞典は、50万語以上の語彙に年間数百語の新語を追加する程度です。一方、金融分野では、米国の関税のような要因が一夜にして経済や市場の動きを変える可能性があります。

LLMは現状を高度に正確に理解できるよう、膨大なデータで訓練されます。そのため現状が変化したことを認識するには、大量の新規データを収集する必要があります。

新たなデータへの再調整要素が少ないシンプルなモデルほど適応が速い。「パラメータが少ない単純なモデルは、構造上変化が速い」とデネフ氏は述べる。1月にはインフレ対策として投資家が金株を買い進め、株価が急騰した。金株と少数のデータセットでインフレを予測するモデルは、こうした変化をより迅速に捉えられると同氏は説明する。

より複雑なモデルを運用する時間とコストは、その価値に見合わないものです。「過剰な処理です」と彼は指摘します。「わずかな、あるいは全くない利点のために、計算コストが高く、学習が困難なのです」

こうした欠点を改善する手法は存在します。例えばバックテストでは、より単純なモデルを一から構築し、特定の時点まで学習させた後、予測能力をテストします。その後、さらに一歩学習を進め、再度テストする、という手順を繰り返すアプローチがあります。ただし、この手法を実用化するには、モデルが基礎的なものである必要があります。

ブラックロックのシステマティック投資チーム共同最高投資責任者であるジェフ・シェン氏は、これを「高校生レベルの能力までモデルを訓練する」と表現しています。この手法では、特定のタスクにおいて博士レベルの専門知識に達する可能性を秘めたLLMの多くの利点を放棄することになります。

ブラックロックはLLM予測モデルの実験を経て、より「有望な」機械学習技術であるオンライン学習に注力する方針を選択しました。これらのモデルは、一度に大規模な訓練を行うのではなく、新たな情報を取り込むたびに継続的に自己更新を行います。

シェン氏によれば、重要なのは、新たな情報がパラメータの修正にどの程度影響を与えるべきかを判断できるモデルを構築することです。

同氏によれば、ブラックロックでは既にこの手法の一部を導入しており、300の市場変数間のユークリッド距離を追跡することで、現在の市場が歴史上の特定の時期と類似性を持つかどうかを判断し、それに応じてモデルパラメータを更新しているとのことです。

時系列予測においては、すべてを知るモデルよりも、適切な判断ができるモデルの方が優れている可能性が高いようです。

編集:クリス・デヴァサバイ

コンテンツを印刷またはコピーできるのは、有料の購読契約を結んでいるユーザー、または法人購読契約の一員であるユーザーのみです。

これらのオプションやその他の購読特典を利用するには、info@risk.net にお問い合わせいただくか、こちらの購読オプションをご覧ください: http://subscriptions.risk.net/subscribe

現在、このコンテンツをコピーすることはできません。詳しくはinfo@risk.netまでお問い合わせください。

Most read articles loading...

You need to sign in to use this feature. If you don’t have a Risk.net account, please register for a trial.

ログイン
You are currently on corporate access.

To use this feature you will need an individual account. If you have one already please sign in.

Sign in.

Alternatively you can request an individual account here