2024年は、AIテクノロジーがさらに大きな発展を遂げた年でした。大規模言語モデル(Large Language Model、以下LLM)の性能向上、価格低下、実用化の進展など、さまざまな変化が起りました。
今回は、こうしたLLMの進化について、著名なソフトウェアエンジニアであるサイモン・ウィリソン氏の洞察に基づいて解説します。ウィリソン氏は、オープンソースのデータ探索・分析ツール「Datasette」の開発者として知られ、AI技術の実装と応用に関する豊富な実践経験を持つエンジニアです。彼のブログは、最新のAI技術動向を実務者の視点から分析する貴重な情報源として高い評価を得ています。
今回取り上げる「LLMについて2024年に学んだこと(Things we learned about LLMs in 2024)」という記事では、2024年のLLM分野における重要な進展が包括的にまとめられています。
この記事から特に注目すべき進展と洞察を紹介し、これらの変化が私たちのビジネスや社会に与える影響を探っていきます。
1. GPT-4の性能の壁を越える
2023年末の時点ではGPT-4は既に公開からすでに9ヶ月経過していたのにもかかわらず、その性能を超えるモデルは存在しませんでした。しかし、この1年で状況は大きく変わりました。ユーザーの投票でランキングを決めるChatbot Arenaのランキングで、現時点では18の組織からの70のモデルがGPT-4を上回っています。
特筆すべきは、これらのモデルは単に性能が向上しただけではなく、コンテキスト長の大幅な拡張(最大200万トークンのGemini 1.5Pro)や、ビデオ入力への対応など、新しい機能も実現し、LLMで解決可能な問題の範囲を劇的に広げたことです。
2. 競争と効率化による急激なLLM価格低下
2024年、LLMの利用価格は劇的に低下しました。例えば、OpenAIのGPT-4は2023年12月時点で100万入力トークンあたり30ドルでしたが、2024年末には2.50ドルまで下がりました。GoogleのGemini 1.5 Flashは 0.075ドルとさらに低価格なサービスを提供し、AI技術の民主化が大きく進展しました。
3. マルチモーダルの進展
2024年、ほぼすべての主要なAIプロバイダーがマルチモーダルLLMを市場導入しました。画像認識に加え、音声入出力やビデオ処理機能を備えたモデルが登場し、より自然なインターフェースでAIと対話できるようになりました。最近では、リアルタイムカメラ機能を通じた対話型AIも登場しています。
4. プロンプトによるアプリケーション生成の普及
AnthropicのClaude Artifactsを皮切りに、適切なプロンプトを与えるだけで、完全なインタラクティブアプリケーションを作成できる機能が一般化しました。GitHub SparkやMistral のCanvaなど、多くのプラットフォームがこの機能を実装し、開発者の生産性向上に貢献しています。
5. 短命に終わった最高位モデルへの無償アクセス
2024年中頃、GPT-4、Claude 3.5 Sonnet、Google Gemini 1.5 Proなど、各社からの最高性能モデルが一時的に無料で利用可能になりました。しかし、OpenAIが12月に最高性能モデルo1 Proにアクセスできる月額200ドルのサブスクリプションサービス ChatGPT Pro を開始したことで、この時代は終わりを告げました。
o1シリーズ (および将来のモデル) は、より良い結果を得るために、より多くの計算コストをかける方式をとっているので、こうした最高位モデルへの無料アクセスが復活する可能性は低いと考えられます。
6. AIエージェントはまだ実現していない
AIエージェントは生成AIの次のステージとして大きな注目を集めていますが、明確な定義がなく、人によって解釈が異なるため、混乱を招きがちです。一般的には、旅行代理店のように、ユーザーに代わって行動するAIがイメージされることが多いようです。
ウィリソン氏は、現状でのAIエージェントの有用性について懐疑的です。問題はLLMの「騙されやすさ」です。LLMは、与えられた情報を鵜呑みにする傾向があります。虚実を見分けられない旅行代理店やデジタルアシスタントに仕事を任せられるでしょうか?
プロンプトインジェクションも、この「騙されやすさ」によって発生する問題です。これは攻撃者が巧妙に作成した入力を用いてAIシステムを操作し、開発者の意図しない動作を引き起こす問題です。この攻撃により、AIが本来の意図から逸脱した回答を生成したり、機密情報を漏洩したりする危険性があります。ウィリソン氏は、2024年も、この問題に対する解決策はほとんど見られなかったと指摘しています。
7. 「推論」モデルの台頭
2024年後半には、OpenAIのo1モデルに代表される新しいタイプのモデルが登場しました。o1モデルは、「思考連鎖」プロンプトの仕組みを拡張したものです。これは、モデルに問題解決のプロセスを語らせると、今まで間違えていた問題でも正解にたどり着けるようになるという知見に基づくものです。
o1モデルは、この「思考連鎖」による問題解決のプロセスをモデル自体に組み込んでいます。ユーザーには直接見えない「推論トークン」を使って問題を考え、最終的な結果を出力します。
この革新的な点は、モデルのスケーリング方法に新たな道を開いたことです。トレーニング時の計算量を増やすだけでなく、推論に多くの計算時間を費やすことで、より困難な問題に取り組めるようになりました。
(o1やそれに続くo3モデルについては、こちらの記事もご覧ください)
8. トレーニングコスト600万ドル未満で最高クラスの性能を達成した中国発LLM
中国のAI企業であるDeepSeek v3は、2024年末に公開された6850億パラメータのオープンソースのLLMです。ベンチマークでは、Claude 3.5 Sonnetと同等の性能を示し、オープンライセンスのモデルとしては最高のChatbot Arenaランキング7位を獲得しました。
DeepSeek v3の最大の特徴は、トレーニングコストの低さです。推定557万6000ドルでトレーニングされており、同程度の性能を持つLlama 3.1 405Bのトレーニングコストの1/11に過ぎません。
これは、米国が課している中国へのGPU輸出規制によって、LLMのトレーニング手法の効率化が追求された結果と言えるかもしれません。
9. 環境負荷の改善と悪化
モデルの効率化により、プロンプトの実行に伴うエネルギー消費量は大幅に減少しました。
しかし、将来のモデル開発に必要なインフラストラクチャの競争的な整備は、環境に大きな影響を与えています。Google、Meta、Microsoft、Amazonなどの企業は、新しいデータセンターの構築に数十億ドルを費やしており、電力網と環境への影響は深刻です。
ウィリソン氏は、現在のデータセンター乱立の状況は、1800年代に世界中で鉄道が敷設されたときの状況と似ていると言います。鉄道の建設には巨額の投資と環境への多大な影響が伴いましたが、建設された路線の多くが無駄になりました。 異なる企業が同じルートに複数の路線を建設したケースもありました。 その結果、いくつかの金融危機が発生し、多くの破産、環境破壊が生じました。
10. 「スロップ」の蔓延
2024年、AI生成コンテンツの質の問題を表す「スロップ(slop)」という用語が定着しました。スロップは残飯や汚水を意味する言葉で、「スパム」が迷惑メールを表す用語になったように、「スロップ」はAIが生成した不要なコンテンツを表す用語として広く使われるようになっています。
11. 合成トレーニングデータの有効性
AI生成コンテンツがインターネット上に溢れかえることで、モデル自身が自身の出力でトレーニングされ、性能が低下するという「モデルの崩壊」が懸念されていました。
しかし実際には、AI開発企業は、モデルを適切に方向付けるために、意図的に人工データを作成する「合成コンテンツ」をトレーニングにますます活用するようになっています。合成データは、インターネットからかき集めた一般データよりも、構造化されていて、段階的な学習に有効だと考えられています。
12. LLMの使いにくさは悪化
LLMは、チャット形式でメッセージを入れれば良いだけなので、一見使い方が簡単そうに見えますが、実際には、その能力を最大限に引き出し、落とし穴を避けるためには、深い理解と経験が必要です。
LLMは「たいていは」正しい回答を返してくれますが、それは質問の内容、質問の仕方、そして答えがトレーニングセットに含まれているかに依存しています。
2024年には、利用可能なシステムが爆発的に増加しましたが、システムによって使用できるツールも異なるため、LLMはさらに使いにくくなったといえます。
LLMの仕組みや能力について誤った認識を持っている人が多く、議論で自分が正しいことを示すためにChatGPTの回答を証拠として見せる人がいます。一方で、LLMの欠陥を理由に、LLMを完全に否定する人もいます。どちらも、賢明な考え方とはいえません。
LLMを最大限に活用するためには、LLMは本質的に信頼性が低いが、同時に非常に強力な技術であることを認識することが重要です。
13. LLMに関する知識の格差
ほとんどの人がChatGPTは聞いたことがあると思いますが、Claudeは聞いたことがないという人が大勢います。AIについてフォローしている人と、そうでない大部分の人たちの知識のギャップは非常に大きくなっています。このテクノロジーが社会に与える影響を考えると、このギャップの大きさが健全だとは考えられません。
14. LLMには健全な批判が必要
環境への影響、トレーニングデータ取得にかかわる倫理の問題、信頼性の欠如、悪用、雇用への影響など、LLMには多くの批判があります。ウィリソン氏は、AIに関する誇大宣伝が横行している現状において、健全な批判は必要だと言います。
しかし、彼は、LLM分野全体が環境にとって破滅的で、盗作に基づくマシンであり、常にでっち上げを生んでいるとするような言い方は、それがどれほど真実を含んでいようとも、世のためにならないとも言っています。LLMには、本物の価値があり、その価値を見出すには教育が必要なのです。
おわりに
2024年は、AIテクノロジーの可能性と課題が同時に明らかになった年でした。モデルの性能向上や価格低下により、AIの実用化が大きく前進した一方で、信頼性、環境負荷、使いやすさなど、解決すべき課題が残っています。
2025年以降も、AIテクノロジーは進化を続けるでしょう。しかし、その進化の方向性を決めるのは、私たち利用者の賢明な判断と選択です。技術の可能性を最大限に活かしながら、その課題にも配慮した活用を心がけていく必要があります。
