Skip to content
馬場 高志2024/11/08 10:00:001 min read

AIの進歩に立ち塞がる「データの壁」: Scale AIの取り組み|イノーバウィークリーAIインサイト -26

はじめに

最先端の大規模言語モデル(LLM)開発を支える3本の柱は、アルゴリズム、計算能力、そしてデータです。モデルのアルゴリズムやアーキテクチャーの革新はOpenAI、Google、Anthropic、Metaなどの研究所が、計算能力向上のためのイノベーションはNVIDIAが担っていることはよく知られています。しかし、データの問題についてはあまり注目されていません。

 

今回の記事では、LLMの学習データをめぐる問題の解決を目指す、Scale AIという企業を紹介します。Scale AIは、最先端LLM開発に不可欠な高品質データを提供することで、AI業界の発展に大きく貢献しています。

 

「データの壁」

LLMの性能向上には、より多くの高品質なデータが必要です。OpenAIなどのフロンティアモデルを開発する企業は、主にインターネット上に存在する人間が作った膨大なデータを収集してLLMの学習に使用してきました。しかし、近年、学習に必要なデータが枯渇しつつあるという懸念が広がっています。データ枯渇問題について、スタンフォード大学のAI Indexレポート2024年版はAI研究機関Epochの調査を引用し、次のように予測しています:

 

「(Epochの)研究者たちは、高品質な言語データのストックが2024年までに枯渇し、低品質な言語データも20年以内に使い果たされ、さらに画像データも2030年代後半から2040年代半ばまでに使い切られると推定しています。

 

OpenAIなど先端LLM企業は、モデルのサイズや計算量を増加させることでLLMの性能が向上し新たな能力を獲得するというスケーリング則が、まだまだ続くと予測していますが、近づく「データの壁」がAIのさらなる進歩を妨げる可能性があるのです。

 

この問題に対する一つの解決策として、合成データ (Synthetic Data)が注目されています。これは、LLMによって生成されたデータを、次世代のLLMの開発に利用するというアイディアです。

 

しかし、合成データにも課題があります。例えば、「モデル崩壊」と呼ばれる現象が起こる可能性があります。英オックスフォード大学や英ケンブリッジ大学などに所属する研究者らが発表した論文によれば、LLMが自己生成したデータで繰り返し学習すると、モデルの性能が低下していく現象が現れます。「モデル崩壊」とは、LLMが生成したデータが次世代の訓練データを汚染し、世代を重ねるごとに元の真のデータ分布から逸脱して現実を誤認していく退行的なプロセスを意味します。

 

このような背景から、高品質なデータを効率的に生成し、最先端AIモデルの開発を支援する企業の重要性が高まっています。その代表的な企業の一つがScale AIです。

 

Scale AIの概要

Scale AIは、2016年にアレグザンダー・ワンとルーシー・グオによって設立されました。(ルーシー・グオは2018年に退社しています)。Scale AIは前回ご紹介したY Combinatorの支援を受けて起業した会社の一つです。ワン氏はScale AI創設時にわずか19歳のMITの学生でしたが、AIの可能性に魅了され、大学を中退して起業しました。

 

Scale AIのその後の成功は目覚ましく、年間経常収益は2024年末までに1,400万ドル(1ドル150円換算で約2,100億円)のレベルに達する見込みとのことです。従業員数は900人を超え、AI業界で急成長を遂げている注目企業の一つです。Scale AIは2024年5月に10億ドルの追加資金調達に成功し、企業価値評価は138億ドル(同、約2兆700億円)に達しました。尚、前回2021年に資金調達をした時の価値評価は73億ドルでしたが、同社株式の14%を保有するワン氏は当時24歳で史上最年少のビリオネア起業家と言われました。

 

Scale AIは当初、自動運転車の開発で必要な画像データへのラベル付けの需要に着目し、事業を展開しました。その後、OpenAIをはじめとする多くのAI開発企業にサービスを提供し、事業領域を拡大してきました。現在では、Microsoft、Meta、NVIDIA、トヨタ、GMなど、多くの大手企業が顧客として名を連ねています。

 

Scale AIは自社を「AIのデータファウンドリー(データ工場)」と位置づけています。これは、半導体産業における「ファウンドリー」(製造受託企業)になぞらえたもので、高品質なデータを大量に生産し、AI開発企業に提供する役割を指しています。

 

Scale AIの製品サービス

Scale AIは、多岐にわたるデータ関連サービスを提供しています:

 

1.データアノテーション

画像、動画、テキスト、地図、3D画像などの非構造化データに対して、高精度の注釈付けを行います。

 

2.データキュレーション

モデルのテストや評価、ツールの比較などを行い、モデル訓練に重要な対象や領域のみにラベルを付けます。

 

3.人間のフィードバックによる強化学習(Reinforcement Learning from Human Feedback: RLHF)

AI専門家がモデルの出力を評価し、定義されたベンチマークに対するパフォーマンスを判断します。

 

4.モデル評価

「レッドチーム(攻撃者の視点から疑似的なサイバー攻撃を行うチーム)」のアプローチを用いて、モデルのリスクや脆弱性を特定します。

 

5.生成AIデータセットの作成

各モデルやプロジェクトに合わせてカスタマイズされた高品質データセットを作成します。

 

 

Scale AIはこれらのサービスをターゲット別に次のような製品として提供しています:

 

Scale Data Engine

機械学習モデル開発企業向けに、データ収集、キュレーション、アノテーション、RLHF、モデル評価を含む、エンドツーエンドのプロセスを提供

 

Scale GenAI Platform

一般企業向けの独自データを活用して生成AIアプリケーションを開発するためのプラットフォーム

 

Scale Donovan

国家安全保障や政府機関向けに、LLMを使用して大量の既存データを抽出・処理するプラットフォーム

 

今後の方向性

Scale AIのアレグザンダー・ワンCEOは、最近のインタビューで、今後のAI業界の方向性とScale AIの注力する領域について語っています。

 

ワン氏は、インターネット上で入手可能データが枯渇する「データの壁」を乗り越えるためには、新たな訓練データの生産が重要になると考えています。また、最先端LLM開発企業が、単にモデルサイズや計算量を拡大で競争するフェーズは終わり、各社が特色を持ったモデルアーキテクチャーのイノベーションで勝負するフェーズに入っていると考えています。

 

モデルに新たな能力を発揮させるためには、適切なデータが必要です。例えば、最近、AIエージェントが注目を集めていますが、まだ本当に問題なく使えるAIエージェントは開発されていません。開発に必要な複雑なデータが不足しているからです。人間は複雑な問題を解決するとき、様々なツールを使い、物事を考え、次に何が起こるべきかを推論し、エラーや失敗にぶつかり、そしてまた戻って考え直すなど、推論の連鎖を行っています。そうしたデータは、インターネット上には存在しません。

 

こうしたデータは人間が作成する必要があります。この課題に対処するため、Scale AIは現在、多数の博士号取得者や弁護士、会計士など各分野の専門家のネットワークを構築しています。

 

ワン氏は、合成データの活用も重要だと考えていますが、合成データだけでなく、人間がループに入ったハイブリッドなデータの作成を目指しています。AIが生成したデータを人間の専門家が検証し、必要に応じて修正や補完を行うアプローチです。このハイブリッドなアプローチにより、大量のデータを効率的に生成しつつ、人間の専門知識や判断力を活かした高品質なデータセットを作成することができます。これは、AIモデルの性能向上と信頼性確保の両立を可能にする重要な戦略です。

 

また、ワン氏は、リスクに対処し、セキュリティを向上させるためのモデルの測定と評価にますます重点を置いていると言っています。現在のモデルには何ができていないのか、モデルのパフォーマンスを向上させるためにはどのようなデータを追加する必要があるのかについて、もっと科学的に考える必要があるのです。

 

おわりに

Scale AIは、高品質なデータ不足というLLM開発における大きな課題に対し、独自のプラットフォームと専門家ネットワークを駆使して解決を目指しています。単にデータ量を増やすだけでなく、データの質と多様性を重視するこのアプローチは、今後のAI開発に以下のような観点から大きな影響を与えるでしょう。

 

1.AIの専門性向上

各分野の専門家が関与することで、法律、医療、金融などの専門分野におけるAIの性能が飛躍的に向上する可能性があります。これにより、AIの実用性が高まり、より多くの産業でAIの導入が進むでしょう。

 

2.AIの倫理性と安全性の改善

人間の専門家による評価と検証を通じて、AIの倫理的な判断能力や安全性が向上すると考えられます。これは、AIの社会実装を進める上で極めて重要な要素となります。

 

3.新しいAI能力の開発

人間の複雑な思考プロセスをデータ化することで、これまでAIが苦手としていた推論や計画を要するタスクにおいて、新たなブレークスルーが生まれる可能性があります。

 

4.AIの多様性と包括性の向上

様々な背景を持つ専門家の知見を取り入れることで、文化的バイアスの少ない、より包括的なAIの開発が促進されるでしょう。

 

人間の専門知識とAI技術の融合が、より信頼性が高く、社会に受け入れられやすいAIの開発につながることが期待されます。

avatar

馬場 高志

1982年に富士通に入社、シリコンバレーに通算9年駐在し、マーケティング、海外IT企業との提携、子会社経営管理などの業務に携わったほか、本社でIR(投資家向け広報)を担当した。現在はフリーランスで、海外のテクノロジーとビジネスの最新動向について調査、情報発信を行っている。 早稲田大学政経学部卒業。ペンシルバニア大学ウォートン校MBA(ファイナンス専攻)。