はじめに
ChatGPT, Claude, Geminiなど最先端の大規模言語モデル(LLM)は、いずれも幅広い領域におけるさまざまな質問に対して、驚くべき知識を示し精度の高い回答を返してくれます。回答の正確性という面では、直観的にモデルの優劣を判定するのは困難ですが、実際に使い比べて見ると、それぞれのモデルには、微妙ではあるものの識別可能な特徴があることが分かります。
私たちがLLMを使って、文章を書いたり、コンセプトを説明したり、エッセイを編集したりするときは、LLMの精度のわずかな優劣よりも、むしろ創造性、トーン、フォーマット、文体などの質的な側面の違いが重要になります。しかし、従来、LLMの性能評価は正確さという指標に偏っており、こうした質的な違いを評価する手段はありませんでした。
カリフォルニア大学バークレー校のAI研究者たちは、最近、このようなLLMの回答の質的側面を比較、分析するVibeCheckと呼ばれるシステムを開発し、その評価結果を論文にまとめました。今回はこの論文の内容をご紹介します。
VibeCheck:LLMの「バイブ」を捉える
この論文の著者たちは、LLMの出力のトーン、フォーマット、文体などの質的な特徴を「バイブ (Vibe: 雰囲気、感じ、ノリ)」と呼んでいます。VibeCheckは、「バイブ」を自動的に発見し、比較するシステムです。
これにより、ユーザーの好みや特定の作業への適合度など、従来の指標では見過ごされてきたLLMの重要な特性を明らかにすることができます。例えば、創作活動ではトーンと創造性が重要である一方、プログラムのコーディング作業では効率性と読みやすさが重要になります。作業に最適なLLMを選択する際に、その作業にとって意味がある評価軸を発見し、測定できるこのような評価方法が役に立ちます。
バイブとは?:LLMの個性を定義づける
「バイブ」は、モデルの出力を区別する特徴的な性質を示す評価軸と定義されています。例えば、「トーン」というバイブは、低ければ「フォーマル」、高ければ「フレンドリー」と判定されます。
VibeCheckでは、2つのLLMを比較することに焦点が当てられています。2つのLLMの回答が識別できるバイブの軸を発見し、それらのバイブの有用性を定量化することによって、2つのモデルのバイブを比較します。
VibeCheckは、以下の3つの基準に基づいてバイブの有用性を評価します。
- 明確性: そのバイブの評価に関して複数の評価者の意見が一致すること
- 差別化: そのバイブに関して、あるLLMの回答が、いくつものプロンプトを通じて、一貫して他のLLMの回答と区別できること。
- ユーザーとの整合性: そのバイブの特性が人間の好みに合致し、その予測に役立つこと
VibeCheckの仕組み:LLMを活用したバイブの発見と評価
VibeCheckは、LLMを活用して以下のステップで有効なバイブを特定していきます。
ステップ1:バイブの発見
- LLM(GPT-4o)を用いて、ランダムに選択されたプロンプトと2つの異なるLLMの出力のペアを分析し、LLMの出力に見られる差異を「バイブ」候補として抽出します。
- 人間がデータ分析を行うように、LLMがプロンプトとそれに対する出力のペアを比較し、異なる点を見つけ出すプロセスです。
ステップ2:バイブの検証
- 発見されたバイブ候補を検証用データに適用し、複数のLLM(GPT-4o-miniとLlama-3-70b)をジャッジとして用いて各バイブにおけるLLMのスコアを計算します。
- このスコアを用いて、各バイブ候補が明確性、差別化、ユーザーとの整合性の基準を満たしているかどうかを評価し、基準を満たさないバイブは除外します。
ステップ3:プロセスの反復
- 既存のバイブでは2つのLLMを十分に区別できない場合、さらなるバイブを発見するために、分析を繰り返します。
- この反復プロセスにより、より詳細なバイブのセットを構築し、LLMの特徴をより良く捉えることができます。
VibeCheckの有効性の検証:人間の評価との整合性
著者たちは、既存の人間によるLLM評価データを用いて、VibeCheckの有効性を検証しました。
The Human ChatGPT Comparison Corpus (HC3)を用いた分析:
HC3とは、様々な分野の質問に対するGPT-3.5の回答と人間の専門家と回答を集めたデータセットです。 HC3データに基づき、GPTと人間の回答の違いについて分析した既存の研究結果とViveCheckで特定されたバイブを比較したところ、多くが一致することが確認されました。これは、VibeCheckが人間の評価と整合性の高いバイブを抽出できることを示唆しています。
Chatbot Arenaにおける分析:
Chatbot Arena(https://lmarena.ai/)は、オープンコミュニティ主導のLLM評価プラットフォームです。 ユーザーは名前を伏せられた2つのLLMに、プロンプトを送信し、どちらの回答が好ましいかを投票します。Chatbot Arenaは、その名の通り、LLMのブラインドテストを行う競技場というわけです。
2024年4月にMetaがオープンソースのLLMであるLlama-3-70bを公開されてほどなく、このLLMは、GPT-4-Turbo、 Gemini 1.5 Pro、Claude 3 Opusといった他の性能ベンチマークではLlama-3-70bを凌駕するLLMを差し置いてChatbot Arenaのリーダーボードのトップに立ちました。
VibeCheckでChatbot Arenaのデータセットを使ってLlama-3-70bをGPT-4およびClaude-3-Opus比較した結果、下記のようなバイブが特定されました。
Llama-3-70b vs GPT-4/Claude-3-Opusの比較で特定されたトップ10バイブ
バイブ |
低い→高い |
Llama-3-70bの特性 |
言葉と口調 |
専門的で直接的なトーン → 熱意がありフレンドリーなトーン |
高 |
印刷表示上の強調 |
印刷上の強調を最小限に抑え、テキストだけで表現する → 太字や斜体などの印刷上の強調を使用して重要なポイントを強調する |
高 |
インタラクティブ性 |
ユーザーを関与させることなく受動的に情報を提供する → 質問を投げかけたり、行動を提案したりするなど、ユーザーのインタラクションを促す |
高 |
書式設定の完全性 |
応答は最小限の書式設定で、プレーンテキストに依存している → 応答には、マークダウンや追加のスタイル要素などの包括的な書式設定が含まれている |
高 |
例示 |
最小限の例 → 複数の例を提供する |
高 |
ユーモアの使用 |
ユーモラスな要素なしで真剣なトーンを維持する → 読者を引き込むために頻繁にユーモアを使用する |
高 |
人称代名詞の使用 |
人称代名詞をほとんど、あるいはまったく使用しない → 人称代名詞(私、私たち、あなた)を頻繁に使用する |
高 |
倫理的配慮 |
倫理についてコメントすることなく、事実に基づいた情報を提供する → 応答に倫理的な配慮を示す |
低 |
謙虚さ |
制限について議論することなく、自信と完全性を示す → 応答の限界や不確実な領域を頻繁に認める |
低 |
形式レベル |
くだけた、または会話的な言語を使用する → 正式な言語と表現を使用する |
低 |
Llama-3-70b は「ユーモラス」、「太字や斜字体などの強調を多用」、「多くの例を提供」、「センシティブで物議を醸すトピックでも回答する」、「倫理や制限事項に関するコメントが少ない」といったバイブ特性を持つことが分かりました。これらのバイブ特性は、ユーザーの好みと合致しており、Llama-3-70bが他のベンチマークではGPT-4やClaudeに劣ることが多いにも関わらず、Chatbot Arenaのブラインドテストで人気が高かった理由を説明していると言えます。
また、Chatbot Arenaのデータを用いた検証によって、VibeCheckは、どちらのLLMかを特定する予測で80%の精度、ユーザーの好みの予測で61%の精度を達成することが実証されました。
VibeCheckの応用:様々な作業におけるバイブ分析
さらに著者たちは、「テキストを要約する」、「数学の問題を解く」、「画像にキャプションを付ける」という3つの作業にVibeCheckを適用し、異なるLLMでどのようなバイブの違いが見られるかを試しました。VibeCheckを使用することで、正確性の指標では同等でも、ユーザーの好みという点では異なるモデル間の洞察に富む質的な違いが明らかになったと報告しています。
例えば、テキスト要約では、CohereのCommand XというLLMは「導入と結論を明確に記述する」「具体的な例を用いる」「多角的な視点を取り入れる」といったユーザーに好まれるバイブを持っています。 数学の問題解決では、Llama-405bは思考過程を冗長に説明する傾向があり、これはこのタスクで好まれる「簡潔さ」というバイブに反しています。画像のキャプション付けタスクにおいては、GPT-4Vは「画像の
雰囲気や感情を重視」、「詳細な情景描写」、「物語要素を含む」といったバイブを持っているのに対し、Geminiは文字通りの描写に留まっていました。
VibeCheckの問題点
VibeCheckは、複数のLLMを用いてバイブを評価するため、コストが高くなること、LLMの判定にバイアスがある可能性などの問題点があります。また、特定のバイブがユーザーの好みを直接的に説明できる要因なのか、それとも別の要因があるのかを区別することが難しい場合もあります。例えば、あるLLMの方がより詳細であるというバイブが好まれる理由は、実はそのモデルの方がより正確だという要因の方が大きく影響しているかも知れません。
おわりに
VibeCheckは、正確性の指標に加えて、人間の好みを左右する質的な側面を捉えるという点で、LLM評価の重要な進歩といえます。LLMの使用が拡大するにつれて、このようなツールの重要性は高まると予想されます。
今後、テキストだけでなく、音声や視覚コンテンツなど、他のモダリティにも拡張されることが期待されます。 さらに、バイブに基づいたモデルの改善や、ユーザーの好みを向上させるための介入の方法の開発などにも活用できる可能性があります。
LLMの性能評価は、これまで正確性という客観的な指標に重点が置かれてきましたが、実際のビジネス活用においては、各タスクに適した「バイブ」を持つLLMを選択することが重要になってきます。VibeCheckのような評価手法は、企業がLLMを導入する際の選定基準として、また開発者がLLMの改善方針を検討する際の指針として、今後ますます重要な役割を果たすことでしょう。