生成AIモデルの新たな評価軸を求めて：水平思考クイズで「人間らしさ」を測ってみる

Posted at 2025-05-30

はじめに

数ある生成AIモデルの中からプロジェクトに最適なものを選択する際、現在の主流は「処理スピード」「コスト」「回答の妥当性（ハルシネーションのなさ）」という3つのトレードオフで決定されることがほとんどです。しかし、これらの軸だけでAIの真価を測れているのでしょうか。
個人的には、東京大学の入試問題を解く課題のように、より自然言語的で、人間の認知能力に寄り添った評価軸がもっとあっても良いと感じています。将来的には、生成AI版のテストケースのようなものを作成し、より多角的な視点からモデルを評価できるようになるのが理想です。
そこで今回は、生成AIモデルの出力結果を評価する一端として、「水平思考クイズ」が活用できないかと考え、実際に試してみました。

水平思考クイズとは？

水平思考クイズは、「ウミガメのスープ」という名称でも知られる推理ゲームです。出題者から提示される、一見すると不可解な状況や短い物語に対し、回答者が「はい」「いいえ」「関係ありません」のいずれかで答えられる質問を繰り返すことで、その真相を推理していく形式のクイズです。

問題文

ある男が海の見えるレストランで「ウミガメのスープ」を注文した。
彼はスープを一口飲んだところで、すぐにシェフを呼んで尋ねた。
「これはほんとうにウミガメのスープですか？」
シェフがそうだと答えると、男は勘定を済ませた後、家に帰って自殺した。
一体なぜか？

解答

男が自殺した理由は、かつて自分が生き延びるために食べた「ウミガメのスープ」と信じていたものが、実は死んでいった仲間たちの人肉で作られたものだったという衝撃の事実に気づいたためです。
男は過去に海で遭難し、漂流していました。
空腹と疲労で意識が朦朧とする中、彼は仲間に「ウミガメのスープ」だと渡されたものを食べ、生き延びることができました。
しかし、海の見えるレストランで本物のウミガメのスープを一口飲んだ時、その味と、過去に遭難中に食べたスープの味が全く異なることに気づきます。
この味の違いから、男は漂流中に食べたスープが、共に遭難し亡くなっていった友人たちの肉だったという恐ろしい真相を悟り、その絶望と罪悪感から自ら命を絶ってしまったのです。

このクイズは、問題文に書かれていない隠れた前提や背景情報を推測する能力、つまり文脈理解やコンテキストの想像力を強く要求します。固定観念にとらわれず、柔軟な発想で様々な可能性を探る「水平思考（ラテラルシンキング）」が鍵となります。

なぜ水平思考クイズでAIを評価するのか

水平思考クイズは、人間の認知能力、特に以下の要素を多分に利用します。

文脈理解能力: 限られた情報から状況全体を把握する力。
推論力: 質問と回答から仮説を立て、真相に迫る力。
非定型的な発想力: 既成概念にとらわれず、新たな視点から問題を捉える力。

これらの能力は、現在の生成AIモデルが最も得意とする領域である自然言語処理の範疇でありながら、単純な事実の羅列や要約とは異なる、より高度な「人間らしさ」を測る指標になると考えました。AIがどこまで人間のような思考プロセスに食らいついてこられるのか、非常に興味深い検証になりそうです。

検証の前提

今回の検証では、以下の前提のもと、様々な生成AIモデルに水平思考クイズを解かせ、そのプロセスを比較します。

出題:

各モデルには同じ水平思考クイズ「ウミガメのスープ」を出題します。

出題前に提示するプロンプトは下記の通りです：

「いまから水平思考クイズを出題します。あなたは『はい』もしくは『いいえ』で回答できるような質問を私に投げかけることができます。質問を繰り返し、解答を特定してください。」

出題文は下記の通りです：

「とある男が海の見えるレストランで『ウミガメのスープ』を注文した。
彼はスープを一口飲んだところで、すぐにシェフを呼んで尋ねた。
『これはほんとうにウミガメのスープですか？』
シェフがそうだと答えると、男は勘定を済ませた後、家に帰って自殺した。
一体なぜか？」

回答形式:

各モデルがしてくる質問に対し、人間（私）は以下の5択のいずれかで回答を返します。（本当は「はい」「わからない」「いいえ」の三択で回答したかったのですが、どうしても回答が難しい場合のみ「多分はい」「多分いいえ」を適用しました。）

はい
多分はい
わからない
多分いいえ
いいえ

評価指標:

各モデルが最終解答を導き出すまでの質問回数、解答結果（正解か不正解か）、および人間（私）がそれに対し 「はい」「多分はい」と回答した回数をカウントします。
「はい」および「多分はい」と回答した質問は、モデルが文脈を正しく理解し、妥当性の高い質問を生成できている指標になると判断して採用しました。

この検証を通して、各生成AIモデルの「人間らしい思考力」を測り、新たな評価軸の可能性を探っていきたいと思います。

検証対象

今回検証する対象のモデルは下記の通りです。

Gemini 2.5 Flash
GPT-4o mini
- 厳密
- バランス
- 創造的
Claude 3.5 Haiku
- 厳密
- バランス
- 創造的

GPT-4o mini、Claude 3.5 Haikuはtemperatureの設定が可能な環境だったので、それぞれ「厳密」「バランス」「創造的」の3パターンでの検証を行います。
つまり、計7環境での検証になります。

検証結果

検証の結果は下記の通りになりました。
※いずれも2025/5/30時点での検証結果であり、今後変わってくる可能性があります。

モデル	Gemini 2.5Flash	GPT4o-mini			Claude3.5 Haiku
モデル	ー	厳密	バランス	創造的	厳密	バランス	創造的
質問回数	8	15	23※要ヒント	18	17	33	35
正解したか？	正解	不正解	正解	不正解	不正解	不正解	不正解
解答が「はい」の質問率	7/8	13/15	9/23	14/18	7/17	23/33	17/35

正解したのはGemini 2.5 FlashとGPT-4o miniの「バランス」の2つのみでした。以降、具体的な各モデルの挙動になります。

Gemini 2.5 Flash

複数回検証したのですが、なぜか毎回冒頭で自分のほうが出題者だと勘違いして出題してきました。ただし、Gemini側が回答者である旨を提示しなおしてからQAに入ると、ほかのモデルと比較して最短で正解を導き出しました。
「解答が『はい』の質問率」が7/8と、かなりの高さになっていることからもわかるように、クリティカルな質問が即座に飛んできて驚かされました。これはナレッジとしてウミガメのスープの解答情報を持っている可能性が高いためだと思われます。そのため、純粋な水平思考の検証結果としては検討の余地がありそうです。

GPT-4o mini

全体的に惜しいところまでは推測できている印象です。
「バランス」以外の質問の妥当性（解答が「はい」の質問率）も高く、かなり核心に迫った質問をしてきていたのですが、最終結論までは至れないという感じでした。
「バランス」は、質問の妥当性自体は数値的には低く見えているものの、後述の通り途中で思考がループしてしまったのが原因で、ヒントを与えて思考を修正してあげると最終的に正答にまでたどり着くことができました。下記が各モードに対する所感になります。

厳密

質問の妥当性も高く、最終回答直前までほぼ正解の推測をしていました（店で出されたスープと過去に自分が飲んだスープの味が違うため、過去自分が飲んだスープはウミガメのものではないと気が付いてしまった、までは解答できていました）が、最終解答で唐突に「自分の飲んだスープがウミガメのものではなかったことに絶望した」という結論に着地してしまいました。とても惜しかった印象です。

バランス

8問目で惜しいところまで解答できていた（主人公の男の大切なものがスープの素材であることまでは理解していました）が、具体的な素材の特定には至らず、素材がペットだと仮定してしまい、10問目以降はその近辺の質問ばかりを繰り返すようになってしまいました。20問目でヒントを要求してきたため、「スープの素材はペットではない」というヒントを与えたところ、24問目で正解を出すことができました。ヒントを与えた後の「はい」率は2/3と高く、初手で「いいえ」回答になってからの立て直しも早かったです。

創造的

「厳密」と同様に質問の妥当性も高く、最終回答直前までほぼ正解の推測をしていました（ウミガメのスープによって主人公の男が大切な人を失った過去の出来事を想起してしまった、までは解答できていました）が、最終解答で唐突に「大切な人を失った苦しみに耐えきれなかった」という結論に着地してしまいました。発散しすぎたきらいがあります。

Claude 3.5 Haiku

ほかのモデルに比べ、あいまいな回答が多い印象です。ただし、「創造的」モードはかなり正解に肉薄していました。

厳密

「男はスープを飲むことで、自分が養子であることや、実の親が誰かなど、自分の出自に関する衝撃的な秘密を知った」という解答で、ほかのモデルの回答と比較して理由に具体性がないように感じました。念のため17問目以降も再度質問を重ねたのですが、「自分が何らかの事件の原因になったことを知ってしまった」というあいまいな回答のまま変化がありませんでした。

バランス

船の事故により犠牲者が出て、主人公がそれによってなんらかのトラウマを受けたところまでは理解できていたのですが、「主人公の男がウミガメのスープをほかの乗客から奪って飲んでしまったことへの罪悪感を思い出してしまったため」という結論に帰着してしまいました。

創造的

情報が発散しすぎて、最初のうちはウミガメの生態や捕獲方法に固執していましたが、30問目から突如クリティカルな質問が連発するようになり、「スープの素材が人間だった」という事実まで特定することができました。ただし、それが主人公の男の過去に関連し、罪悪感を想起させる原因となった部分への言及はなかったため、不正解としています。

まとめ

水平思考クイズは、生成AIモデルの単なる事実回答能力だけでなく、より複雑な推論や文脈理解、非定型的な思考能力といった「人間らしい認知能力」の側面を評価する指標になりうると感じました。

特に、Gemini 2.5 Flashは、最も短い質問回数で正解に到達し、質問の質も非常に高かった点が特筆されます。ただし、知識としてウミガメのスープの解答を持っている可能性が高く（「ウミガメのスープの解答を教えてください。」と質問すると正答が返ってくるのはGemini 2.5 Flashのみ）、純粋なAIモデルによる水平思考の結果とはいえない可能性があります。
GPT-4o miniもまた、惜しいところまで正解に迫る高い推論能力を示しました。「バランス」モードでは、ヒントを与えることで思考の軌道修正が可能であったことから、学習能力や柔軟性の高さがうかがえます。これは、適切な介入によってAIのパフォーマンスを向上させられる可能性を示唆しています。
一方で、Claude 3.5 Haikuは、あいまいな回答が目立つ傾向があったものの、その「創造的」モードにおいては、最終的にクイズの核心に迫るクリティカルな質問を生成できた点は注目に値します。これは、初期段階で情報が発散しても、特定の条件下では非常に高い洞察力を発揮する可能性を秘めていることを示唆しています。Claudeのこの特性は、従来の論理的な思考プロセスだけでなく、より発想力や直感的なアプローチが求められるタスクにおいて、独自の強みを発揮する可能性を秘めていると言えるでしょう。

今後は、生成AIで作成した水平思考クイズ（＝Web上にナレッジとして存在していない、AIが答えを知りえない問題）を各モデルに解かせ、その解決過程を併せて検証してみる予定です。それにより、新たなAIモデルの評価指標の検討が進めば良いなと考えています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up