12月5日、OpenAIはChatGPTで最高性能の「o1」モデルを発表し、o1を利用できる月額3万円の新しいプランを発表した。これまでのChatGPTの個人用プランは月額3000円で「4o」モデルが使えるというものだったので、新プランは実に10倍の値付けということになる。o1は10倍の価格を払う価値があるくらい優秀なのだろうか?同じく月額3000円のプランで利用できる生成AI「Claude」も含め、3者でどれくらい性能差があるのか、さまざまなジャンルの過酷なテストを20個行ってみることにした。本記事ではそのうちの前半10個のテストの結果をお伝えする。(ITライター 柳谷智宣)
毎月3万円!最上位o1モデルが使える「ChatGPT Pro」が登場
OpenAIは12月5日に「ChatGPT Pro」プランを発表し、同社が一般公開している中で最高性能※の「o1」モデルの無制限利用ができるようになったとアナウンスした。しかし、値段を聞いて驚いた。なんと月額200ドル、日本円にして約3万円というのである。GPT-5が出たのならまだわかるが、「o1」だけで月3万円とはなんと強気な、と感じた。
現在ChatGPTの個人用プランは、「無料版」「Plus」(月20ドル、3000円)、「Pro」(月200ドル、3万円)の3つが用意されている。詳しくは図を見てほしいが、月額3000円のPlusでは「GPT-4o/o1/o1mini」を制限付きで利用でき、月額3万円のProではそれらを無制限に利用できる。さらに、高性能な「o1 pro mode」も利用できる。
さすがに月3万円となると迷ったが、とりあえずChatGPT Proも契約してみることにした。いろいろと使ってみると、確かに性能がいい。とはいえ、果たして10倍の価格差に見合うほどの性能の差があるのかとなると、気になる方も多いのではないだろうか。
※OpenAIは12月20日に新たなAIモデル「o3」を発表した。o1よりも高性能ということだが、まだo3は一般公開されておらず、利用できない。現在一般ユーザーが利用できる最高性能のモデルはo1ということになる。
月額3万円のChatGPT Proは、月額3000円のChatGPT 4oより10倍賢いのか?
そこで今回は、さまざまなジャンルのたくさんのタスクを用意して、実際に複数の生成AIに解かせて性能を比較することにした。比較する生成AIの料金プランと利用するモデルは、以下の3つだ。
・Claude Proプラン「Claude 3.5 Sonnet」(以下、Claude):月額20ドル(約3000円)
・ChatGPT Pro「o1 pro mode」(以下、o1 pro):月額200ドル(約3万円)
せっかくなのでChatGPTだけではなく、Anthropic社の生成AI「Claude」も一緒にテストしてみることにした。テストによってはChatGPT-4以上の成績を出しており、実際、ChatGPTより賢いという人も多い生成AIだ。Claudeの個人用有料プランも、ChatGPT Plusと同じく月額20ドル(約3000円)。Opus、Sonnet、Haikuという3つのモデルを利用できるが、今回は最もハイエンドのClaude 3.5 Sonnetを使用する。
これら3つの生成AIで同じタスクを走らせ、どんな結果になるのか試してみた。全部OKもしくは全部NGだとつまらないので、差が付くようさまざまなタスクを試している。差が出るまでチャレンジしたので、意地悪な感じになっているところもある。
今回試したテストは全部で20問。前半の10問は差が出やすいように、さまざまなジャンルにまたがった総合的な設問を、後半10問はビジネスシーンで使うことを想定した設問を用意した。本記事は「前編」として、以下の10問を用意している。
(テスト1)小数点の理解
(テスト2)単語内の文字数カウント
(テスト3)方程式
(テスト4)大学入試問題:国語
(テスト5)大学入試問題:数学
(テスト6)論理問題
(テスト7)日本の運転免許試験
(テスト8)画像分析(海外旅行で撮ったスナップ写真の分析)
(テスト9)画像分析(ケーブルの種類を判別)
(テスト10)小説のプロットを書いてもらう
次のページからは、ChatGPT 4o、Claude 3.5 Sonnet、ChatGPT o1 pro modeに同じプロンプトを記入し、どれくらい問題を解いたりタスクを実行したりできるのか、それぞれがどれくらいの実力なのかを見ていこう。果たして3万円の「o1 pro mode」は、3000円のChatGPT 4oやClaude 3.5 Sonnetの10倍の性能を出せるだろうか?