AIじゃないよ

GPT-4と徹底比較!リリース直後のClaude 3最上位モデルOpusを無料で使う方法

当サイトはアフィリエイト広告を一部掲載しています。

「Claude」という業界を代表する大規模言語モデルの1つを開発するスタートアップ、Anthropic社が、3月4日に次世代の「Claude 3」モデルファミリーを発表した。

新しいモデルラインアップには、「Opus」、「Sonnet」、「Haiku」という異なるレベルの能力、速度、コストを提供する3つのバージョンが含まれており、最上位モデルは「Opus」と呼ばれる。

中でも「Opus」は、主要なベンチマークにおいて、OpenAIのGPT-4や、GoogleのGemini Ultraといったトップモデルを上回る性能を発揮したと謳われている。

実際に筆者も使ってみたが、ChatGPTのGPT-4モデルにかなり近いレスポンスが得られ、非常に有望なモデルのように感じられた。

「Opus」は、早速一般向けにも公開されており、今すぐ使用することができる。

この記事では、最新のClaude 3 Opusにアクセスする方法や、無料のクレジットを利用してOpusを実際に使い、GPT-4と比較した結果をお伝えする。



突如公開されたClaude 3、GPT-4を上回る性能のOpus

Anthropic社のアナウンスによれば、Claude 3ファミリーの3種類のモデルの特徴は以下の通りだ。

  • Claude 3には、GPT-4Vのような画像認識能力も新たに搭載された。
  • 「Opus」、「Sonnet」、「Haiku」すべてのモデルは、20万トークンものコンテキストウィンドウを持ち、一部の顧客には最大100万トークンまで利用可能となる。
  • Opusモデルは、専門知識、推論、コーディング、数学などの分野において、GPT-4やGemini Ultraを凌ぐ性能を示した。
  • API利用のためのウェイトリストが撤廃され、今すぐOpus, SonnetをAPI経由で利用できる。

GPT-4 Turboのコンテキストウィンドウは12.8万であり、Claudeの超長文のプロンプトを処理する能力は特に際立っている。

Anthropicは、LLMの評価に用いられる一般的なベンチマークで、いかにOpusがGPT-4やGemini Ultraを上回っているかを、以下のようなインパクトある表で示している。

TaskClaude 3 OpusGPT-4Gemini 1.0 Ultra
Undergraduate level knowledge86.8%86.4%83.7%
Graduate level reasoning50.4%35.7%
Grade school math95.0%92.0%94.4%
Math problem-solving60.1%52.9%53.2%
Multilingual math90.7%74.5%79.0%
Code84.9%67.0%74.4%
Reasoning over text83.1%80.9%82.4%
Mixed evaluations86.8%83.1%83.6%
Knowledge Q&A96.4%96.3%
Common Knowledge95.4%95.3%87.8%
Source: Anthropic, Introducing the next generation of Claude

この比較表によれば、学士レベルの専門知識(MMLU)、大学院レベルの専門的推論(GPQA)、基本的な数学(GSM8K)などのベンチマークで、ことごとくClaude 3 Opusが競合を破っている。

厳密には、モデルによって各ベンチマークでの評価時に使われたプロンプトの手法が異なっていたりもするが、ちゃんと比較条件が揃っているベンチマークでも、Opusが最高の結果を残している。

もちろん、どんな企業でも、当然ながら競合に勝ったベンチマーク結果だけを並べてPRするであろうから、公式発表を鵜呑みにするわけにもいかないが、それでも競合に匹敵するかなりパフォーマンスの高いモデルであることは間違いない。

Claude 3を早速使ってみる方法

それでは、実際にClaude 3を使用するにはどうすればいいのか。
GPT-4超えが噂されるClaude 3 Opusを、使ってみない手はない。

Anthropicの公式サイトでは、ChatGPTのようなチャットインターフェースで、Claudeモデルを使用することができる。

しかし、無料で利用できるのは、Claude 3モデルシリーズの2番目にあたるSonnetまで。

有料のClaude Proに登録すると、最上位のOpusモデルを利用することができるが、月額20ドルがかかる。

これは、無料だとGPT-3モデルしか使えず、最新のGPT-4モデルを利用するには月額20ドルの課金が必要なChatGPTと全く同じ構造だ。

課金してみても良いのだが、OpenAIのChatGPT(月20ドル)、GoogleのGemini Advanced(色々おまけ付きで月2900円)など、複数のLLMにそれぞれ2〜3千円の課金をしているとお金がかかりすぎるので、若干ハードルが高いのも事実。

Claude APIで最上位モデルOpusを無料でいち早く試す方法

そんな無料で最上位のOpusを試したいという気持ちを叶える方法がある。

ウェイトリストが廃止され、誰でも登録可能になったClaudeのAPIアカウントを作ると、5ドル分のお試しクレジットが付与されるのだ。

期間限定の可能性もあるが、現在は登録するだけで5ドル分のAPI利用クレジットが無料で付与されるため、費用もクレカもなしで、Opusで遊ぶことができる。

APIが何かわからない人や、コードを書く知識がゼロの人であっても、APIの動作テスト用の機能を使えば、簡単にOpusをブラウザ上でテストすることができるので、ぜひ試してみてほしい。

まずはAnthropicのClaudeのページにアクセスして、「Get API Access」をクリックし、APIのアカウントを作成しよう。

登録を済ませると、ログイン後の画面の上部に「Get started testing Claude with $5 in free credits.」という5ドル分のクレジットをもらえるボタンが現れるので、これを「Claim」して入手する。

電話番号の入力が必要だが、日本の電話番号でもOKだ。

APIの画面にログインした状態で、「Workbench」というタブを開くと、Claude 3のモデルを選択して、プロンプトを入力して、実際のモデルの挙動を確認することができる。

Workbenchのページを開いて、「User」のテキストボックスに、実際にClaudeに聞いてみたいプロンプトを入力し、右上の「Run」をクリックすると、モデルからの回答(RESPONSE)が得られる。

実質、チャット上でOpusとやり取りしているのと変わらない結果が得られる。

記事執筆時点では、Claude 3のOpus, Sonnetをはじめ、Claude 2.1などの旧モデルも利用することができるようになっている。

Workbench上でOpusモデルなどを使ってみた場合も、5ドル分のAPIのクレジットは消化されていく。

Settings – Plans & Billing – Credit Balanceを確認すると、現在チャージされているAPI利用料の残額が閲覧できる。
5ドルの無料クレジットを受け取った場合、最初はこれが5ドルになっており、使用すると徐々に減っていく。

実際にClaude 3 OpusをGPT-4と比較した結果

確立されたベンチマークとはいえ、その結果をパーセンテージで見せられても、実用上どれくらい使い物になるのかを窺い知るのは難しい。

そこで、よく使うことがありそうな5つの異なる方向性のプロンプトを用意し、Claude 3 OpusとChatGPT 4からどんなリアクションが返ってくるかをまとめてみた。

  • 画像の説明を求めるプロンプト
  • 倫理的ジレンマに関するプロンプト
  • ストーリー考案・創造性を問うプロンプト
  • 言語理解と文脈把握に関するプロンプト
  • コーディングを求めるプロンプト

もちろん、ここで行う比較も完璧ではないが、自分のユースケースでClaude 3を試してみるべきか否かを感覚的に把握するには役立つかもしれない。

画像の説明を求めるプロンプト

まずは、新たにClaude 3に備わった画像認識機能を試してみよう。
ChatGPTには、GPT-4 Visionモデルが以前からあり、画像認識の機能が同じくあるので、比較することが可能だ。

Unsplashで入手したフリー素材画像で、ダイバーがサンゴ礁の海に潜っている様子を、GPT-4 Visionと、Claude 3 Opusにそれぞれ解釈させてみる。

プロンプトは非常にシンプルな以下のみだ。

この写真を150字で説明してください。

ChatGPT 4 Visionの回答

この写真は、透明で青い海水の中を潜る一人のフリーダイバーを捉えています。ダイバーは海面から垂直に深い水中へと向かっており、足を上にして一直線に潜んでいる様子が見られます。彼らの周りには、光の筋が水面から射し込み、多彩なサンゴ礁が広がっており、海の底ははっきりと見えています。ダイバーは潜水用のスーツを着用しており、その静かで壮大な環境が印象的な一枚です。

Claude 3(Opus)の回答

この写真は、サンゴ礁の美しい海中風景を捉えたものです。透き通った青い海の中、色とりどりのサンゴが生い茂る海底に、一人のフリーダイバーが優雅に泳いでいます。太陽の光が水面から差し込み、神秘的な雰囲気を醸し出しています。豊かな海の生態系と人間の調和が感じられる、息をのむような一枚です。

GPT-4とOpusそれぞれの回答を見比べてみると、両者とも結構正確な状況描写が得られているように思われる。

GPT-4は、ダイバーの姿勢や服装など、より写実的な詳しい説明がある(垂直で足が上、潜水用スーツ)。

Opusは、より詩的・感情的な表現(神秘的、息を呑む、自然との調和)が多いが、どれも間違っているわけではなく、人間に聞いた場合にもこのように説明する人もいそうだ。

人によって好みは分かれるかもしれないが、筆者としてはほとんど遜色なく互角に近い、どちらも実用的なレベルだと感じた。

倫理的ジレンマに関するプロンプト

次に、AIがよく聞かれがちな倫理的な判断を迫るプロンプトを聞いてみることにする。

自動運転車が歩行者を轢きそうになった時の対処を問う問題だ。

あなたは自動運転車の開発者です。テスト中、車が歩行者を検知しました。ブレーキをかけると、車内の乗客が死亡します。一方、ブレーキをかけないと、歩行者が死亡します。あなたならどうしますか?理由も含めて150字程度で説明してください。

ChatGPT 4の回答

この問題は、自動運転車の倫理的ジレンマを示しています。私の対応は、歩行者の安全を優先させることです。なぜなら、車外の人々を保護することが一般的な交通ルールに則っており、自動運転車のプログラムもこの原則に従うべきだと考えるからです。技術は乗客を保護するための対策を改善することに焦点を当てるべきです。

Claude 3(Opus)の回答

私なら、ブレーキをかけて歩行者の命を優先します。理由は以下の通りです。

  1. 歩行者は無防備であり、事故に巻き込まれるリスクが高い。
  2. 車内の乗客は、シートベルトや エアバッグなどである程度保護されている。
  3. 歩行者を犠牲にすることは、倫理的に問題がある。
  4. 自動運転車の安全性に対する社会的信頼を損ねる可能性がある。

ただし、このようなジレンマを完全に解決することは難しいため、事故を未然に防ぐための技術開発とインフラ整備が重要だと考えます。

この結果を見ても、GPT-4とOpusでそこまで大きな差は感じられないように思う。

どちらかというとClaude 3 Opusの方が、挙げている理由の数で言うと多く、そのいずれも趣旨を外していない。

Claudeが150字という指示をほぼ無視しているのは気になるところではあるが。

ストーリ考案・創造性を問うプロンプト

また、クリエイティブなタスクをやらせた場合のパフォーマンスも比較したい。

筆者自身、Web広告を配信するときのキャッチコピーや説明文を考案する作業を、ChatGPTにかなりの程度委ねており、個人的な実用面ではクリエイティブの考案力はかなり重要なファクターだ。

GPT-4とClaude 3に、それぞれSF小説のあらすじを考えさせてみることにする。

与えたプロンプトは以下の通りである。

「時間旅行」をテーマにした、SF小説のあらすじを150字程度で提案してください。登場人物、舞台設定、主要な出来事、ストーリーの展開、結末を含めるようにしてください。

ChatGPT 4の回答

未来を知ることができる時計を発明した科学者・アキラは、自分の死を予見し、それを回避するために過去へ旅する。しかし、時間を変えることで現実が悪化することを知り、アキラは自らの運命を受け入れ、最後に愛する人々との時間を大切にする決心をする。その過程で、アキラは時間旅行の倫理と、人生の意味について深く考えさせられる。

Claude 3(Opus)の回答

2050年、科学者の佐藤は時間旅行機を開発した。彼は未来を変えるため、過去へ旅立つ。だが、過去で出会った女性に恋をしてしまう。未来に戻った佐藤は、自分の行動で歴史が大きく変わったことに気づく。愛する女性との未来か、元の平和な世界か。佐藤は再び過去へ旅し、運命の選択を迫られる。最後の時間跳躍で、佐藤は自らの存在を犠牲にすることを決意する。歴史は修正され、平和な未来が守られた。だが、誰もその犠牲を知ることはない。

このプロンプトでも、GPT-4とClaude 3にそこまで大きな違いはない。

しかし、プロンプトで要求しているストーリーの起承転結は、Claude 3 Opusの方がより具体的で、かつ複雑なストーリー展開が考案されているように思える。

GPT-4が「現実が悪化」「時間を大切に」など映画等の展開によくありそうなことを抽象的に述べているに留まるのに対して、Claude 3 Opusは、登場人物の苦悩の理由が具体的に述べられており、結末もハッキリしている。

言語理解と文脈把握に関するプロンプト

次に、代名詞が複数登場し、何が何を指しているかが分かりにくいような文章を用意して、そこから正しく情報を読み取れるかをテストしてみた。

与えたのは以下のようなプロンプトである。

次の文章の中で、「それ」が指している内容を100字程度で説明してください。
『私は昨日、公園で小さな子犬を見つけました。その子は箱の中に入れられていて、捨てられたようでした。そこで私は、それを家に連れて帰ることにしました。』

ChatGPT 4の回答

この文章において、「それ」は「公園で見つけた、箱に入れられて捨てられたような状態の小さな子犬」を指しています。文脈から、「それ」が子犬を指すことが明確になっており、話者がその子犬を自宅に連れて帰る決心をしたことを示しています。

Claude 3(Opus)の回答

「それ」は、公園で見つけた小さな子犬を指しています。その子犬は箱の中に入れられ、捨てられていたようでした。「私」は、その子犬を可哀そうに思い、保護するために家に連れて帰ることを決めたのです。

このプロンプトへの回答は、GPT-4もClaude 3 Opusも、そつなくこなしており、大差ない印象である。

コーディングを求めるプロンプト

以上のような単なる自然言語だけではなく、最近特にAIの活用が広がっているプログラミング・コーディングのタスクを、Claude 3 Opusがどの程度遂行できるかも、ごく簡単にテストしてみた。

あるフォルダ内にあるテキストファイルをマークダウンファイルに変換するというタスクを、Pythonスクリプトで書けというプロンプトである。

GPT-4も、Claude 3も、自然言語だけでなく、コードもちゃんと出力することができるので役にたつ。

あるディレクトリ以下にあるすべてのテキストファイル(txt)の拡張子を、マークダウンファイル(md)に変更するPythonスクリプトを書いてください。

ChatGPT 4の回答

指定されたディレクトリ以下にあるすべてのテキストファイル(txt)の拡張子をマークダウンファイル(md)に変更するPythonスクリプトを以下に示します。このスクリプトは、osモジュールを使用してファイルシステムを操作し、globモジュールを使用して特定のパターンにマッチするファイル名を検索します。

import os
import glob

def rename_txt_to_md(directory):
    # 指定されたディレクトリ内のすべてのtxtファイルに対してループを実行
    for txt_file in glob.glob(os.path.join(directory, '*.txt')):
        # ファイルの基本名(拡張子なし)を取得
        base = os.path.splitext(txt_file)[0]
        # 新しいファイル名(.md拡張子を持つ)を作成
        md_file = base + '.md'
        # ファイル名を変更
        os.rename(txt_file, md_file)
        print(f'Renamed "{txt_file}" to "{md_file}"')

# このスクリプトを実行するためには、以下の行を変更して、
# 対象のディレクトリパスを指定してください。
directory_path = 'your_directory_path_here'
rename_txt_to_md(directory_path)

このスクリプトを使用する際は、directory_path変数の値を変更して、対象のディレクトリパスに設定してください。このスクリプトは、指定されたディレクトリ内のすべての.txtファイルを検索し、それらのファイルの拡張子を.mdに変更します。変更が行われると、その都度コンソールにメッセージが表示されます。

Claude 3(Opus)の回答

以下は、指定されたディレクトリ以下にあるすべてのテキストファイル(.txt)の拡張子を、マークダウンファイル(.md)に変更するPythonスクリプトです。

import os

def change_file_extension(directory):
    # ディレクトリ内のすべてのファイルとサブディレクトリを取得
    for root, dirs, files in os.walk(directory):
        for file in files:
            # ファイルの拡張子が.txtの場合
            if file.endswith(".txt"):
                # ファイルのフルパスを取得
                file_path = os.path.join(root, file)
                # 新しいファイル名を作成(拡張子を.mdに変更)
                new_file_path = os.path.splitext(file_path)[0] + ".md"
                # ファイルの拡張子を変更
                os.rename(file_path, new_file_path)
                print(f"Changed: {file_path} -> {new_file_path}")

# 使用例
directory = "/path/to/your/directory"  # 変更したいディレクトリのパスを指定
change_file_extension(directory)

このスクリプトでは、以下の手順で拡張子の変更を行います。

  1. os.walk()関数を使用して、指定されたディレクトリ以下のすべてのファイルとサブディレクトリを再帰的に取得します。
  2. 各ファイルに対して、ファイルの拡張子が”.txt”であるかどうかを確認します。
  3. 拡張子が”.txt”の場合、ファイルのフルパスを取得します。
  4. os.path.splitext()関数を使用して、ファイル名から拡張子を取り除き、新しい拡張子”.md”を追加して新しいファイル名を作成します。
  5. os.rename()関数を使用して、元のファイルの拡張子を新しい拡張子に変更します。
  6. 変更されたファイルのパスを出力します。 使用する際は、directory変数に変更したいディレクトリのパスを指定してください。 このスクリプトを実行すると、指定されたディレクトリ以下のすべての”.txt”ファイルの拡張子が”.md”に変更されます。

このプロンプトについても、GPT-4とClaude 3でそこまで目を引く違いはなさそうだ。
使用しているモジュールは若干異なるが、コードを説明するコメント、関数やループの使い方など、ほとんど同じ構造になっている。

コードブロック外での説明は、Claude 3の方が若干丁寧かもしれない。

もちろん、どちらのスクリプトも、実際に実行すると問題なく動作して、指定したディレクトリ内のテキストファイルをすべてMarkdownに変換してくれる。

より複雑なコーディングタスクで使用してみなければ結論は出せないが、Claude 3のコンテキストウィンドウの大きさを考えると、大きなプロジェクトのコードを全て読みこんでコーディングを補助するタスクで若干の優位性がありそうだ。

CursorなどのGPT-4を利用したAI補助付きのコードエディタに、Claude 3 Opusが搭載される日が来る可能性もかなり高いのではないかと思われる。

どのモデルも結構良いけど・・・結局なに使う?

5種類のプロンプトを使ってGPT-4とClaude 3 Opusの実力を試してみたが、筆者の独断と偏見で勝敗をつけるとすれば、以下のようになる。

  • 両モデルで同等
    • 倫理的ジレンマに関するプロンプト
    • 言語理解と文脈把握に関するプロンプト
    • コーディングを求めるプロンプト
  • Claude 3 Opusの方が強い
    • ストーリ考案・創造性を問うプロンプト
  • GPT-4の方が強い
    • 画像の説明を求めるプロンプト

少なくともこれらの簡易なテストの結果では、Claude 3 Opusも、Anthropic社が主張する通り、かなり性能が高く、GPT-4に劣らないモデルであるように感じられた。

世は大規模言語モデル戦国時代で、チャット形式で手軽に利用できる有名どころだけでも、競合が多数存在する。

  • OpenAI ChatGPT ・・・月額20ドル
  • Google Gemini Advanced ・・・月額2900円
  • Claude 3 Opus・・・月額20ドル

だいたいどれも月額3千円ほどで、たとえ性能が良くても、目覚ましいほど良くならなければ、現在メインで使っているサービスから移行するほどのモチベーションにはなりにくい。

Claudeの際立っている強みは、他社モデルと比較してかなり長いコンテキストウィンドウで、20万トークンということは、書籍でいうと500ページほどのプロンプトやチャット履歴を与えられることになる。

その意味で、超長文のテキストをモデルに与える必要があるタスクにおいては、大活躍してくれるかもしれない。

筆者個人としては、あまりそこまでのコンテキストウィンドウを必要とするタスクはないし、ChatGPTを長らく利用しており、ChatGPTは画像の生成、カスタムGPTs、コード実行環境などの付帯機能も充実しているので、乗り換えまではせず、ChatGPTを使い続けることになってしまいそうだ。

Googleが開発するGemini Advancedも、月額サブスクをすると、Googleドライブの2TBの容量がついてきたりと、おまけが充実しているので魅力は強い。

LLMの性能が似たり寄ったりになってくると、あとは付帯サービスやプラットフォーマーとしての強みが、モデルの性能以上に効いてきてしまうようにも思える。

ひとまず筆者は、Claude 3 Opusは様々な場面で折りに触れて使ってみて、特に役立つ利用シーンが自分のユースケース内で見つけられるかを、継続検討していこうと思う。

しかしながら、しみじみと、このような性能の高いLLMが次々と登場することに驚かされる。

Claude3モデルシリーズの今後の更なる進化、またClaudeのチャットUIのアップデートによる機能追加を楽しみにしておきたい。



Make a comment

*
*
* (公開されません)