見出し画像

GPT-4 APIがやってきた!3.5と"性能"を比較する

Waiting Listにもっと時間がかかるかと思ったのだが、予想外に早く(一日)APIのロックが解除された。ただしまずは8Kトークン版のみ。

GPT-3.5が4Kトークンだったから倍の長さのストーリーが出せるということだ。

ただし値段はChatGPT APIの10倍。元に戻った感じ。
これはどっちを使うべきか結構悩むぞ。

こんな感じで呼ぶ

 % curl https://api.openai.com/v1/chat/completions \
                                      -H 'Content-Type: application/json' \
                                      -H 'Authorization: Bearer APIKEY'\
                                      -d '{
                  "model": "gpt-4",
                  "messages": [{"role": "user", "content": "宮崎駿について"}],
                  "temperature": 0.7
                                }'

答えはこんな感じで返ってくる

{"id":"chatcmpl-6uR0fK11kzb97zSxckPJK09sxo8qf","object":"chat.completion",
"created":1678908213,"model":"gpt-4-0314",
"usage":{"prompt_tokens":18,"completion_tokens":709,"total_tokens":727},
"choices":[
{"message":{"role":"assistant",
"content":"宮崎駿(みやざき はやお、1941年1月5日生まれ)は、日本のアニメーション監督、
漫画家、脚本家、作画監督、プロデューサーであり、スタジオジブリの創設者の一人です。彼は国際的に高い評価
を受けており、彼の作品は「アニメの神様」とも称されるほどの影響力を持っています。\n\n宮崎駿の最も有名な
作品には、『風の谷のナウシカ』(1984年)、『天空の城ラピュタ』(1986年)、『となりのトトロ』(1988年)、『魔女の
宅急便』(1989年)、『もののけ姫』(1997年)、『千と千尋の神隠し』(2001年)、『ハウルの動く城』(2004年)など
があります。彼の作品は、緻密な描写や独創的な世界観、人間性を大切にしたストーリー展開が特徴であり、多く
のファンから愛されています。\n\n彼のアニメ作品では、環境問題や戦争、人間の弱さや強さなど、さまざまな社
会問題を取り上げています。また、彼の作品に登場するヒロインたちは独立心が強く、強い意志を持っており、多く
の人々に感動を与えています。\n\n宮崎駿は、アニメーションにおいて手描きにこだわり続けており、現代のデジタ
ル技術が進化しても、彼の作品の美しさや温かみは失われていません。彼はまた、日本のアニメーション業界の発
展に大きく貢献し、世界中のアニメーション作品にインスピレーションを与えています。\n\n2013年に一度引退を
表明しましたが、2016年に新作映画『君たちはどう生きるか』の制作を発表し、現在も活動を続けています。宮崎
駿の作品は、世代を超えて愛され続けており、今後も彼の創造力に期待が寄せられています。"},
"finish_reason":"stop","index":0}]}

まだ画像を見せたりするAPIは解放されていない。

ドキュメントによれば、GPT-4 APIは、8Kトークン版と32Kトークン版があり、画像を読ませるのはたぶん32Kトークンくらいは必要と思われる。画像を読ませるAPIについては情報がなくて不明。おそらく画像をEmbeddingみたいな形でトークンに変換して入力するのだと思うが、その部分が非公開なので何とも言えない。

ただ言えるのは、圧倒的に遅いということ。
GPT3.5-Turboと比較してみよう。

 宮崎駿について聞いてみる

time curl https://api.openai.com/v1/chat/completions \
                                      -H 'Content-Type: application/json' \
                                      -H 'Authorization: Bearer API' \
                                      -d '{
                                  "model": "gpt-3.5-turbo",
                                  "messages": [{"role": "user", "content": "宮崎駿について"}],
                                  "temperature": 0.7
                                }'
{"id":"chatcmpl-6uRDuHfmyVrwlntrHkefFllYOFGud","object":"chat.completion",
"created":1678909034,"model":"gpt-3.5-turbo-0301",
"usage":{"prompt_tokens":19,"completion_tokens":335,"total_tokens":354},
"choices":[{"message":{"role":"assistant",
"content":"宮崎駿は、日本のアニメーション監督、脚本家、アニメーション作家、漫画家、小説家であり、
スタジオジブリの創設者の一人です。彼の作品は、ファンタジーと現実を組み合わせた物語や、自然と人間の共存を
描いた作品が多く、世界中で愛されています。代表作に『となりのトトロ』、『千と千尋の神隠し』、『風立ちぬ』、
『紅の豚』などがあります。また、映画以外にも、NHKのアニメーション番組『未来少年コナン』の監督や、漫画『風の
谷のナウシカ』の原作者としても知られています。彼の作品は、単なるエンターテインメントに留まらず、社会的メッ
セージや人間の心理描写など、深いテーマが込められていることが多く、その影響力は非常に大きいといえます。"},
"finish_reason":"stop","index":0}]}

________________________________________________________
Executed in   18.06 secs      fish           external
   usr time   40.40 millis    0.50 millis   39.91 millis
   sys time   31.64 millis    7.63 millis   24.01 millis

まあまああってるけど、宮崎駿は小説家ではない。これがGPT-4になるとどう変わるか。

 time curl https://api.openai.com/v1/chat/completions \
                                      -H 'Content-Type: application/json' \
                                      -H 'Authorization: Bearer API' \
                                      -d '{
                                  "model": "gpt-4",
                                  "messages": [{"role": "user", "content": "宮崎駿について"}],
                                  "temperature": 0.7
                                }'
{"id":"chatcmpl-6uRG0WjUxx2oAzrhTAjUwHoyXdL9k","object":"chat.completion",
"created":1678909164,"model":"gpt-4-0314",
"usage":{"prompt_tokens":18,"completion_tokens":750,"total_tokens":768},
"choices":[{"message":{"role":"assistant","content":"宮崎駿(みやざき はやお、
1941年1月5日生まれ)は、日本の映画監督、アニメーター、漫画家、脚本家、プロデューサーであり、
スタジオジブリの創設者の一人です。彼は、世界的に高い評価を受けており、アニメーション映画における最も偉大な
監督の一人とされています。\n\n宮崎駿の作品は、美しいアニメーション、独特なキャラクター、心温まるストーリー、
環境保護や平和主義などのテーマを特徴としています。彼の作品の中でも有名なものは、『風の谷のナウシカ』(1984年)、
『天空の城ラピュタ』(1986年)、『となりのトトロ』(1988年)、『魔女の宅急便』(1989年)、『もののけ姫』(1997年)、
『千と千尋の神隠し』(2001年)などが挙げられます。\n\n2001年の『千と千尋の神隠し』は、
アカデミー賞の最優秀アニメーション映画賞を受賞し、日本映画史上最も興行収入が高い作品となりました。
また、宮崎駿は、2002年にベルリン国際映画祭で金熊賞を受賞し、
また、2014年にはアカデミー賞の名誉賞を受賞しています。\n\n
宮崎駿は、スタジオジブリの創設者の一人としても知られており、1985年に高畑勲とともに設立しました。
スタジオジブリは、世界的に高い評価を受ける日本のアニメーション制作会社で、
宮崎駿の他にも高畑勲や新海誠などの著名なアニメーターが所属しています。\n\n
2013年に一度引退を発表しましたが、2016年に新作映画『君たちはどう生きるか』の制作を発表し、
現在も活動を続けています。彼の作品は世代を超えて愛され続けており、
アニメーションの分野において革新的な才能を持つ人物として称賛されています。"},
"finish_reason":"stop","index":0}]}

________________________________________________________
Executed in   29.54 secs      fish           external
   usr time   36.67 millis    0.48 millis   36.19 millis
   sys time   36.58 millis   11.36 millis   25.22 millis

GPT4だとかなりマシになるが、プロデューサーとか脚本家というのはあってるのか微妙だ。より饒舌になったが正確性はあやふやであり、実行速度はGPT-3.5-turboが18秒だったのに対し、GPT-4は29.54秒かかっている。

この二つの出力の差をどう見るか。
GPTの性能を測るのに、通常使われる指標は「正解率」すなわちどれだけ正確な答えが来るか、ということなのだが、僕は実はその指標を使うのは誤りだと思う。

それは自動車の性能を排気量だけで測るようなもので、性能指標というのはいろいろ考えられる。

単純に排気量が大きければ性能のいい車なのかといえば、もちろんそんなことはない。ただ燃費が悪い車だということは十分あり得る。

そもそも正確な情報が欲しければ検索すればいいわけで、検索結果を要約するようにすれば正確性は段違いにあがる。たとえば宮崎駿についてただ聞くのではなく、Wikipediaの文章を渡してから要約させてみる。

curl https://api.openai.com/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer API' \
  -d '{
  "model": "gpt-3.5-turbo",
  "messages": [{"role": "user", 
"content": "以下の文章を読み、宮崎駿について100文字で説明してください\n
宮崎 駿(みやざき はやお、1941年〈昭和16年〉1月5日 - )は、日本の映画監督・アニメーター・漫画家。
別名として秋津 三朗(あきつ さぶろう)、照樹 務(てれこむ)がある。宮﨑 駿と表記されることもある。
株式会社スタジオジブリ取締役、公益財団法人徳間記念アニメーション文化財団理事長、
三鷹市立アニメーション美術館(三鷹の森ジブリ美術館)名誉館主(初代館主)[3]。
東京府東京市出身。学習院大学政経学部卒業。1963年に東映動画にアニメーターとして入社。
その後いくつかの会社を経てフリーとなり、その間にテレビアニメ『未来少年コナン』、
初の劇場用アニメ『ルパン三世 カリオストロの城』で頭角を現した。
1984年に個人事務所の二馬力を設立し、翌年に高畑勲らとアニメーション制作会社スタジオジブリの設立に
参加(2005年に同社取締役に就任)。以後『となりのトトロ』『魔女の宅急便』『もののけ姫』などの劇場用
アニメーションを監督し、『千と千尋の神隠し』でベルリン国際映画祭金熊賞とアカデミー長編アニメ映画賞
を受賞した。2014年には日本人で2人目のアカデミー名誉賞を受賞した。埼玉県所沢市在住[4]。"}],
  "temperature": 0.7
}'

GPT3.5-turboの出力は以下

{"id":"chatcmpl-6uRNS2oEeWMsysnlf2adqHorBMasF","object":"chat.completion",
"created":1678909626,"model":"gpt-3.5-turbo-0301",
"usage":{"prompt_tokens":628,"completion_tokens":236,"total_tokens":864},
"choices":[{"message":{"role":"assistant",
"content":"\n\n宮崎駿は、日本の映画監督・アニメーター・漫画家で、スタジオジブリの創設者の一人。
『となりのトトロ』『魔女の宅急便』『もののけ姫』などの劇場用アニメーションを監督し、世界中から高い評価を
受けている。また、アカデミー長編アニメ映画賞やベルリン国際映画祭金熊賞を受賞している。
現在は、株式会社スタジオジブリ取締役や公益財団法人徳間記念アニメーション文化財団理事長などを
務めている。"},"finish_reason":"stop","index":0}]}

かなり正確である。
GPT-4に同様の指示を送ると、結果はこうなる。

{"id":"chatcmpl-6uRN6M1I2Lukcw0ZpF6i1f4IuXG5W","object":"chat.completion",
"created":1678909604,"model":"gpt-4-0314",
"usage":{"prompt_tokens":627,"completion_tokens":126,"total_tokens":753},
"choices":[{"message":{"role":"assistant",
"content":"宮崎駿(1941年生まれ)は、日本の映画監督・アニメーター・漫画家で、スタジオジブリの設立者
の一人。代表作に『となりのトトロ』『魔女の宅急便』『もののけ姫』『千と千尋の神隠し』があり、アカデミー賞を受賞
した。"},"finish_reason":"stop","index":0}]}

情報が減ってる。
これで10倍の価格差があるというわけだ。どっちがマシだろう?ただ新しく大規模だからというだけの理由で、10倍の値段を払う価値があるだろうか?
ほんとうにこれが100倍賢いと言えるのか?

いかに世の中の人たちがGPTのパラメータ数にヒステリックに反応しているか伺えないだろうか。

ちなみに、GPTシリーズのAPI利用料金は消費トークン数に比例するので最初から「百文字で説明しろ」とかいう方がお金を節約できる。

結局のところ、「何に使うか」ということが一番大切という視点を持たないと、ただただ「プロ驚き屋」の過剰な驚愕表現に振り回されることになってしまう。

僕の場合、漫画のストーリーを作るとか、原稿を書いて金を稼ぐとかというわりと明確で身もフタもない目的があるので、目的に対してGPT4とGPT3.5-Turboのどっちが得か考えながら使うことになるだろう。いや、普通にお金が勿体無いし。

僕は物語を作るためにGPTブロックのようなものを使う。
その場合、GPTの出力が連鎖するので安価で高速なGPT3.5-Turboの方が僕にとっての"性能"が高いということになる。予想通りではある。

極端な話、もっと素朴な目的ならもっと安いAPIでもいい。

固有名詞の抜き出し、みたいな目的ならbabbegeでもいい

babbage-001の出力

これをGPT-3にしてもあまり変わらない

davinci-003(GPT3)の出力

Babbageは1トークンあたり0.000067円で、GPT3、GPT4は0.027円だから相当値段が変わってくる。

なんならBabbageくらいの芸当をするならAPIを使わずともローカルのGPUでも動かせるGPT2ベースのファインチューニングのほうが軽くて安いかもしれない。まあ固有名詞を抜き出したいだけならもっと素朴な手段(Ginzaとか)を使う手もある。

要は適材適所であり、過度の期待は禁物ということだ。
GPT-4で世界がガラリと変わることを僕は密かに期待していたのだが、予想通り、残念ながらそうでもなかった。

GPTシリーズは毎回、「やばいです」という自己申告と誇大広告気味の主張から始まり、毎回われわれを落胆させてくれるのでもはや慣れたが、ChatGPTで初めてGPTシリーズに触れた人にとっては、最初のガッカリポイントになるだろう。いやまあ、もちろん前よりいいけど10倍の値段を払うかと言われたら、払いどころは考えるよ。むしろOpenAIも「使い所を考えてね」というメッセージを発したいのだと思う。実際、モデルがでかいと動作させる環境も馬鹿でかくなるし、よくこの価格で抑えてくれたなと思う。

GPT4とGPT3.5-Tuboとその他の自然言語処理手法の違いを正しく理解して適切に組み合わせるスキルが当面は必要だと思います。誰にとっても。