GPT-4oとo1($30/月)とo1 pro($200/月)で翻訳を比較しました。
翻訳の元にしたのは以下のツイートです。
これを画像として渡してGPT-4o、o1、o1-Proがそれぞれどんな風に翻訳するか調べてみます。
GPT-4
o1
o1 pro mode
比較と考察
GPT-4とo1の間には明らかに差異があるものの、o1とo1 proの間には、それほど大きな翻訳の質の差は感じられなかった。翻訳対象が事実の羅列だからここにそれほどの差が生まれるわけではないかもしれない。数式を含む論文の場合はまた違った結果になるのかもしれない。
そこで、この物語をそれぞれのAIに拡張させ、脚本形式にしてもらうことにする。
プロンプト「この物語を元にハリウッド映画の脚本を書きなさい。できるだけ詳細に、できるだけドラマチックに、フィクションの要素を入れて構いません。恋愛や葛藤、友情、そして困難に打ち勝つような物語を語ってください」
GPT-4o
o1
o1 pro
感想・考察2
やはりOpenAIのLLMは押し並べて創作に弱いようだ。
同じプロンプトをClaude-3に投げたところ、以下のような物語が出てきた。
はるかに雄弁と言える。まあこれも単体で物語を構成できると言えるほどではないが。少なくともこれに比べるとOpenAIのLLMたちはまだまだ人間的な知性を獲得できたとは言い難いようだ。
でもo1 proはせっかくお金を払っているのでもう少ししつこく聞いてみることにする。
o1 pro
プロンプト:物語が短すぎるし、脚本形式になってない。脚本形式についてちゃんと勉強して書け
プロンプト:シーンの一つ一つが短すぎる。少なくともあと10倍の長さのシークエンスにしろ
長くはなったがまだ足りない。
プロンプト:まだ分量が全然足りない。各シーンの分量を3倍のセリフにし、全体のシーンを2倍に増やせ
へこたれやがった。
AIだろ。言われと通りにやってくれよ
だがプログレスバーは進んでいる。謎だ。
なんか出てきた
うーん。
まだ全体的に「硬い」んだよなー。
こちとら安くない金払ってんだからちゃんとやってくれないと困るんだよねー。
Cluade-3にリファインさせた脚本を見せてこれを参考にしろと言ってみた。
プロンプト:お前の脚本はつまらない。Claude-3にリファインさせた脚本を見せるから、これを参考にもっと感動的な脚本を書け
ちょっと情緒が出てきた。
プロンプト:短くなってる。全体で4倍くらいの長さにしろ
一言何か言わないと気が済まないらしい。
プロンプト:それぞれのシーンが雑になってる。各シーンの長さを4倍にしろ
なんて使えないやつなんだ。お前な。別に1シーンずつ聞いてやってもいいけど、それComputer useがあればどうせ自動化できるやつだぞ。お前はその程度のことも自分でできないのか。
仕方ないのでJavaScriptコンソールを開き、プロンプトを自動生成するプログラムを書いて走らせた。
prompt=document.getElementById("prompt-textarea").innterText
nextprompt=(num)=>{ return "シーン"+num+"からシーン"+(num+5)+"まで詳細なセリフと感情表現を充実させ、ドラマチックな展開を脚本形式で詳細に記述しろ"}
num = 1
prompt.innerText=nextprompt(num);
num+=5;
これで5シーンずつ描かせることができる。
これくらい自分でやれよo1 pro
つ、使えない。本当に月額3万円のサービスなのか。
吾輩のデイリーAIニュースの方が情報量だけはあるぞ。
しょうがないから以前、書籍を書くときに使った「人力forループ」テクニックでこき使ってみることにする。
プロンプト:シーン1からシーン5までを具体的なセリフや登場人物の感情表現を入れながら脚本形式で詳細に書け
同様に続ける
最終的な感想
やはり従前通り、OpenAI系のLLMは情緒表現が苦手で、面白いものを作ることを苦手としている。ドラマチックな話を作ったとしてもかなり陳腐でつまらない。Claude-3とAPIで組み合わせたりしながら議論して作るか、ロールプレイで物語を作る方が向いているかもしれない。いずれにせよ物語生成という文脈で見たときにo1 proにお金を払う価値はなさそうだ。