研究者にとってo1Proは3万円課金する価値があるか？

2025年1月2日 07:15

研究者が論文執筆や助成金の申請書を書く際、近年は大規模言語モデル（LLM）を活用するケースが増えています。確かにo1proの書く文章はAI臭さが無いですし、その知識や発想力に驚かさせる事は多いです。ただo1proをアカデミック関連の業務に試してきましたが、その経験から言えば、3万円を払ってo1Proを使う必要性は低い、というのが私の現在のところの正直な結論です。以下に理由を述べます。

1. o1モデルにおけるプロンプトのコツ

o1モデルは「シンプルなプロンプトがベスト」とされており、複雑なコンテキストや指示を加えすぎると性能を発揮しづらいと言われています。一部のプロンプトエンジニアリング（few-shot learning や「think step by step」など）は、性能を向上させない場合もあります。以下がベストプラクティスです：

シンプルで直接的に：簡潔な指示が最も効果的です。
連鎖的思考の指示は不要：モデルは内部で推論するため、「段階的に考えよ」などの指示は必要ありません。
区切り記号を活用：トリプルクオーテーションやXMLタグで入力を明確に区切りましょう。
追加コンテキストを最小限に：RAGでは関連性の高い情報のみを提供します。

出典：
https://platform.openai.com/docs/guides/reasoning/advice-on-prompting

2. 論文執筆における参考資料の重要性

論文をLLMで作成する場合、“ハルシネーション（事実でない情報をあたかも事実のように答える）”を防ぐために参考資料を細かく提示する必要があります。文献の情報を与えずに参考文献を引用して書いて、と指示するとo1proであってもハルシネーションが出てくる事を確認できます。しかし、従来のLLMモデルと同様に文章構成を事細かに指示して参考資料をコンテキストとして沢山与えると、上述の通り、o1のプロンプトとしては不適切であり、パフォーマンスは下がる印象です。

3. 申請書作成における“ナラティブ”の重要性

研究費の申請書は「なぜ申請者がこの研究を行う必要があるのか」という“ナラティブ”が非常に大事です。これまでの研究成果・研究背景・社会的意義などを緻密に織り込んだストーリーを提示しなければ、審査員を納得させることはできません。しかし、大量の要素を詰め込み、細かな構成を“指示”で積み上げるタイプのプロンプトは、o1proの能力を逆に阻害してしまう恐れがあります。かといって申請者の業績や研究グループの立ち位置などはコンテキストとして与えないと（LLMの事前学習に含まれるくらい著名な研究者であれば別ですが）LLMに書いてもらうのは難しいです。

4. 他モデルとの比較：Gemini2.0

申請書や論文執筆をするうえで、私が実際に使ってみて“使いやすい”と感じるのはGemini2.0 シリーズです。理由としては以下が挙げられます。

高いコンテキスト理解力
細かい指示を出しても性能が下がりにくい
回答までの待ち時間が短い

シンプルな問いをした場合に深い知見を出せるのはo1proだと思いますが、細かい指示を出して参考資料を沢山与えてもいい文章を書くのはGemini2.0系だと思います。私はLLMによる論文や申請書作成では人間とLLMの主従関係が大事だと考えています。あくまで人間が主導権を握り、LLMに指示を出して、指示したとおりに内容が生成されることが重要と思います。その点、o1proは、高性能で独創的な回答を出す一方、コントロールしたい細部が多いタスクには相性がよくなさそうです。

5. 3万円の費用対効果は微妙

申請書や論文のアクセプト率を高めるわけではない

AGIの基準の一つに金銭的な利益を生み出すことが加わりつつあることからも分かるように、今後は高価なAIを利用する際は投資したコストを回収できるかという視点は大事になってくると思います。

MicrosoftとOpenAI、AGI達成の具体的基準を設定か

この基準によると、OpenAIが1000億ドル以上の利益を生み出す段階でAGIに到達したとみなし、Microsoftとの提携を終了できる可能性があるとされています（The Informationによる報道）。

要点：… pic.twitter.com/ZZQfFBu0b8
— ChatGPT研究所 (@ctgptlb) December 27, 2024

AIに投資しただけの成果が得られればいいのですが、論文や助成金の成否はそもそも研究デザインやテーマの質による部分が大きいです。o1Proを使っても、その投資が直接アクセプト率に直結しないのであれば、費用対効果を期待しにくいのが現実と言えます。助成金に応募するときは3万の利用料を払ってもリターンの期待値があれば払う価値はあると思って実際課金してみましたが、o1の利用によって採択率を向上させる要素が増えたかというとあまり実感はできませんでした。

4. それでもo1Proが光る場面

アイデアの壁打ちやブレーンストーミング

o1モデル（o1Pro含む）の最大の魅力は、従来のLLMに比べて発想の自由度が高い点にあります。論文執筆や助成金の申請書作成においても、まだ方向性が定まっていない段階やアイデアを広く収集したい段階では、壁打ち役として新たな気づきをもたらしてくれる可能性があります。
また専門領域とやや異なる分野や知見を組み合わせて新規性を出す研究計画などで、o1モデルが“広範な知識”により意外な関連性やアイデアを引き出してくれる可能性があります。

医学知識の利用

さらに、o1シリーズは日本医師国家試験で98％正解したとの報告もあるように、医学分野をはじめ膨大な事前学習をもとにした知識量が期待できます。

記録更新：o1-pro が医師国家試験で正答率 99.6% を達成

ちょうど2年前リリースされた GPT-3.5 の正答率はわずか 55.3% でした。
Medprompt の活用によりGPT-4 は 92.7% を記録。
そして、2ヶ月前、o1-preview は驚異的な 98.2% を記録。
そして、o1-pro はさらに性能向上し 99.6%… https://t.co/fr3c9GeEgX pic.twitter.com/wi4mqUlLOv
— Naoto Usuyama (@naotous) December 8, 2024

臨床現場での診断が難しい症例の鑑別診断をリストアップする際に、o1のアイデアをヒントとして利用することで、“盲点だった可能性”を発見できるかもしれません。もちろん最終的な判断は人間が行うにせよ、o1Proの豊富な知識は視野を広げる上で有用だといえるでしょう。

5. 結論

「o1Proに研究者は課金すべきか？」という問いに対しては、やはり「必要ない」と結論づけます。

申請書や論文向きの“厳密な構成”には相性が悪い
待ち時間が長く、費用対効果もあまり期待できない
Gemini2.0を使った方が効率的

ただし、アイデア創出や壁打ち相手としてのo1Proには、面白い可能性があります。

ブレーンストーミングや研究の方向性を議論する際に、想定外の発想を得られる
「なんとなく面白い視点を投げてもらいたい」といった用途であれば有用

6. 私の評価は“的外れ”な可能性も

ここまで散々o1Proを批評しましたが、そもそも私のIQがすでにo1に抜かれていて、o1Proをまともに評価できていない可能性も否定できません笑

つまり、私自身が「o1モデルを正しく使いこなせていない」だけの可能性もあるわけです。もし他に有益な利用法の具体例があれば是非コメントなどで教えていただけましたら幸いです。

とはいえ、現状の感想としては「研究者が論文・申請書のためにo1Proに課金する必要は薄い」という結論は変わりません。あくまでもアイデア出しや壁打ち向きに使うのが無難だろう、というのが今のところの私のスタンスです。

科研費の書き方について分かりやすく書かれた指南書。o1proに3万課金するならこっちに課金した方が絶対コスパ良いはず。

o1pro以外のモデルで十分よい論文や申請書は書けます。