はじめに
こんにちは!山本です。
HapInSアドベントカレンダー2023、17日目です。
openaiのgpt4では文章に加えて画像も読み込むことができるのはご存じでしょうか?
説明
gpt-4-vision-previewはGPT-4 Turboモデルに画像を読み込む機能が追加されたモデルになります。画像はリンクかBase64でエンコードした画像を渡す方法があります。
ドキュメントによると得意なことは
- 画像に何が存在するか
- 画像に映っているものの関係性
を理解できます。逆に苦手なことは
- 物体の正確な位置
です。
それでは、実際に得意なことと苦手なことを試してみます。読者の方が再現しやすいようにcurlコマンドを利用します。下記のフォーマットの「質問文」と「画像のURL」に埋め込んで試します。
curl https://api.openai.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer sk-***" \ -d '{ "model": "gpt-4-vision-preview", "messages": [ { "role": "user", "content": [ { "type": "text", "text": 「質問文」日本語で答えてください。 }, { "type": "image_url", "image_url": { "url": 「画像のURL」 } } ] } ], "max_tokens": 300 }' -w "response_time:%{time_total}\n"
得意なこと
何の画像か
質問:なんの画像ですか?
回答:これは自然風景の写真です。画像には木製の遊歩道があり、その周りは緑豊かな草原が広がっています。空は晴れており、広々とした開放感が感じられる風景です。遊歩道は観察や散歩に利用されることが想像されます。
返却時間:11秒