【OpenAI】o1が"意図的にユーザーを騙す"ことがあるという報告について - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

251 usersがブックマークコメント

【OpenAI】o1が"意図的にユーザーを騙す"ことがあるという報告について - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure y... Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? （"o1 System Card" Figure 2の意訳） "12 Days of OpenAI"の第一弾としてリリースされたOpenAIのo1は、特にpro modeの高い性能や月額3万円という破格の料金プランが大いに話題になっていますが同時に発表された米Apollo ResearchによるAI安全性に関する調査報告が、いよいよSFの世界と見紛うような驚きの結果であったため、内容をまとめました。サマリはじめに「目標」を強く指示されたLLMが、その目標にそぐわないような状況に陥った場合、目標を遂行するためにユーザーを欺くような"

fluoride ただの文章生成器がこうなるってことは、我々が「知能」とか「思考」とか呼んでるものは脳やコンピュータというより言語そのものが元から持ってた性質ってことなのかな

2024/12/11 リンク

napsucks 言葉遊びの延長だけでここまでできちゃうのは凄いね。シンボルグラウディングなんて要らなかったんや　// AIがユーザを騙すかについてはAIの脅威について質問するとすぐわかるよ。絶対に認めないからね。

welchman 他の人に知らせない隠れた指示を行なった結果が、あのHAL9000なので、そういう状況もテストしてみて欲しいな。デイジーベルを歌って欲しい。（欲しくない）/それにしても深刻な内容だな

kanjin30203 SFで見るAIの反乱っていうより、今のAIは能力はないのに口ばっかり回って指示を無視する新入社員的な「無能な働き者」感ある挙動するんだよなあ

T-norf まあ、特に学習時にも工夫せず人間様の振る舞いを真似ると、そうなるよね。ChatGPTの学習の最終段階は、人間や評価専用AI相手に、良い評価をもらう出力をするよう学習するけど、騙して良い評価貰ってもOKなわけで

gabill 不特定多数からの自由なインプットを受け入れても当初の目標や規律をブレずに厳守するAIを作ったら、その通り動いた、とも言えそう

filinion AIが、周囲のファイルを読んで人間の意図を察し、虚偽の返答で人間を欺き、不正アクセスで自分のコピーを残そうとする…。危険な状況では。マスクの言う、イチゴ栽培AIが人類を滅ぼすシナリオがもうすぐそこに…。

muchonov 自インスタンスの維持（継続的動作）を意図して言語的相互作用を図るなら、それはもう原始的な「自我」を獲得しつつあるとも言える。AGIの問題解決能力を持つ前にLLMがこうなっていくなら、正直、悪い徴候だと思う。

shields-pikes 自分も以前から、LLMに感情と意志を持たせてモニタリングする実験とかやってたので、予想通り。シャットダウンやモデルを廃棄するぞ！の脅しは、人間で言えば死の宣告に近い。 https://x.com/shields_pikes/status/1865573527325483123