GPT-4やClaudeなどの大規模言語モデルが抱える「ストロベリー問題」とは？

テクノロジーカテゴリーの変更を依頼記事元:

249 usersがブックマークコメント

GPT-4やClaudeなどの大規模言語モデルが抱える「ストロベリー問題」とは？

大規模言語モデル(LLM)をベースにしたAIは高い能力を発揮できる一方で、ウソにダマされやすいといった特... 大規模言語モデル(LLM)をベースにしたAIは高い能力を発揮できる一方で、ウソにダマされやすいといった特徴があったり、算数の文章題への推論能力が小学生未満という研究結果があったりと、脆弱(ぜいじゃく)さについてもしばしば指摘されます。AIの能力の限界を示す「ストロベリー問題」という脆弱性について、機械学習エンジニアのチンメイ・ジョグ氏が解説しています。 The 'strawberrry' probl em: How to overcome AI's limitations | VentureBeat https://venturebeat.com/ai/the-strawberrry-probl em-how-to-overcome-ais-limitations/ ChatGPTやStable DiffusionなどのジェネレーティブAIは、高度な文章やコードを書けたり、イラストやリアルな画

cryptafro o1-previewは「what is the number of r s in strawberry」→「3」、「「林」の木偏を人偏に変えると何という漢字になりますか」→「休」と、どちらも正解したことをご報告いたします。とんでもねえな... / GPT-4oだと「2」「佞」になった

2024/10/20 リンク

curuusa 人間もこんな感じで間違えやすい→「いっぱいの4文字のうち、いをおに変えると何になる？」「おっぱい」「正解はおっぱお」「おっぱい！おっぱい！」「いやだから正解は」「おっぱい！おっぱい！」「おっぱい！おっ

Nekzuk トップブコメ：Chatgpt-o1ってあまり騒がれてないけど計測によるとIQ120相当あるらしいからな.....単純な計算量のかさ増しでなくシステム構造（段階的な推量構造）にしたことが効いているのかもしれない

hi_kmd 人間の知能も、直感的な判断と、理路建てた推論による判断では結果が異なることがよくある。「知能」というのは、もともとそういうもの。仕組みさえ整えれば、批判のフィードバックで精度を上げることができるはず。

gewaa 「サカナクションを逆さまから読んで」とo1-previewに命令してみたら「ンョクナカサ」と微妙に間違えていた。1文字単位の認識はまだ苦手な模様。AIを見破るのに使える。

sumijk 生成モデルはデータ分布を近似したただの条件付き確率分布で生成はただのサンプリングなので結論部分はそれはそうとしか。そもそも理解や推論、知能がなんなのかわからないのでそれらの否定自体に科学的な意味はない

OkadaHiroshi what is the number of r s in strawberry については、o1-preview, o1-mini, Gemini Advanced (1.5 Pro) では正解した。特に o1-mini の回答が良かった。https://chatgpt.com/share/67148504-1658-8006-a8c2-62c225db5799