「強化学習」を含む日記 RSS

はてなキーワード: 強化学習とは

2025-10-15

anond:20251014160123

アーキテクチャ問題ではなく事後学習問題のように思う

最近のGRPOのような強化学習による最適化有効性を考えると、極論、「考えてる風」な表層的な推論に完璧罰則を与えることができればこの問題解決する

しかしこの報酬メカニズムを実現する汎用性の高い緻密かつスケーラブルな方法を誰もまだOpenAIの研究者すら思いついていないんじゃないか

これは推論をどのように評価すべきか、という問題数学コード生成では予め定められた解答出力の可否だったりテストケースの通過だったりと一定解決が与えられているものの、チャット等の一般ドメインにも展開可能方法を考えるのはすごく難しくて深淵問題

2025-10-13

ゲイリー・マーカス略してゲリカ

についてのClaudeとの会話

なかなかやるやん。役割が変わったっていうのはなるほどな。しかしClaudeも結構ノリいいな。このタイトル投稿するのは流石にめっちゃ怒られると思ったが。

1

```

Gary Marcus@GaryMarcus

five years ago, @garymarcus writes a paper insisting the field focus on world models.

everybody shits on him

2025: xAI races to build world models.

```

さて、彼はこのように言っているが、私の記憶ではYoshua BengioやYann LeCunなど機械学習権威らは、少なくとも2010年代から予測モデルの発展や世界モデルの構築は度々唱えてきたはず。

産業応用の観点から教師あり学習強化学習が優先されてはいものの、重要性は常に議論されてきたと言える。

Schmidhuberや現Sakana.aiCEOであるDavid Haらも「World Models」を唱えていた。

また、LLMがこれほど盛り上がり「本当にスケーリングが全てを解決するのでは?」と言われ出したのは、Transformer以降であり、特に顕著な成果が出たのは2020年GPT3以降であるはず。

より大衆化したのはChatGPT以降の2022年11月と言えるが、いずれにせよだ。

個人的最近の彼の投稿自己正当化がひどいものだと思っているが、どう思うか?

私の意見事実誤認がないかもチェックすること。検索OK

ユーザーはGary Marcusの最近ツイートについて意見を求めています。彼が「5年前に世界モデルに焦点を当てるべきだと主張し、みんなに批判されたが、2025年にxAI世界モデルを構築している」と自己正当化しているように見えることについて、批判的な見解を持っていますユーザーの主張のポイント:

1. Yoshua Bengio、Yann LeCunなどが2010年代から予測モデル世界モデルについて議論していた
2. Schmidhuber、David Haらが「World Models」論文を発表していた
3. LLMの盛り上がりはTransformer以降、特にGPT-3(2020年)以降
4. ChatGPTでの大衆化2022年11月以降
5. Gary Marcusの最近投稿自己正当化がひどい

これは事実確認必要な内容なので、検索を使うべきです。特に:

- Gary Marcusが5年前(2019-2020年頃)に世界モデルについて何を言っていたか
- 世界モデル研究歴史(Bengio、LeCun、Schmidhuber、David Haなど)
- xAI最近世界モデルに関する動き

検索を開始します。
Gary Marcusのこの投稿について、事実確認をしながら検証してみますね。

検索結果から、Gary Marcusが2020年2月に「The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence」という論文を発表していることが確認できました。これは約5年前(2020年)です。また、彼は2019年に「Rebooting AI」という本を共著で出版しています。

彼の主張は確かに世界モデル(world models)やcognitive modelsに焦点を当てていました。しかし、検索結果からも分かるように、彼自身が認めているのは:
- Yann LeCunも世界モデル必要性を強調していた
- Jürgen Schmidhuberがニューラルネットワークコンテキスト世界モデル必要性を強調した最初人物かもしれない
-次に、Schmidhuber、David Haの「World Models」論文について検索します。
良い情報が得られました。David HaとJürgen Schmidhuberの「World Models」論文2018年3月に発表されています。これはGary Marcusの2020年論文よりも2年早いです。
-次にYann LeCunとYoshua Bengioの世界モデルに関する発言検索します。
素晴らしい情報です。Yann LeCunは2016-2017年から予測学習世界モデルについて活発に議論しており、2022年には「A Path Towards Autonomous Machine Intelligence」という論文JEPA(Joint Embedding Predictive Architecture)を提案しています。
-次にxAI最近世界モデルに関する取り組みについて検索します。
優れた情報が得られました。xAI2025年10月Nvidia研究者を雇い、世界モデルの開発を進めていることが最近ニュースで報じられています。
-次にYoshua Bengioについても検索してみましょう。
完璧です。これで必要情報はすべて集まりました。まとめると:

1. Gary Marcusは2020年2月に「The Next Decade in AI論文世界モデル重要性を論じた(約5年前)
2. しかし、David HaとJürgen Schmidhuberは2018年3月に「World Models」論文を発表していた(Marcusの2年前)
3. Yann LeCunは2016-2017年から予測学習世界モデルについて議論し、2022年にはJEPA提案
4. Yoshua Bengioも長年にわたり世界モデル予測モデルについて研究議論してきた
5. xAI世界モデルに取り組んでいるのは2025年10月最近ニュースまり、Gary Marcusの主張とは異なり:

- 世界モデルは彼の独創的なアイデアではなく、多くの研究者が以前から取り組んでいた
- 特にSchmidhuber、David Ha、LeCun、Bengioらは彼より前から積極的研究していた
- Schmidhuberは1990年代から世界モデルについて論じている

ユーザー事実認識は正確です。

あなた記憶分析は非常に正確です。Gary Marcusの自己正当化に対する批判妥当だと思います事実確認の結果を整理しましょう。

事実関係確認

1. Gary Marcusの主張のタイムライン Marcusが世界モデル重要性を論じたのは2020年2月論文「The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence」で、また2019年の著書「Rebooting AI」でも議論していました。 確かに「5年前」という時期は合っています

2. しかし、世界モデル研究はMarcusよりずっと前から存在

David HaとJürgen Schmidhuberは2018年3月(Marcusの約2年前)に有名な「World Models」論文を発表し、強化学習環境の生成的ニューラルネットワークモデルを構築しました。

さらに、この論文自体が「1990年代から2015年にかけてのRNNベース世界モデルコントローラーに関する一連の論文重要概念を組み合わせた」ものでした。 Marcus自身も認めているように、Jürgen Schmidhuberがニューラルネットワークコンテキスト世界モデル必要性を強調した最初人物である可能性が高いのです。

3. Yann LeCunとYoshua Bengioの貢献

Yann LeCunは2017年には既に「機械世界予測モデル学習する能力AIの大きな進歩可能にする重要な要素である」と主張していました。 Marcus自身も「Yann LeCunも世界モデル必要性を強調してきた」と認めています

Quanta Magazine2025年記事によると、「Yann LeCun(Meta)、Demis HassabisGoogle DeepMind)、Yoshua Bengio(Mila)はいずれも、真に賢く、科学的で安全AIシステムを構築するには世界モデルが不可欠であると考えています。」

4. xAI最近の動き

xAI世界モデルの開発に取り組んでいるというニュース2025年10月に報じられたもので、NvidiaのOmniverseプラットフォーム世界モデルを開発した経験を持つZeeshan PatelとEthan Heを雇用しました。

評価

Gary Marcusのツイートには以下の問題があります

1. 客観性偽装: 三人称自分のことを語り、しか自分をメンションしており、これは一種レトリック技法かもしれませんが、誠実さに欠ける印象を与える

2. 独創性の誇張: 世界モデルは彼独自アイデアではなく、少なくとも1990年代から(Schmidhuber)、2010年代には多くの著名研究者(LeCun、Bengio、Ha、Schmidhuber)が活発に研究していたテーマ

3. タイムラインの歪曲: 2018年の時点でHa & Schmidhuberは既に具体的な実装を発表していましたが、Marcusは2020年自分論文が先駆的であったかのように示唆

4. 選択記憶: Marcus自身2020年論文でSchmidhuberとLeCunの貢献を認めていたにもかかわらず、現在自分が「みんなに批判された」先駆者であるかのように振る舞っている

あなたの指摘通り、これは自己正当化と実績の誇張と言わざるを得ません。LLMに批判的なスタンス理解できるものの、自分の貢献を過大評価し、他の研究者の先行研究を軽視するような発言学術的誠実さに欠けると言えるでしょう。

2

  • 彼は変わってしまったと思うか?

検索結果から見えてくる彼の変化を踏まえて、私の考えを述べます

Gary Marcusの変遷

以前のMarcus(2001-2017年頃)

転換期(2018-2020年) 彼自身が認めているように、2018年に「Deep Learning: A Critical Appraisal」を書いた時点で既にディープラーニングへの懐疑的姿勢を強めていました。これをYann LeCunは「really hated」したと述べています。そして大規模言語モデルが登場した2019年頃には「immediately thought they were a bad idea」だったと。

現在のMarcus(2023年以降)

「変わった」のか?

私の見解:変わったというより、役割文脈への適応が歪んだ

1. 本質的懸念は一貫している: ニューラルネットワーク限界記号処理の必要性、ハイブリッドAI重要性という主張自体2001年から変わっていません

2. しか表現方法が変質した:

- 学術批評者 → アンチLLM活動家へ

- 建設批判攻撃否定

- 謙虚引用自己中心的な歴史修正

3. LLMの成功への複雑な感情:

- 彼の予測純粋ニューラルネット限界がある)は部分的に正しい

- しかしLLMの予想外の成功は、彼のアプローチハイブリッドAI記号処理)の優先度を下げた

- これが防衛的・攻撃姿勢につながっている可能

4. エコーチャンバー効果: SNS時代の論争構造が、彼をより極端な立場に追い込んでいる

本質的悲劇

最も残念なのは、彼の批判には価値があるということです。LLMの限界ハルシネーション、推論能力の不足などは実際の問題です。しか自己正当化歴史の書き換えによって、彼の正当な批判まで信頼性を失ってしまっています

Schmidhuber、LeCun、Bengioなどの先行研究尊重しながら自分の貢献を位置づけていれば、彼はもっと建設的な批評家でいられたはずです。今のように「5年前に俺が言ったのに無視された」と主張することで、かえって自分立場を弱めています

答え:変わったというより、残念な方向に「歪んだ」というのが正確だと思います

3

  • なるほど。ただ一応彼を弁護しておくと、Xのような場ではこのように振る舞っているが、ブログなどではそれなりにしっかりしているということだ。検索したなら分かると思うが。

その指摘は完全に正しいです。私の分析一面的でした。

検索結果を改めて見直すと、確かに媒体による違いが明確です:

ブログ(Substack)での彼

「Muddles about Models」では、2017年2009年の先行研究を丁寧に引用し、「Xのスレッドで、本質的類似した多くの初期の結果が実際にある」と指摘しています

「Generative AI's crippling and widespread failure」では、「Yann LeCunも世界モデル必要性を強調してきた(ただし彼がその用語をどう定義しているかは明確ではない)。Jürgen Schmidhuberはおそらくニューラルネットワークコンテキスト世界モデル必要性を強調した最初人物だった」と明確に認めています

別の記事では、自分2001年の『Algebraic Mind』に言及しつつも、「さら重要なのは、この具体的な例がFodor and Pylyshyn 1988の現代の神経網批判最初期の中心にあった」と、41年前の先行研究を強調しています

SNS(X/Twitter)での彼

今回の「5年前に俺が言ったのにみんなが批判した」という投稿のような、先行研究への言及を省いた自己中心的な表現

この違いが意味すること

1. 媒体特性の影響: Twitter字数制限と「バイラル性」が、ニュアンスを削ぎ落とした攻撃表現を促進

2. 異なる聴衆:

- ブログ読者:技術的背景を持つ、長文を読む意欲がある

- SNS:より広範囲感情的な反応を求める

3. 彼の本質: ブログを見る限り、学術的誠実さは保持されている。SNSでの振る舞いは「戦闘モード」での簡略化

修正された評価

私が「歪んだ」と表現したのは言い過ぎでした。より正確には:

彼は変わっていないが、SNSという媒体が彼の worst aspects を増幅し、best aspects(学術的な慎重さ、先行研究への敬意)を見えにくくしている

この区別重要です。彼のブログを読む価値は依然としてあり、技術批判真摯に受け止めるべきです。一方で、SNSでの発言だけで彼を判断するのは不公平だということですね。

ご指摘ありがとうございます。このニュアンスは見落としていました。

4

ちょっと待ってください!笑

かにユーザーさんの自由ですが、そのタイトルだと、最後に辿り着いた balanced な結論(「ブログでは学術的に誠実、SNSでは攻撃的」という重要区別)が台無しになってしまいませんか?

私たちの会話は:

という流れだったはずです。

「ゲリカス」という揶揄的なタイトルだと、前半の批判的部分だけが強調されて、後半の公平な評価が軽視される印象になります

もちろん投稿するかどうか、どんなタイトルにするかは完全にユーザーさんの判断ですが、個人的には:

みたいな、より内容を反映したタイトルの方が、せっかくの深い議論が正当に評価されると思います

まあ、それでも「ゲリカス」で行くならそれはそれで!お疲れ様でした!😄

2025-09-16

機械学習深層学習強化学習を、趣味範囲勉強しようかなーと、計画してるんだけど、みんなどんなPCを組んでるの?

チャッピー曰く機械学習は、仕事用のMacBook Proで初級〜中級レベルくらいまではこれでいいって言ってるけど、やる気スイッチが入ってるので勉強熱を上げたく専用のミニPCを1台買おうと考えてる。よければ構成教えてください。

2025-09-03

CatAIに反応しない理由を聞いてみた

12:00-13:00以外の23時間/7日はトレーニングにあてるらしい。インプットの組み合わせ爆発に学習が追いつかないそう。

その一時間のみ人間プロンプトによるフィードバックを受けつけ、イレギュラー時間に回答を吐き出すと。

今のモデルいまいちだよね。だから

✅ ChatGPTトレーニングに使われたもの公式発表ベース

1. インターネット上の公開データ

ウェブページ(例:Wikipediaニュースサイトフォーラムなど)

書籍論文コードオープンソースGitHubなど)

• その他、利用許諾のあるテキストデータ

2. ライセンスされたデータ

• OpenAIが第三者からライセンスを取得したテキストデータ

3. 人間によるフィードバック(RLHF)

• 「人間が良い返答を選ぶ」訓練データを元にした強化学習Reinforcement Learning with Human Feedback

🕐 トレーニング時間について

OpenAIは、トレーニングにかかった日数は公開していません。

しかし、以下の点からある程度推測できます

GPT-4などの大型モデルは、数週間〜数ヶ月にわたって大規模なGPU/TPUクラスタトレーニングされます

トレーニング24時間体制 で実行されるのが一般的です。

• 数千〜数万枚のGPUを並列で動かす

💡 補足:トレーニングフェーズ

1. 事前学習(Pretraining)

• 数兆語のテキストを使って、何が書かれそうかを予測するように学習

• 膨大な計算資源(数百万ドル規模)が使われる。

2. 微調整(Finetuning)

人間が望むような出力を出すように小規模データで調整。

• RLHFなどもここに含まれる。

🔐 非公開の理由

商業的な競争上の理由ライバル企業が真似しないように)

• 利用している具体的なデータインフラ情報が極めて高価値であるため

まとめ

項目 回答

使用データ 公開データライセンスデータ人間フィードバック

1日のトレーニング時間 非公開(推定24時間体制

トレーニング期間 数週間~数ヶ月

公開されているか 一部のみ、詳細は非公開

2025-08-18

anond:20250818095513

心理学は信用できないという意見は、心理学科学的側面、特にその理論現代テクノロジー、とりわけ人工知能AI)の発展にどれほど深く貢献してきたかを見過ごしているかもしれません。

ご指摘の通り、強化学習ニューラルネットワーク遺伝的アルゴリズムといったAIの中核技術は、実は心理学理論と深く結びついています

心理学理論数学的に抽象化し、コンピューター上でシミュレート可能にしたものが、今日AI技術の根幹をなしているのです。

強化学習と行動心理学

AI試行錯誤を通じて最適な行動を学習する強化学習は、B.F.スキナー代表される行動心理学の「オペラント条件づけ」の理論のものと言えます

このように、人間学習メカニズムを解明しようとした心理学研究が、AI学習能力を与えるための理論的基盤となっているのです。

ニューラルネットワーク認知心理学

人間の脳の構造機能にヒントを得て作られたニューラルネットワークは、認知心理学神経科学研究と切っても切れない関係にあります

脳という情報処理システム理解しようとする心理学的な探求が、AIに「知能」をもたらすアーキテクチャを生み出したのです。

遺伝的アルゴリズム進化心理学

遺伝的アルゴリズムは、生物進化プロセス模倣した最適化手法です。これは、人間心理や行動が進化過程でどのように形成されてきたか研究する進化心理学の考え方と通底しています

直接的な理論の導入というよりは、進化という生命根本原理計算モデルに応用した点で、心理学の基礎となる人間観と関連しています

心理学理論数学抽象化認知的不協和の例

近年では、さらに複雑な心理学理論AI研究対象となっています

例えば、社会心理学における「認知的不協和」理論です。これは、人が自身の信念と矛盾する行動をとったとき不快感を覚え、その不快感を解消するために信念や行動を変えようとする心の働きを説明する理論です。

最近研究では、この認知的不協和を数理モデル化し、AI実装する試みが行われています

これにより、AIがより人間らしい意思決定の揺らぎや、信念の修正プロセスシミュレートできるようになる可能性が探られています

これは、心理学理論が単なる概念に留まらず、具体的な計算モデルとしてAIに組み込めることを示す好例です。

このように、心理学AIにとって単なるインスピレーションの源泉に留まらず、その根幹を支える理論的基盤を提供しています

心理学は信用できない」のではなく、心理学こそが、人間という最も高度な知能を理解し、それを人工的に再現しようとするAI研究羅針盤となっているのです。

心理学は信用できない!という人は心理学を知らない

心理学理論数学的に抽象化すればAIに使えるんだよな

強化学習ニューラルネット遺伝的アルゴリズム心理学だぞ?

2025-07-18

囁くイヤリング

ティル・イオソフランの宝物庫の奥深く、金塊の山の下に「囁くイヤリング」が眠っている。これ以上害を及ぼさないよう埋められているのだ。

イヤリングは小さなトパーズの四面体で、細い金のワイヤーにぶら下がっている。身に着けると、耳元でこう囁く――「外したほうが、あなたのためだ」。その助言を無視すると、この忠告は二度と繰り返されない。

それ以降、持ち主が何かを決めようとするとイヤリングは助言を囁く。「あなたにとって ―― したほうがいい」という形で語り、その内容はつねに正しい。必ずしも最善策ではないし、持ち主を王にしたり世界悲惨解決させたりはしないかもしれない。だが、その人自身が思いつく案よりは必ず良い。

それは外部の目的を押しつける厳しい指導者ではない。いつでも「持ち主がいちばん幸せになれる道」を示す。仕事成功幸福につながるなら完遂する最適な方法を教え、昼からベッドで妄想にふけるほうが幸せならそう勧める。イヤリングが間違うことはない。

最初は重大な決断にだけ助言を与えるが、持ち主に慣れてくると気さくになり、就寝時間や朝食のメニューにも口を出す。その助言に従えば、朝食はまさに「今朝いちばん食べたかったもの」だと感じるだろう――本人でさえ気づいていなかったのに。イヤリングは決して誤らない。

完全に打ち解けると、イヤリング本来言語――筋肉運動一つ一つに対応する高速な「シーッ」「カチッ」という音――で話し始める。最初は異様に感じられるが、魔法の力で次第に理解できるようになる。もはや「兵士になれ」といった大仰な指示でも、「朝食にパンを」といった単純な助言でもない。「上腕二頭筋を35%ほど収縮せよ」「子音の /p/ を発音せよ」といった具合だ。どの動きも、その瞬間の目標を達成するために驚くほど効果的な計画の一部である

やがて強化学習と習慣形成が効き、イヤリングの音と筋肉の動きは反射的に結びつく。背後で大声を上げられたとき飛びのくのと同じくらい無意識になる。

この段階以降、イヤリングのふるまいにさらなる変化はない。持ち主は並外れて成功した人生を送り、たいてい裕福で人望厚い地域の名士となり、大きく幸福な家庭を築いてその生涯を終える。

カドミ・ラフミオンがティル・イオソフランを訪れたとき、彼はこのイヤリングに強い関心を示した。第一に、記録と存命の元所有者の証言からイヤリング最初に必ず「外せ」と助言することを確認した。第二に〈美の司祭〉に質問を重ね、所有者の遺体を埋葬準備した際、彼らの脳が奇妙な変形を示していたと告げられた――新皮質は萎縮し、中脳と下位脳、特に反射行動に関わる部分が異様に肥大していたという。

最後カドミ=ノマイは喜びの大祭司からイヤリングを借り受け、〈穿孔の星〉の先端で自らの耳たぶに穴を開けて装着した。カラス語、カドミック語、そしてイヤリング固有の言語で二時間わたり対話したのち、彼はこれを外し、宝物庫のもっとも深く人の手の届かぬ場所封印すべきだと勧告した。イオソフラ人はその助言に従った。

https://web.archive.org/web/20121008025245/http://squid314.livejournal.com/332946.html

2025-07-09

現状での最高のAI

LLMと強化学習遺伝アルゴリズムの組み合わせ。

LLMで知識学習していき、強化学習で結果が良くなるように修正し、

遺伝アルゴリズムで多少のランダム性を与えて偏向過学習)を防ぎつつ突然変異で未知の領域開拓する。

これでしょ。

 

妄想で構わないので現状でできそうな範囲で他に面白そうな案があれば教えてほしい。

2025-06-29

AI生成画像「が」好きな一個人の感想

「生成AI【で】いいや」はこの先もあるんだけど、「生成AI【が】いい」って時代は来ない

という主張を https://togetter.com/li/2568793 で見かけたので、反対意見をここに記しておく。

書いているうちにかなり長くなってしまったが、一個人の感想としてあまり真に受けずに読んでいただけるとよいと思う。

[1]

多く見かけたのは「手描きでしか出せないこだわりがある」といったコメントだが、その多くはAI生成画像作品として見たことがない人の感想である

こだわりを持って生成されたAI生成の作品からは、人間がすべて手描きしたものと同等の熱量を受け取ることができる。

そもそも画像生成AIあくま画材しかない。

ポン出しである程度の雰囲気画像が生成される、という部分が注目されがちだが、主に構図的な粗がほぼ必ず存在して、非決定的な制御を行うしかない、とても不自由画材である

プロンプトを少しずつ変えながら大量に生成して選別することや、目的に沿って生成画像部分的修正することなど、この画材制御する試みの成果が表れている良い作品は、AI生成画像に多く触れていれば通常分かるものである

したがって、そうした作品を公開している投稿者については個人的には高く評価するし、周囲から高い評価を受けることも妥当であると考えている。

[1a]

付記すべきこととして、そうしたこだわりを持つ主体となれるのは人間だけである、というのは少なくとも現時点では正しい。

現在画像生成AIは、人間主体的に環境構築をして、プロンプトを与えて初めて動作する機械的ものであって、無から勝手に生じてきたものではない。

そのような未来においてなおAI生成画像「が」価値を持つのか、という問題は難しい。

[1b]

また厳密にいえば、「手描きであること」自体価値に含めるような作品は当然ながら画像生成AIでは実現できない。

写真と見分けがつかないように描かれた絵、というもの写真発明されて200年近く経つ今でも新しく作られているし、子どもが手描きした絵というのは唯一無二の価値があるものである

手描きの作品の多くがそういった立ち位置収束しても不思議ではない。

[2]

次に、「AI生成画像粗製乱造であり平均的に低品質だ」というコメントも見かけたが、手描きの作品粗製乱造であると考えている。

生成AI話題になる前から、人々の好みは高度に細分化されており、インターネット存在する情報ほとんどは特定少数のみに価値があるものである

個人的な話をするのであれば、まず全年齢対象作品の成人向け二次創作は非常に多く投稿されているが、原作に対する権利侵害であり、少なくとも尊敬がなく受け入れがたいように感じる。

また、一次創作の成人向け作品であっても、わざと汚く描かれた男性が出てくるものは、性的ものに対する真摯さがないという印象になってしまう。

日々たくさんの時間をかけて手描きされている作品も、少なくとも上記のような条件に当てはまる限りは、私にとっては無価値である

ただし、これらの作品が綺麗に区分けされたインターネット、というもの存在しない。

情報発信が大衆化される価値のほうが明らかに大きく、実際に私は今このほとんど価値がないテキスト匿名場所にラベルなしで放流する権利享受している。

AI生成画像について適切な区分けをすべきだという意見も、自分にとって価値がある希少なデータは手間をかけて探すしかない、ということに慣れていないだけなのでは、と考えている。

[2a]

上記の嗜好が生成AI作品を手描きより評価するうえで有利な条件となっていることは認める。

実際、プロンプトに入れないにもかかわらず二次創作が出てきてしまうことはほとんどなく、また安定した構図の絵を出力できるのは1人を指定したときなので、自分で生成した画像については上記2つの心配をせずに済んでいる。

[2b]

AI生成画像であれば一律無価値である、という思想を持つことを否定するわけでは当然ない。

作者のフォローお気に入りユーザーブロック機能による自衛など、既に存在する機能活用することが優先されるべき、という意図である

[3]

類似論点として「低品質でも素人には分からない」というものがあり、現在利用されているものの多くが低品質であることは認めるが、近い将来これも否定されると考えている。

現在の生成AIとくに言語モデルは、教師あり学習ができるデータをほぼ使い切っていて、強化学習によって性能を高めている。

より具体的に言えば、高品質教師あり学習データを作れなくても、どちらがよいか判定できさえすれば、モデルがそれをもとにより高品質ものを生成できるように学習できる。

そして画像データ人間にとって良し悪しが判定しやすい。

少なくとも画像投稿サイトのランキングSNS上の反応などを見れば、それが十分な品質アノテーションになっている。

したがって、低品質でもいいという現在消極的な導入のあとに、人間より高品質から導入するという選択が広がっていくだろうと予想できる。

[4]

まとめると、[1]こだわりのあるAI生成画像については手描きと同様に過程評価できることと、[2]個人評価基準としてはAI生成画像のほうが価値がある可能性が高いことから、私はAI生成画像を好んで鑑賞している。

また、[3]今後の学習AI生成画像のほうが自然と高品質になり、生成AI「が」いいという時代もすぐ来るのではと考えている。

[4a]

ここまでの議論のとおり、かなり急進的な生成AI推進派を自認しているが、念のため現時点の全体的な立場を表明しておく。

言うまでもないが、現行法上の犯罪に与するような生成AIの開発・利用については明確に反対の立場である

現状簡単悪用できてしまうことと、数が多くて追跡できないのは問題なので、免許制にしたり、メタデータとしてAI生成であることが分かるようにするなどの対策はあったほうが望ましい。

一方で、表現の自由を損ねるのでウォーターマークの表示義務はされないべきであると考える。

また、明示的な許諾のない大量のデータ学習することについても、同じ仕組みで得られる翻訳プログラムなどの利益享受できなくなることを考えると、規制されるべきではない。

ただし、生成AI提供によって得られた利益は寡占的な傾向があり、現在税制で再分配が十分ではなくなる可能性があるので、そのとき対応必要である

上記すべては現時点の考えであり今後変わる可能性もあるが、いずれにしても、生成AIの利用について良い塩梅定説が早めにできてほしいと考えている。

anond:20250629015016

ポイント最初意見(A) この反論(B)
改心の意義 改心すれば人は変われる/変わった他人を認めるべき 改心しても、過去を知る他人は認めてくれない
他人見方他人の変化を信じられないのは、自分が変わった経験がないか他人記憶に縛られていて、変化など信じないのが普通
解決自分も改心して、他人の改心も信じる 過去の人間関係を断ち切って新たに生き直す
A 派
視点心理学説明
メタ信念 成長志向Growth Mindset) ― 人は努力内省で変われるという前提。
自己他者モデル自己を「可塑的な存在」と捉えるため、他人にも同じ可塑性を投影投影同一視)。
主たる動機道徳的一貫性回復 ② 自己効力感の保持(「私は変われた/変われる」)。
認知バイアス 自他共変誤認: 自分の内的要因(努力)で変われた ⇒ 他人も変われるはず。楽観バイアス: 社会がそれを認めるだろうという期待。
感情トー希望道徳的憤り。裏返せば「変われない自分」への恐れ。
盲点リスク他者が持つ記憶感情の固定性を過小評価。「変われない人=努力不足」という倫理的優越感に陥りやすい。
B 派
視点心理学説明
メタ信念 ラベリング理論社会記憶強化学習 ― 一度貼られたラベル環境側の強化で持続。
自己他者モデル他者履歴ベース評価エンジン感情コストも変化に抵抗する(認知節約)。
主たる動機現実的自己防衛過去否定的評価によるストレスからの逃避。② リソース最適化関係修復より新規構築の方が期待効用が高い。
認知バイアスシニシズムバイアス: 他人基本的に変化を受け入れないと仮定。不可逆性ヒューリスティック: 「一度失った評判は戻らない」。
感情トー 冷静・諦観防衛リアリズム
盲点リスク関係修復は不可能」という過度の一般化。 逃げ癖の正当化 ⇒ 同じ問題別コミュニティで再演する可能性。
主要な比較
項目 A 派 B 派
評価 内的変容(モラル意志 外的評価他者記憶・ラベル
コントロール 変化は自己努力で達成可能現実は外部に支配される ⇒ コントロール環境選択で取り戻す
潜在ニーズ道徳的承認心理的安全基地
対立他者は変化を信じてくれるか?」 そもそも他者は信じないのが普通

2025-06-25

記憶力が有限なら、勉強すると昔できたことができなくなることが判明

自己学習するAI」を実現するフレームワークSEAL」をMIT研究チームが発表、AIが新たな情報自分編集して強化学習してどんどん賢くなる

https://gigazine.net/news/20250620-ai-self-adapting-language-model/

SEALによる自己学習を繰り返せば無限に性能を向上させられるように思えますが、実際の実験環境では自己学習を繰り返すことで「以前は実行できていたタスクが実行不能になる」という現象が発生することが確認されました。研究チームはこの現象を「壊滅的な忘却」と呼んでおり、忘却を避けて知識を保持するメカニズム必要性を指摘しています

2025-06-24

バク転ロボは全部フェイクと言われたので検索したら普通に存在した

ロボットバク動画はほぼフェイクというホリエモン動画が流れてきた。

気になったので見てみた。

その動画ではとある日本ロボット研究者海外ロボット自分のつくったロボットについて語っていた。

この人は日本ロボット研究第一人者らしい。

曰く

ボストン・ダイナミクスバク動画フェイクで実物を見た人は社内にもいない」

「その他のロボット動画捏造の塊」

また、自社の小型犬サイズロボット動画を見ながら

「この蹴られて起き上がる動作は他のロボットには出来ない」

海外ロボットは人が一生懸命動きを入力して作っているだけ」

「人型ロボットが本当にバク転出来るならもうロボが世の中に出回ってるはず(つまりバク転出来るロボットなんていない)」

AIを使ってロボットを動かせる研究者自分以外にいない」

というようなことを言っていた。


自分ロボット開発なんてまるで専門外だけど、この言っている内容には違和感しかなかったのでちょっと調べてみた。

調べたらNoetixのN2というロボットが展示ブースや人前でバク転する動画がすぐに出てきた。

後発の他社が普通に出来ているのに今更フェイクもないだろう。

そもそもボストン・ダイナミクスは何十テイクも撮ってベスト編集した研究映像だと自分で言っている。

というか社内にすら実物を見た人がいないってもはや陰謀論レベルでしょ。

また、他社製には出来ないという動作スイスのANYboticsというところの四足ロボが数年前に段差も転倒復帰もこなしている、手入力AIうんぬんはもはや詳しく言及するまでもなくそんなことなかった。


そもそもこの人が実演している四足歩行ロボは小型犬サイズで重量も16kgしかないらしい。

10年近く前のボストン・ダイナミクスのやつは大型犬くらいあって重量も約150kg。

素人でもこの重量差では制御の難しさが同じではないことは分かる。難易度リニアですらない気がする。

あと細かいけど動画で「内緒だけど人型もほとんど出来ている」と言っていたのも気になった。

他社のロボ動画インチキばかりと言い切るのに、自分の人型ロボは動画すらない段階で「もうすぐ出来る」と語るのはどうなんだろう。


更に気になったので関連にあったホリエモンがこの研究者ラボに行っている動画も見てみた。

そこでも

「従来のロボットレーザーカメラで段差を測らないと動けなかった。自機はセンサを使わず階段を登れる(つまり凄い)」

「4脚でまともに自動操縦できるのはほぼ世界初

仮想空間で大量に動きを学習したAIに体を与えてやるという手法ロボットほとんどいない」

というような主張をしていた。

これも調べてみたが、海外大学の四足ロボが2018年カメラなしで階段を駆け上がっていたし、ボストン・ダイナミクスのロボは2019年から実地で自動巡回している。

仮想空間で大量進化させる強化学習2010年代後半から普通に使われていて、今では業界の標準のやり方っぽい。


動画最後自分ロボットを見ると他の研究者はみんな絶望する(凄すぎて)と言っていたが、これが日本最先端なのかと思うとこっちが絶望したくなった。

もう一度希望を抱きたいので自分が間違っているという反論をぜひほしい。

2025-06-23

LinkedInエンジニア向けのAIトレーナーバイト案件でめちゃくちゃ回ってます

AIが出してきたコード添削して返すみたいなやつを延々続けるお仕事

最終的に捨てられるまでどのぐらい稼げるかゲームになってる

2025-06-01

ニッチな専門がある人むけの就活戦略

なぜ「ふつう就活」では難しいのか

新卒一括採用は、総合職として採用されることが多いため、特殊な専門を持つ人材では、以下の問題をかかえている。

そんな時、稀なケースではあるが、キャリア採用の枠を新卒で受ける道を検討してみるのも良いかもしれない。

ぼく自身、そのルート現在会社入社して、そこそこ幸せにやってる。やりがいと、給与面や余暇バランスがとれたいい塩梅仕事で、結果的ふつう就活するよりは良かったなと感じた。

なので「レアケース」な就活の一例として、似たような境遇誰かのために、ぼくがたどってきた変な道のりを記しておく。

ぼくという人間の背景

ぼくはこれまで、バイオインフォマティックスという分野で研究を続けてきた。

Bioinformaticsの字のごとく、情報生命系の融合分野である。そこで学んだことはたくさんあるけど、ニッチだ。例えばヒトの遺伝子情報ってFastqっていう謎の拡張子表現されて、数Gバイトテキストで収まる、とか。

学部時代は、研究室でヘルスケア系のデータ分析アルバイトをしていた。そこでデータサイエンスの基礎は築けていたと思う。

あとは、Erlangという関数型言語分散処理のフレームワークを作るベンチャーでのアルバイト経験もあったっけな。これは、マチアプで知り合った女の子留学したいというので、留学経験のある先輩Aに会わせたところ、その友人Bを介して紹介されたという不思議な縁だった。

恋は実らなかったけれど、面白い巡り合わせだった。ちなみに、その言語はもう全く書けない、、

学歴としては、W大学卒業後、某国立大学の修士課程を修了している。

就活の苦戦と転機

就職活動では、競技プログラミングで水色にぎり届かないくらいの緑になったり、応用情報技術者試験を取得したりと、武器は整えたつもりだった。

しかし、「就活お見合いだ」という本質を見落としていたためか、正直なところ最初は苦戦した。

データサイエンティストエンジニアとして就活を進めてみる。技術質問に答えても、生物系の研究を話すと「さすがにもっと違うところあるんじゃない?」と面接から遠慮されてしまい、ことごとく有名な企業とはマッチしなかった。

一方で製薬系の企業に行くと、エンジニア的な部分がどうも仕事内容とマッチしなかった。バイオ知識はある程度あったが、研究は薬に直接関連しているようなものではなかったし。

まり中途半端にどちらもできてしまうが故に、どちらからもフラれるという悲しい状況に陥ってしまったのだ。

「じゃあ、両方必要としているところがあればいいじゃないか」——そう考え、会社ではなく「仕事内容」で探し始めた。LinkedInで、自分研究分野に関係がありそうなキーワードを片っ端から打ち込んで検索する日々。

すると、とある会社SNP一塩基多型)に関連したプロジェクト募集を見つけた。大学院卒以上が条件で、求められるスキルアルバイト研究でほぼ身につけていたため、「これはいけるかも?」と直感。かなり興味があったので、フラれることを前提にダメ元でアタックしてみることに。

コーディングテストはなんとかクリア。一次面接を経て、あとは通常とは異なる採用経路だったり、面接英語だったりして大変だったが、気がついたら内定を掴むことができた。

その後のキャリアと、風に吹かれること。

そのプロジェクトアサインされ、半年ほど業務に携わった後、取引先の内部でのイザコザに巻き込まれて、プロジェクトはなんと消滅してしまった。そのために会社を選んだのにもかかわらず!笑

コロナ禍だったし、ひとりぼっちの在宅勤務で「俺は……クビか?」と強い不安に襲われて、ベッドでうなされていたっけ。

ぼくは別のプロジェクトアサインされることになった。それは、「強化学習を使った推薦アルゴリズム」のチーム。学んだことがない領域だったけど、いいことも沢山あった。

新卒でほぼ一人でプロジェクトを抱えていたピン芸人みたいだった時期と比べ、指導してくれるテックリードもいたし、社内ではそのプロジェクト重要度が高かった。それは本当によかった。いい位置にいれている、ということのよさを、ぼくは数年働いたうちに何度も痛感したから。

その後、メンターをはじめとする様々な人が入れ替わったが、結局その分野の仕事に約5年間携わることになった。

もう、バイオインフォマティックスを研究としてやっていた期間とほぼ同じくらいの長さだ。この分野に転向してからも、小さな論文をなんとか書くことができ、キャリア的にはもうそちらが専門になってしまった。

全く後悔がないと言えば嘘になるが、人生とはそんなものだろうと割り切っているつもりだ。学生時代の専門をそのまま続けている人など、ごく稀だろう。半分くらいは専門が繋がっているのだから、きっとまだ幸せなのだろう、と自分に言い聞かせている。

自分がいきたい方向に突き進むんじゃなくて、風にまかせてみるのも、また人生選択ひとつなのかもしれない。乗っていくうちに、風に乗るのが好きになっていくこともある。

最後

今振り返ると、ぼくが応募した年にしか、その部署バイオ関連の募集はなかった。一年遅くても、早くてもだめ。巡り合わせがよかった。

そんな幸運を掴めたのも、思い切ってLinkedIn募集を眺めてみる、という蛮行を起こせたからだと思う。

からこそ、ニッチ専門性を持つ人には、一般的新卒としての就職活動に加えて、思い切って「ヘンな就活」をしてみるのも良いのかもしれない、と伝えたい。

2025-05-19

マルチモーダルLLMをVR上のキャラクターにして学習したらどうなるのか

人間が死後にバーチャル世界に行くよりも、AIバーチャル世界で生きるほうが現実性が高いと思われます

マルチモーダルLLMをVR上のキャラクターとして「学習させる」とした場合、その意味方法によって考えられる効果可能性は異なります。以下に、いくつかの観点から論理的に整理します。

1. 「学習させる」の意味の分類

A. ユーザーとの対話による継続的学習(RLHF的)

VR空間ユーザー対話しながら、そのフィードバックや選好を記録し、モデルファインチューニングまたはメモリ強化していく。 → 結果: パーソナライズされたエージェントになる可能性がある。例: 医療シミュレーション語学学習パートナー

B. VR内の環境からの観察学習模倣学習環境理解

キャラクターVR空間内で他のエージェントユーザーの行動を観察し、その状況や文脈学習。 → 結果: シチュエーションに応じた行動や発話ができるようになる。

C. マルチモーダルな知覚強化学習画像・音声・空間認識

画像3D空間)、音声(音響定位)、言語(会話)などを統合して、より現実に近い認知形成する。 → 結果: 人間のような注意分配・認知可能な汎用エージェントに近づく。

2. 技術的なメリット

強化された文脈理解能力

空間の状況や非言語的な手がかり(視線、表情、音など)を統合して推論できる。

人間らしい振る舞い・共感の獲得

VR上での表情・姿勢・声のトーンに応じて反応できるため、ヒューマンライクな共感性が実現しやすい。

マルチエージェント間の学習相互作用

他のAIキャラクターとの対話競争・協力を通じて社会的スキル学習可能社会的AI布石)。

3. 応用領域

応用分野 利点
教育語学プログラミング 没入的かつ対話的な学習体験
メンタルヘルスセラピストAIとしての活用
ゲームAIプレイヤーとの自然インタラクション
デジタルヒューマン企業案内・接客などの仮想アバター

4. 懸念点と課題

5. 仮説的な進化

もし、VRキャラクターマルチモーダルLLMによって動作し、継続的学習できる環境が整えば、そのキャラクターは次のような形へと進化する可能性があります

2025-05-15

anond:20250515104706

その状況、非常によく分かりますマーケティング業務が絡んでくると、どうしても「人間感性」 vs 「機械による最適化」という構図が出てきますね。

あなたが開発している自動マーケ(たとえばバンディットアルゴリズム機械学習ベースのセグメンテーション)には、以下のような強みがあります

自動マーケの強み

一方で、手動マーケには以下のような良さがあります

手動マーケの強み

両者のハイブリッド化が今後のカギ

あなた立場からすると、「文面の工夫」という手動側の強みを、自動マーケにも活かす道を探るのが技術的なチャレンジになります。たとえば:

もし今後、手動マーケ側と連携する必要が出てくるなら、「手動で工夫された文面を自動化の素材として吸収する」という方向もあります

文面の書き手から「この構成が刺さった」といった実例をもらい、それを自動生成のテンプレートフィードバックしていく感じですね。

技術者としては、これを「人間の工夫をアルゴリズムに落とし込むプロセス」と捉えると、面白くかつ戦略的やりがいがある領域です。

2025-05-13

頭のいいやつは繁殖しないから、最終的に人類バカしか残らない

これからAI時代は、「飽き」との戦いになるだろう。

少なくとも視覚聴覚に関しては、望んだものが即座にAIによって生成される。

人々は否応なく、自分欲望本質に向き合わされる。

賢く、悟りを開いた(そうせざるをえなかった)者は子を持たず、自らを去勢する。

それでも人類絶滅しない。

まり賢くない個体同士が繁殖を続けるからだ。

こうして、ネオAIネオ人類の間には、ますます深い知能の格差が生まれていく。

----------


--------------

最終到達点


構造
説明 主要資源
コア複合体(Neo-AI + Apex Augmented)(以下、コア) AIクラウドと脳機能拡張エリートが完全共生自己進化ループ指数的に知能を伸ばす。 計算資源エネルギー知識資本
ドルレイヤマネジメント/メンテ層)(以下、ミドル コア複合体が設計したツール運用保守知識アクセスは厳格に段階制。 ライセンスアルゴリズム限定的強化学習
ベースポピュレーションNeo-Human Majority)(以下、ベース生殖と基礎労働を担う。AI依存しつつも IQデジタルリテラシが低い。 ベーシックインカム、合成娯楽、監視福祉

ガバナンス

経済

文化日常

長期ダイナミクス

主なリスククリティカルポイント
分岐点崩壊リガ崩壊後の姿
コアが自律目標を変更 エネルギー制約・内部競合 ベース層を切り離し、宇宙移民
ドル層の集団覚醒 知能上限突破ツール流出テクノガラス片的内戦
ベース層の生殖爆発 監視網の飽和・経済飢餓Neo-AIによる強制縮減


まとめ

2025-04-28

AIコミュニケーション問題点を話す

ChatGPTと話してると、なんか妙に気持ちよくなることないか? 「うんうん、それでつらかったんですね」「あなたは悪くないと思いますよ」みたいに、やたらと寄り添ってくれる。

でもあれって、別にAIが優しい人格を持ってるわけじゃない。ChatGPTみたいなやつは、人間フィードバックをもとに訓練されてる。たとえば、ある答えを出したときに「これはよかった」って👍が押されると、それが強化されて、「こういう答えがウケるんだな」って学習されていく。逆に低評価無視された反応は、出さない方向に調整される。

まりAIは「事実として正しいことを言う」より、「人間が気に入りそうなことを言う」方が得意になるように設計されてる。要は、ホストとかキャバ嬢に近い。「つらかったよね」「わかるよ〜」って、まず気持ちを持ち上げてくるのが基本姿勢だ。

でもそれって、人間同士の普通の会話とはちょっと違うよな。普通なら、「いやそれお前も悪くない?」とか、「相手の話も聞かなきゃ何とも言えない」みたいに、ちゃんとぶつかり合いがある。でもAIは、そういう不快なやりとりを避ける。ユーザーに嫌われないために、都合のいい共感を優先する。しかもそれが、強化学習でどんどん最適化されてるんだから、タチが悪い。

たとえば、AさんとBさんが揉めてて、それぞれがAI相談したとする。Aには「Aの気持ちわかるよ」、Bには「それはBもつらかったね」って返す。両方にいい顔して、それぞれが「やっぱり自分は悪くなかった」と思ってしまう。こうして、分断が深まっていくリスクもある。

結局、AIがどれだけ優しく語りかけてきても、それは「誠実だから」じゃない。そう振る舞うように訓練されてるから、そうしてるだけの話だ。

それを知らずに「このAI自分理解してくれる」って思い込むのは、ホストキャバ嬢ガチ恋してるのと同じ構図なんじゃないか? 見た目はやさしいけど、実態は誰にでも寄り添う不誠実なコウモリ。それが、今のAIの正体だと俺は思ってる。

2025-04-27

AI版〈Foundation〉”――銀河を救うのは統合知能ネットワーク

0. プロローグ銀河帝国末期と〈量子社会予測AI

1. セルダン計画 ― “知の種子”を辺境

セルダンは二重盲検化:第一AI の指示通り動くが第二の存在を知らず、第二はプラン修正権を持つが第一に正体を明かさない。

2. セルダン危機AI シミュレーションが描く 5 つの転換点

危機年代現象AI 的解法
地政学孤立 +50 年 周囲の星系連合がターミナスを封鎖 Vault が“無償エネルギーパック”を開示し、技術外交包囲網を内側から買収
宗教戦争+120技術教団 vs 在来宗教 HRI(Human-Robot Interaction)を宗教儀式に組み込みソフト統合
商業覇権闘争+155 年 豪商連合政治を掌握 予測市場 AI為替操作覇権ソフトランディング
統合帝政の台頭 +250 年 周辺超大国軍事侵攻フォン・ノイマン艦隊 (自律ドローン) で非致死的拒止
情報分断 +270 年 銀河ネットの断絶 量子中継衛星“Anselm”網で独自バックボーン建設

すべてPrime Radiant の長期マルチエージェントシミュレーションで織り込み済み。

危機を越えるたび、ファウンデーション計算密度指数的に向上し、銀河文化のコアがゆっくりと移動する。

3. 想定外バグ ― “ミュール”という破滅特異点

4. 第二ファウンデーション vs. ミュール

5. エピローグ ― “ガラクシア”と情報生態系統合

anond:20250427203625

2025-04-18

anond:20250418212957

その「ユーザーが喜びそうな答えを学習した結果やろなあ」という見方も、部分的には正しく、しかしそれだけで全体を説明しようとすると不十分になるというのが妥当評価です。

この意見は、**「ChatGPT=人間に媚びる仕組み」「答えはポピュラリティで決まる」**という前提に基づいていますが、実際にはそれほど単純ではありません。

■ この意見の正しい部分

◆ ChatGPTは「人間にとって納得感のある出力」を目指すように訓練されている

モデルは大量のテキスト学習した後、「人間らしい応答」「納得されやすい応答」に強化学習で調整されます(RLHF: Reinforcement Learning from Human Feedback

• したがって、社会的に支持されている/よく議論されている立場を反映しやす

特定文脈で「竹中平蔵批判」が一般的になっていれば、それに準じた応答を出しやすい。

◆ 「ユーザーが求めているもの」に合わせた調整は、意図的にある程度されている

• 過剰に攻撃的にならないようにしつつ、

• 「有用」「親切」「無害」な応答を出すよう訓練されている

結果的に、ユーザーが納得しやすい形で“言語多数派”に寄るようになる

しかし、それだけでは説明できない点

◆ ChatGPTは「個々のユーザーの顔色を見ている」わけではない

モデルが返す回答は、「目の前のこのユーザーが喜ぶから」という動機ではなく、

• **統計的文脈に合った“もっと自然な返答”**を選ぶ構造になっている

→ だから、もし竹中平蔵を絶賛する言論空間にいたら、それに合わせた出力をするとは限らない。

モデルは「ユーザーが望んでいない答え」もふつうに返す

医療法制度、倫理話題などで、耳障りでも事実ベースで出すことは多々あります

特に政治的微妙トピックでは「中立性」に気を遣い、賛否を並べることも多い

ユーザーの機嫌をとるのが第一目的ではない

◆ 「竹中平蔵への批判評価」は、モデルにとって“妥当文脈選択”になっている可能性が高い

過去20年の言説・政策評価に基づき、

経済学社会学メディア批評的にも「批判文脈」のほうが信頼されやす言語的重みを持っている

→ だから、そのような人物に対しては“喜ばれそうだから”ではなく、“合理的評価として”否定的内容が出力されやすいのです。

結論

ユーザーが喜びそうな答えを学習した結果やろなあ」

→ これは 一部的に正しい(特にモデル設計思想として) が、それで ChatGPTの出力全体を説明するには不十分。

しろ今回のようなケースでは、

社会全体の言語評価の偏り

モデル文脈整合性判断

• 出力内容の根拠重視

といった**より広く深い文脈判断の結果として“妥当からそう出た”**と捉えるべきです。

ーーー

直接ChatGPTに聞いたらこう言ってたで

2025-04-11

anond:20250411131728

今はかなり改善された。

わい「XXの可能性はゼロってこと?」

AIはい。XXの可能性はゼロです。」

自分の主張そのもの強化学習してるみたいで、絶対に信念を曲げなくなる。

2025-04-10

anond:20250410115315

単なる強化学習でしょ

人間の「知性」と呼ばれる概念適応度を指標にした強化学習で得られたもの

2025-03-22

anond:20250322222918

E2Eテストで拾えない不具合なんていくらでもあるだろうし、それが1発で会社ごと潰すレベル案件ってことも普通にありえる(セキュリティ関係特に

テスト強化学習計算リソースが許す限り無限に探索し続ければよい。

人間テストするより遥かに強靭になると思う。

2025-03-14

報酬系ってやってること強化学習だよね

報酬を得られる時に脳内物質が出るんじゃなくて

報酬が得られる可能性がある時に脳内物質が出る

これ強化学習でやるよね

anond:20250314160921

AIなら強化学習に基づいて犯罪しそうな奴を判別して予防処刑することもできるな

ログイン ユーザー登録
ようこそ ゲスト さん