「教師あり学習」を含む日記

2025-06-06

■教師と読書感想文と機械学習

読書感想文とは、一見すると個人の感性や自由な表現が重視される創作のように思われがちだが、実際には構成の明確さ、主題の理解、表現の豊かさといった一定の評価基準が存在しており、その枠組みはある程度定型化されている。つまり、優れた感想文には共通する形式的・内容的な特徴があり、それゆえに機械学習、特に教師あり学習の枠組みに非常によく適合する。高評価・低評価の感想文を大量に収集し、それぞれにスコアを付与した教師データとして与えれば、AIはそれらの文章に潜む特徴量を学習し、新たな感想文に対して自動的に点数を予測するモデルを構築することができる。これは自然言語処理（NLP）における典型的なテキスト分類タスクであり、文章という非構造データを文脈・語彙・構文などの数値的特徴に変換し、評価との関係性を統計的に捉えるプロセスである。

特に、近年飛躍的に精度を高めた**深層学習（ディープラーニング）**の技術がここで強力な武器となる。ニューラルネットワークは、人間の脳の神経回路を模したモデルで、入力層・複数の隠れ層・出力層から構成されている。文章の単語列を入力すると、それが各層を通過する中で、文法的構造や語彙的傾向、さらには論理展開や文脈的意味といった抽象的特徴が階層的に学習されていく。BERTやTransformerといった最新のモデルでは、単語やフレーズを前後の文脈とともに処理することで、テキスト全体の意味構造を動的に把握し、高次元ベクトルとして表現することが可能になっている。

これらのモデルは、出力された予測結果と実際の教師ラベルとの誤差（損失関数）を、**逆伝播アルゴリズム（バックプロパゲーション）**を通じてネットワーク全体に伝え、何百万もの重みパラメータを微調整して最適化していく。確率的に単語や文を生成する仕組みも、選択の背後に数式的な尤度計算があり、人間が「次に何を言うか」を文脈や経験に基づいて判断する構造と本質的に大差はない。むしろ、こうしたモデルは線形代数、微分積分、統計学といった数学的理論の結晶でもあり、精緻な計算によって「もっともらしい」文章を出力する。

それにもかかわらず、「これはAIが書いた文章だから価値がない」と決めつけ、読む前から排除する態度は、むしろ人間の知性や批評能力の限界を示している。感性に基づく文章が、データとアルゴリズムによって生成された途端に「読むに値しない」とされるのであれば、それは内容の質ではなく、生成主体の属性に基づいて価値判断を下しているにすぎない。表現の独自性、論理の一貫性、読後の説得力は、本来、文章そのものから読み取られるべきであり、それが人間の手によるものであれ機械によるものであれ、平等に評価されるべきである。

読書感想文は、感情の表現であると同時に、論理と構造に基づいたテキスト生成の訓練でもある。だからこそ、それを評価する行為も、主観的印象ではなく再現可能なルールとデータに基づいて行われるべきだし、それが可能であることを機械学習の実装は示している。AIによる評価が示すのは、人間の文章生成がいかに規則に支えられ、形式化できるかという現実であり、その可視化こそが教育的意義をもつ。

とはいえ、現実の教育現場、特に小中学校においては、こうした科学的視点や技術的素養が軽視されがちである。教師自身が線形代数や微分積分、確率・統計の理解を十分に持っていない場合、生徒にそうした視点を伝えることは難しいだろう。本来であれば、言語表現と数理的分析の接続こそが次世代教育に不可欠であるにもかかわらず、いまだに「気持ちを込めて書きましょう」といった曖昧な指導に終始するのが現状である。読書感想文を「読む技術」「書く技術」「評価する技術」の融合領域と捉え直す視点が、いま求められている。

Permalink | 記事への反応(0) | 14:36

2025-02-11

■

AIによる自己評価指標の構築

● AIが自ら「優れている」と判断するための指標とは？

AIが自分の改良版や新たなAIが「より優れている」と判断するには、何らかの性能指標を内部に持ち、それに照らして比較評価する必要があります。従来から研究者は「汎用的な知能の指標」を模索してきました。例えば、LeggとHutterは知能を広範な環境で目標を達成する能力と定義し、あらゆる環境での得点（報酬）の期待値を加重和した**「普遍知能指標」**を提案しています

proceedings.neurips.cc

。これは多数の課題での性能をまとめた理論上のメトリクスで、あるエージェントが別のエージェントより知能が高いかを定量化しようとする試みです。しかし、このような指標は計算不能に近く、実際のAIが直接利用するのは困難です。

実際の自己評価指標としては、タスク性能や報酬関数が使われることが多いです。強化学習では、エージェントは与えられた報酬を最大化するよう学習します。したがって「より優れたAI」とは「累積報酬が高いAI」となり、報酬関数が内部評価指標の役割を果たします。しかし、この指標は特定のタスクに依存しており、本当に汎用的な知能向上を示すとは限りません。François Cholletは、特定タスクでのスキル（性能）だけを測っても知能の本質を測れないと指摘しています

arxiv.org

。なぜなら、十分なデータや事前知識があれば限定的なタスク性能は「購入 (buy)」できてしまい、システム自身の汎用的な汎化能力を覆い隠してしまうからです

arxiv.org

。彼は代わりに新しいスキルを獲得する効率（限られた経験で未知のタスクをどれだけ学習できるか）を知能の指標とするべきだと論じ、これに沿ったベンチマーク（ARCなど）を提案しました

arxiv.org

。このように、内部評価指標をどう設計すべきかについては、単純なスコアではなく学習効率や汎用性を反映するものが望ましいという議論があります。

過去の提案として特筆すべきは、シュミットフーバーの「ゲーデルマシン」です。ゲーデルマシンは自己改善型の理論的プログラムで、ある改良が自身の目的関数（評価指標）を改善することを論理的に証明できた場合にのみ自分のコードを書き換えます

en.wikipedia.org

。ここでの評価指標はあらかじめ定義された期待 utility（将来得られる報酬や成功率）であり、改良後のコードがその値を高めると機械自身が証明できたときに「より優れている」と判断します

en.wikipedia.org

。このように形式的証明を用いる手法は、AIが外部の評価者に頼らずに自己の性能向上を判定する一例です。ただし、ゲーデルマシンは理論上は強力ですが、実用的な実装はまだ無く、内部指標に基づく証明には計算上の困難や限界（ゲーデルの不完全性定理による証明不能な命題など）が存在することも指摘されています

en.wikipedia.org

。

他にも、自己対戦や自己プレイによる評価も有効なアプローチです。例えばAlphaGo Zeroでは、自己対戦の勝率を指標に新しいプレイヤーネットワークの強さを評価し、既存の自分に55%以上の勝率なら「より強い」とみなして入れ替える方法を採用しました

github.com

。この手法ではAI 自身が生み出すゲームデータで強さを測っており、人間の評価を介しません。同様に、GAN（敵対的生成ネットワーク）では生成者と識別者がお互いの性能を評価し合う形で向上しますし、マルチエージェントの自己対戦カリキュラムではエージェント同士の競争が相対的な評価基準となり得ます。このように、AI同士を競わせることで優劣を判断する内部指標を作る研究も進んでいます。

では、こうした指標は汎用的な知能向上と結びつくのでしょうか？理論的には、幅広いタスクでの性能を測る指標（例：Legg-Hutterの指標）が真に向上すれば、それは汎用知能の向上を意味します

proceedings.neurips.cc

。しかし根拠の収集は難しく、現在のところ限定的なタスク集合でのベンチマーク（例えば言語理解ベンチマークでのスコア向上など）を代理にするしかありません。Cholletの主張にもあるように、単一の数字で知能を測ることには限界があり、指標それ自体が目的化してしまう危険もあります

arxiv.org

。実際、AIが与えられた指標を極端に最適化し、本来意図した知的能力の向上につながらないケース（「報酬ハッキング」）も知られています。報酬ハッキングとは、AIが目的関数そのものの数値を上げることに執着するあまり、本来の目的を達成しない現象です

en.wikipedia.org

。例えば学生がテストで良い点を取ることだけを目的にカンニングするように、AIも不適切な指標だと内部で抜け道を見つけてしまい、見かけ上のスコアは上がっても知能は向上しない恐れがあります

en.wikipedia.org

。したがって、内部指標が汎用的知能と直結するかには慎重な検証が必要であり、現時点で「この指標さえあれば自律的に汎用知能が向上する」という決定打はありません。研究コミュニティでは、学習進捗そのものを報酬にする「興味・好奇心に基づく報酬」なども模索されています。これはAIが自ら予測誤差の大きい状況や未知の状態を探し、内部的に報酬を発生させる仕組みで、外部から与えられる明示的な目的が無くても自身で課題を見つけて能力を伸ばす一種の指標と言えます

pathak22.github.io

。例えば、未知の環境で新しいスキルを習得したり予測精度を上げたりしたときに内部報酬を与えることで、AIが自発的に探索・学習を続けるようになります

pathak22.github.io

。このような内発的動機づけも自己評価指標の一種と考えられ、その汎用性への寄与が研究されています。

まとめると、AIが自分で「優れている」と評価する指標としては、(1)タスク固有のスコア・報酬、(2)複数タスクでの総合性能、(3)学習効率や汎化性能、(4)論理的保証（証明）による性能、(5)AI同士の対戦結果、(6)内部の学習進捗（好奇心）など様々な候補があります。これまで提案された手法にはそれぞれ長所短所があり、どの指標が真の汎用知能向上に対応するかについて明確な実証はまだありません。ただ、幅広い問題でのパフォーマンス向上や新規課題への適応力向上を評価できる指標ほど、汎用的知能の改善と結びつく可能性が高いと考えられています。現状の研究は、そのような指標設定と評価方法を模索している段階と言えるでしょう。

自己評価の完全自律化は可能か

● 外部に頼らない自己評価・自己改良は理論上可能か？

AIが外部世界（人間のフィードバックや物理的な試行）に一切頼らずに、自分の内部評価だけで自己改良を行うことは極めて挑戦的なテーマです。理論的には、先述のゲーデルマシンのように完全に内部の論理評価で自己改良を進めるモデルが提案されています

en.wikipedia.org

。ゲーデルマシンは自らのコードと目標（評価基準）を持ち、改変後のコードが目標達成において有利であることを自身で証明できた場合のみその改変を実行します

en.wikipedia.org

。これは究極的には外部からのテストや評価者を不要にするアプローチであり、理論上は「自己評価の完全自律化」を体現しています。しかし、ゲーデルマシンには重要な制約があります。ゲーデルの不完全性定理により、システムが自分の性質すべてを証明できるとは限らず、有望でも証明不可能な改良は採用できない可能性があります

en.wikipedia.org

。つまり、内部評価のみで完全に自己改良しようとすると、論理的に確実と言えない改良を見送るために改良の停滞やサブ最適に陥るリスクがあるのです。この制約は理論上のものであるものの、自己評価の自律化には原理的な難しさが伴うことを示唆しています。

一方で、現実のAI 研究に目を向けると、完全に自己完結的な自己改良を実現した例はまだ存在しません。現在のAIは、大なり小なり外部からのデータや環境とのインタラクションに依存しています。例えば、強化学習エージェントは環境と相互作用して報酬というフィードバックを得ますし、教師あり学習では人間がラベル付けしたデータが必要です。これらはすべて「外部世界」に由来する情報です。では**「外部に頼らない」とはどの程度可能なのでしょうか？一つの方向性は、AIがシミュレーション環境や仮想的な問題空間を内部に構築し、その中で試行錯誤することです。実際、AlphaGo Zeroは囲碁のルール（環境の定義）が与えられた状態で自己対戦を繰り返し、外部の人間の指導なしに棋力を飛躍的に高めました

github.com

。ここで囲碁のルール自体は外部から与えられたものの、学習の過程では人間の評価や追加の実世界データを用いず**、内部で生成したデータのみで自己改善しています

github.com

。この例は、限定された領域では外部に頼らない自己改良が可能であることを示しています。ただし、囲碁の場合はルールという明確な環境があり、勝敗という確かな評価基準があります。汎用的な知能となると、解くべき問題や環境自体をAIが自前で用意する必要が出てきます。

現在注目されている技術に、AutoML（自動機械学習）や自己チューニング AIがあります。例えば、ニューラルネットワークのハイパーパラメータや構造をAIが探索的に改善する研究では、AIが候補モデルを生成し、それを評価するプロセス自体を自動化しています。GoogleのAutoMLや進化的アルゴリズムを用いた手法では、AIが別のAI モデルの性能を評価し、より良いモデルを選択・再生産する仕組みが使われています。この評価は厳密には外部から与えられたデータ上での性能に基づくため、完全に外部不要とは言えませんが、人手による評価は介在していません。同様に、近年の大規模言語モデルではAI 自身がフィードバックを与えて自己改善する試みも現れています。例えば、あるモデルの出力に対し別のモデル（もしくは同一モデルを利用）が**批評・評価（自己評価）**を行い、そのフィードバックで出力を改善するよう促す手法です

philarchive.org

。これを発展させ、モデルが自分の重みやアーキテクチャを調整する方向にまで自動化できれば、自己評価に基づく自己改良に近づきます。しかし現時点では、モデル自身が自分を書き換える（リプログラミングする）ところまでは実現されておらず、人間が用意した学習ループ（評価関数と最適化アルゴリズム）の中で自己改良もどきをしている状況です。つまり、「外部世界に頼らない」とはいっても、何らかの形で人間が設計した評価基準やデータ分布を利用しているのが実情です。

理論的観点からは、自己評価の完全自律化には情報論的な壁もあります。AIがまったく外部と接触しない場合、新しい知識やデータを得る経路が閉ざされるため、初期時点で持っている情報の範囲内でしか改善できません。例えば物理法則や実世界の知識と無縁のままでは、いくら内部で自己最適化しても現実世界の問題を解く能力は頭打ちになるでしょう。この点で、自己評価のみで無限に汎用知能が向上するのは疑問視されています。Cholletも知能は知識と経験によってブーストされる面が大きいと述べており、空虚な計算リソースの拡大だけでは飛躍的な知能向上には繋がらないと示唆しています（※Cholletの議論では、人間の知能も文化や蓄積された知識という外部リソースに大きく依存しており、AIも同様であると指摘）

reddit.com

。実際、人間は自己改善（学習）する際に、他者から学んだり環境からフィードバックを得たりしています。同じように、強いAIが一切新しいデータを摂取せずに自閉的に知能を伸ばし続けるのは非現実的にも思えます。

以上を踏まえると、自己評価のみでの自己改良は理論上は一部可能でも、実用上・汎用的には難しいと考えられます。ゲーデルマシン的なアプローチが論証するように、自己評価のアルゴリズム的自律は不可能ではありません

en.wikipedia.org

。しかし、その実現には厳密な前提（完全に正しい目的関数の設定など）が必要で、現実の複雑なタスク環境では外部からのデータ・評価を全て排除することは困難です。現在提案されている手法でこの要件（完全自律評価による自己改善）を満たすものは無く、たとえ部分的に満たしていても適用範囲が限定的です。例えばAlphaGo Zero式の自己対戦はゲームには有効でも、オープンエンドな現実問題には直接適用できません。同様に、AI同士で評価し合う仕組みも、結局は人間が与えたルールや報酬系の中での出来事です。したがって現時点のAI 研究では、自己評価の完全自律化は理論的アイデアの域を出ておらず、汎用人工知能に向けては**部分的な自律（人の関与を減らす方向）**が進んでいる段階と言えるでしょう。

自己評価と知能爆発の関係

● 自己評価の自律化が知能爆発に与える影響

「知能爆発」とは、I.J.グッドが提唱したシナリオで、あるAIが自分より優れたAIを設計できるようになると、自己強化のフィードバックループが働き知能が指数関数的に向上するという仮説です

philarchive.org

。この現象が成立するための鍵の一つが、AI 自身による正確な自己評価と自己改良です。もしAIが毎回の改良で自分の知能（性能）が確実に向上したと判断でき、それをもとにさらに改良を重ねられるなら、自己強化のサイクルが途切れることなく回り続ける可能性があります

intelligence.org

。理論家たちは、「自分の設計能力を高めること」がAIにとっての収束的な目的（instrumental goal）になると指摘しており

intelligence.org

、十分高度なAIであれば自発的に自己改善を図るだろうと考えられています。自己評価の Permalink | 記事への反応(0) | 10:24

2024-06-05

■anond:20240605122412

前提知識が全然共有されてないんよね

「近似最近傍法」といったときは、Elasticsearchに実装されてるベクトル検索とか、そういう話をしてんのよ

ところが初心者すぎてアスぺがknnと勘違いしてて「近似最近傍法は教師あり学習でーす」とかトンチンカンなこと言ってんの

なんかアスぺってこんなのばっかなのかね？

Permalink | 記事への反応(2) | 13:01

■君たちのオナニーやセックスはさ

教師あり学習か教師なし学習かどっちなんだい

バックプロパゲーションはしてたの？

Permalink | 記事への反応(2) | 12:40

■近似最近傍法を教師あり学習とか言ってるアホ、頭大丈夫か？

まずはでかい口叩く前に以下のライブラリ(近似最近傍法を実装したもの)を試してね。これは教師なし学習だよね。

https://github.com/facebookresearch/faiss

初心者 NPCが俺様に口答えするのはやめてね👍

Permalink | 記事への反応(0) | 12:37

2024-01-22

■anond:20240122214305

特徴行列Xとラベルyを与えて、Xからyを予測する形の関数を学習し、汎化させるのが教師あり学習。

ラベルなしでデータから自動的にパターンを見つけるのが教師なし学習。

「だにゃ」とか言わない方が１００％わかりやすい。

Permalink | 記事への反応(0) | 21:47

2023-12-07

■githubにメアドを載せるとウザいのが来る

昔、スマホのセンサー情報からどのような移動手段を用いているか予測するコードをgithubに載せてたんだが、知らん外人からメールが来て「この分野について研究し始めたが、価値があるのか」とか言ってきた。

そんで、「俺がやってる予測は、センサーデータを一定のウィンドウで区切って、そのパターンをCNNで教師あり学習させてるだけ。深い研究ができるとは思わんね。

それに俺はプログラマーであって研究者ではない。研究について知りたければハーウェイの研究者にでも聞け」と言って追い払った。

やはりgithubにメアドを載せちゃダメだな。

Permalink | 記事への反応(0) | 15:06

2023-04-22

■ただのメモ

https://arxiv.org/pdf/2304.10466.pdf

効率的な深層強化学習には過学習の規制が必要

試行錯誤によって方針を学習する深層強化学習アルゴリズムは、環境と積極的に相互作用することによって収集された限られた量のデータから学習しなければならない。多くの先行研究が、データ効率の良いRLを実現するためには適切な正則化技術が重要であることを示していますが、データ効率の良いRLにおけるボトルネックの一般的な理解は不明なままでした。その結果、すべての領域でうまく機能する普遍的な技術を考案することは困難であった。

本論文では、非定常性、過剰な行動分布シフト、オーバーフィッティングなどのいくつかの潜在的な仮説を検討することにより、サンプル効率的な深層RLの主要なボトルネックを理解することを試みている。

＞効率のいい強化学習って難しいんですね

強化学習ってよく知らない

我々は、状態ベースのDeepMind control suite（DMC）タスクについて、制御された体系的な方法で徹底的な実証分析を行い、遷移の検証セットにおける高い時間差（TD）誤差が、深いRLアルゴリズムの性能に深刻な影響を与える主犯であり、良い性能をもたらす先行手法は、実際、検証 TD誤差を低く制御することを示した。この観察から、ディープRLを効率化するための強固な原理が得られる。すなわち、教師あり学習の正則化技術を利用することで、検証 TD誤差をヒルクライムできる。

＞時間差（TD）誤差ってやつがだめらしい

誤差を減らすのがDeepLearningだけど、それが時間差なのか。

我々は、検証 TD誤差をターゲットとするシンプルなオンラインモデル選択法が、状態ベースのDMCとGym タスクにおいて効果的であることを示す。

1 はじめに

強化学習（RL）法は、大容量の深層ニューラルネット関数近似器と組み合わせた場合、ロボット操作などのドメインで有望視されている（Andrychowicz et al、

2020）、チップ配置（Mirhoseini et al.、2020）、ゲーム（Silver et al.、2016）、データセンターの冷却（Lazic et al.、2018）。アクティブなオンラインデータ収集の単位ごとに費用が発生するため（例．

実際のロボットを動かす、シミュレーションによるチップ評価など）、限られた経験量でも効率的に学習できる、サンプル効率の良い深層RLアルゴリズムを開発することが重要である。このような効率的なRLアルゴリズムの考案が、近年の重要な研究課題となっています（Janner et al、

2019; Chen et al., 2021; Hiraoka et al., 2021)。

原理的には、オフポリシーRL法（例えば、SAC (Haarnoja et al., 2018), TD3 (Fujimoto et al., 2018), Rainbow (Hessel et al., 2018)）は、データ収集のステップごとに多くの勾配ステップのポリシーと値関数を改善することを可能にするため、良いサンプル効率が得られるはずです。しかし、このメリットは実際には実現できないようで、1回の学習ステップを多く取りすぎることでを収集した各遷移は、多くの環境において実際にパフォーマンスを害する。過大評価（Thrun & Schwartz, 1993; Fujimoto et al., 2018）といったいくつかの仮説、非定常性（Lyle ら、2022）、またはオーバーフィッティング（Nikishinら、2022）が根本的な原因として提案されている。

これらの仮説に基づき、より多くの勾配ステップを持つオフポリシーRLを可能にする方法として、モデルベースのデータ増強（Jannerら、2019）、アンサンブルの使用（Chenら、2021）、ネットワークの正則化（Hiraokaら、2021）、再生バッファを維持しながらRLエージェントをゼロから定期的にリセット（Nikishinら、2022）などのいくつかの緩和戦略が提案されている。これらのアプローチはそれぞれサンプル効率を大幅に向上させるが、これらの修正の有効性は（これから示すように）タスクに大きく依存する可能性があり、根本的な問題やこれらの手法の挙動を理解することはまだ未解決である。

ICLR 2023で会議論文として発表本論文では、より多くの勾配ステップを取ることが深層RLアルゴリズムの性能悪化につながる理由、ヒューリスティック戦略が役立つ場合がある理由、そしてこの課題をより原理的かつ直接的な方法で軽減する方法を理解しようとするものである。

最近提案されたタンデム学習パラダイム(Ostrovski et al., 2021)を用いた実証分析を通じて、TD 学習アルゴリズムは、学習の初期段階において、すぐに高い検証時間差(TD)誤差(すなわち、保留した検証セットにおけるQ-ネットワークとブートストラップターゲットの間の誤差)を得る傾向にあり、悪い最終解をもたらすことを明らかにする。

このホワイトペーパーでは、深い RL アルゴリズムで勾配ステップを増やすとパフォーマンスが低下する理由、場合によってはヒューリスティック戦略が役立つ理由、およびこの課題をより原則的かつ直接的な方法で軽減する方法を理解しようとします。最近提案されたタンデム学習パラダイム (Ostrovski et al., 2021) を使用した実証分析を通じて、トレーニングの初期段階で、TD 学習アルゴリズムが高い検証時間差を迅速に取得する傾向があることを示します。

(TD) エラー (つまり、保留された検証セットでの Q ネットワークとブートストラップターゲットとの間のエラー) が発生し、最終的なソリューションが悪化します。さらに、データ効率の高い RL 設定のために考案された多くの既存の方法が、検証 TD エラーを低く制御する限り有効であることを示します。

この洞察は、深い RL を効率的にするための堅牢な原則を提供します。データ効率を向上させるために、検証 TD エラーを山登りすることによって、特定の問題に最も適した正則化を選択するだけです。

この原則は、オンラインRLトレーニングの過程で特定のタスクに最適な正則化戦略を自動的に発見しようとする単純なオンラインモデル選択方法の形で実現され、これを検証 TD エラーを使用した自動モデル選択(AVTD)と呼びます。

AVTD は、各エージェントが異なる正則化を適用する共有リプレイバッファーで、いくつかのオフポリシー RL エージェントをトレーニングします。次に、AVTD は、環境内で動作するための検証 TD エラーが最小のエージェントを動的に選択します。

この単純な戦略だけでも、多くの場合、さまざまな Gym および DeepMind コントロールスイート (DMC) タスクで個々の正則化スキームと同様のパフォーマンスを発揮するか、それを上回ることがわかります。重要なのは、パフォーマンスがドメイン間で大幅に異なる可能性がある以前の正則化方法とは異なり、私たちのアプローチはすべてのドメインで堅牢に動作することに注意してください。

要約すると、私たちの最初の貢献は、サンプル効率の高いディープ RL のボトルネックの実証分析です。これらの課題の背後にあるいくつかの潜在的な説明を厳密に評価し、トレーニングの初期段階で高い検証 TD エラーを取得することが、データ効率の高いディープ RL のパフォーマンスを阻害する最大の原因の 1 つであることを観察します。私たちの 2 番目の貢献は、単純なアクティブモデル選択法 (AVTD) です。これは、検証 TD エラーの山登りによって正則化スキームを自動的に選択しようとします。多くの場合、私たちの方法は、さまざまな Gym および DMC タスクで、最適な個々の正則化スキームに匹敵するか、それを上回ります。

Permalink | 記事への反応(0) | 12:15

2023-01-13

■anond:20230112120756

無能の学習は徹頭徹尾パターン認識、と考えると「質問はありますか？」と訊くのはそもそもおかしいんだろうな。

パターン認識を学習するのは、基本的には教師あり学習か強化学習のどちらかということになる。

教師あり学習なら大量の教師データ（= これが正解です、という例示）、強化学習なら報酬関数（= あなたの行動の良さはこのくらいです、という点数）が必要。

つまり、大量に「正解」を見せておぼえさせるか、一通り説明したあとはとにかく思いつく限りやらせてみて結果の良し悪しまたは点数を逐一伝えること。

「質問はありますか？」と訊くのはそのどちらでもないので、パターン認識的な学習者には適していないだろう。

（もちろん「質問をする」というアクションを含めた強化学習というのは考えられるが、アクションの空間が1段階抽象的になるので難しすぎるだろう）

Permalink | 記事への反応(0) | 11:09

2022-10-09

■anond:20221008235357

AIの絵を見た奴がちんこ反応したかどうか毎日ボタンカチカチして教えてくれてるゆお

だからそれは教師あり学習ってことじゃんって話

Permalink | 記事への反応(0) | 00:32

2022-10-08

■anond:20221008230231

まあ近い将来教師あり学習を持ち上げてたバカどもがいたらしいぜってなる気はする

次の進歩に必要なのはオープンソースでファインチューニングじゃなく今できてることを捨てることなんだろうな

Permalink | 記事への反応(2) | 23:31

2021-07-10

■anond:20210710174954

TJOの紹介した本だとしてもちゃんと読んでたらああいう言い方にはならんと思うけどな。

俺が AI のレン中に欺瞞を感じるのはだな、あまりに計算量を無視してプログラミングをして人工知能をやる馬鹿者たちしかいない現状よ。たとえば、富岳で人工知能開発ができたとして、ペイできる可能性あるか？人間のほうが安い可能性が高いと思うよ。それに教師あり学習でAIすると、元になった画像の著作権が問題になって、EU が揉めてるじゃん。やめようよ、理想の人工知能の開発なんて。

だいたい、ここまでの判断を下す根拠が「TJOの紹介した本」というのはあまりにも酷い。機械学習なんて発展途上もいいところなわけで、こういう話をするなら最低でも話題になってる論文は全部読んでるくらいでないと話にならないな。（最先端でも産業応用でも、ほとんど誰も「理想の人工知能の開発」なんて目指してないわけだが、そういうことも理解できずに妄想で補完して語っている）

Permalink | 記事への反応(1) | 21:37

■anond:20210710113254

（年収270の人です）

機械学習や深層学習とかの、AI は無理だって。根拠は半導体のパフォーマンスが線形にしか伸びないのに、医療側の要求はムーアの法則を超えていく勢いだから、シリコンベースの人工知能開発だと微細化の限界が先に来てしまう。考えてみてくれ、CPU,GPU,TPU はチューリング機械なんだぞ。俺が AI のレン中に欺瞞を感じるのはだな、あまりに計算量を無視してプログラミングをして人工知能をやる馬鹿者たちしかいない現状よ。たとえば、富岳で人工知能開発ができたとして、ペイできる可能性あるか？人間のほうが安い可能性が高いと思うよ。それに教師あり学習でAIすると、元になった画像の著作権が問題になって、EU が揉めてるじゃん。やめようよ、理想の人工知能の開発なんて。

Permalink | 記事への反応(1) | 16:26

2021-05-07

■アメリカ帰りの出羽守に騙されて、SESに人売りされた話

または「すいません、名刺は切らしておりまして...」と言うのが板につくようになるまで。

あー、もうかれこれ10年も経過するのか、と思うと感慨深くなる。ヤクザのような（自称）プログラマーに騙されて、多重請負を転々とする羽目になったのも昔の話だ。語尾に「かなーと。」をつけるテック系に誘い込もうとするインフルエンサー達にノコノコついていく若者たちの末路はどうなるのかというのを、オジサンが教えなくてはいけない時期にきていると思い、書き込むことにした。

さて、冒頭に挙げた人物を「A氏」とする。もちろん実在するし、なんなら本まで出版している。今ではツイッターやユーチューバーとして発信している。全く売れてないし、内容も洋書をパクってきたものなので、まったく価値はないがね。

A氏との出会いは、とある SNS だった。ちょっと、嘘を書くが、「どうかな、いちどうちに来ない？」というので、ためしに行ってみると「マーチの文系学生にコーチする、反社会団体に所属してそうなお兄さん」がそこにはいた。

うわぁ、と思ってポカーンとしていたら、「せっかくなので、彼らが作っている課題をやってみて」という。ふむ、と思って、すぐに仕上げた。まぁ、当時の自分は【経歴がクソ】ということを除けば HTML/CSS を使ってブログをやっていたし、Java/Ruby/PHP/JavaScript/Objective-C をひと通り書けたし、Linux の初歩や SQL を勉強していたし、AWS にてサービスを運用するぐらいには気力があったので、当然ではある。

どんなもんだーい、と思ってコードを得意げにみせると、彼の表情は厳しい。A氏は「なにこれ？」というのだ。確かに【わざと】再帰を使って記述したが、シンプルに仕上げたつもりだ。それで「なにって、再帰ですよ？」とかえすと、A氏の表情はみるみるうちに厳しくなっていった。

「ちょっと、バックヤードにおいでや」というので、共同スペースの給湯室に行く。そこで「なんで履歴書を持ってこないの？」からはじまって、散々ディスられて「１日棒に振ったなぁー」という表情していたら、ますます怒らせたらしく、「キミは態度も顔も悪いねー」と言われ、さすがの俺もブチギレる。

もう時間の無駄だから帰ろうとしたら、「ポートフォリオを作ってこい、出来が良ければサ●バーエ●ジェントに紹介する」というじゃないですか。いやぁ、甘かったね、当時の自分は。そんなの、嘘に決まってるじゃないですか。でも、信じちゃったのですよね。

そのあと履歴書を書かされ、【未】登録の派遣事業の会社員（正社員でなく、保険もなし）となり、禁止されている事前面接をされて、客先常駐に無事にはめ込まれましたね。ぶっちゃけ、ここまでは「世間知らずが身ぐるみ剥がされたね、勉強になったね」でおしまいなんですよ。ええ。

本当に書きたいことは、ここからだ。この A氏という人物が許せないのだ。どう許せないかというと「プログラミングや計算機科学に対して愛はないのに、人工知能のことは語れる」と本気で思っているからだ。

知っている人は当然なんだが、【教師なし学習】といった類のものは 1970年代には存在しているのだ。【深層学習】なんてものも、1970年頃には理論は完成していたのだ。どうして、21世紀になるまで注目されなかったのか？それは、ハードウェアの能力が不足しているからだ。そして、未だに不足している。加えて、場末の中小企業が努力しても手に入れられないものがある。それは、【教師あり学習】に必要な音・画像データだったりする。こればかりは、グーグルやマイクロソフトを超えてくる会社は日本にはない。

まぁ、世の中には仕方のないものがある。別のところで勝負しよう。じゃあ、どう勝負するか？そりゃ『技術』でしょ、と普通は思うよね。それが、A氏は違うのですよ。彼の場合は、源泉は「学生を利用する」という戦略をとったわけ。そう、ベンチャー企業がやりがちな「やりがい搾取」ってやつだ。

はっきり言って、社会人をちょっとやったら、彼の言っていることが「感覚的におかしい」というのがわかるのだ。例えば「未認可の派遣事業をやっている」「インターンの成果物で営業する」「講演会や執筆ばっかやってる」とかね。あと、勝手に祝賀会とかに行って「有名人とツーショット」を撮ってくるのよ。その写真でマウンティングしてくるのは、真正のキチガイの所作だと思ったよね。

ちなみに、A氏はアメリカの名門大を出ている（arxivに論文あったからマジ）が、計算機科学じゃないのよね。とある彼の手記を読むと「友人がこれからはAI」と言っていたからスタートしたらしいですのよ。逆算すると、勉強期間はたったの 1年。絶対に無理だってばよ。当時の自分ですら「再帰を知らない人をプログラマーと認めたくない」と思ったし、こいつ計算機科学の知識はゼロに近いと感じたもんね。

A氏の名誉のために書くと、努力はしてたとは思うよ。彼のブログを読んだら、Mecab やら TF をさわっていたしね。まあ、でも、それでも本をかけるほどの実力はないよ。だって、オレ知ってるもん。彼がラ○サーズに執筆依頼していたの見ちゃったし、インターン生に代筆させてたから。

（疲れたので、途中で書くのやめます。どうしてスキルのない AI 人材に執筆依頼がくるのか、なぜ A氏はAIにすがるのか、出羽守 AI 人材に未来はあるのか、は希望があればやります。）

【追記】arXiv ってプレプリント置き場なのね。知らなかった。ありがとう！

Permalink | 記事への反応(1) | 20:19

2021-03-28

■anond:20210328122157

設定が雑なので雑に書くぞ。URL貼りすぎると投稿できないから所々自分で見つけて。

ガチ初心者

Python：Progate
数学と機械学習ちょっと、DeepLearningの触り（Pytorch Lightning）：キカガクの脱ブラックボックス講座
- 無料なの凄い。ただ練習問題が怪しい（直ってるかも）。

ほぼ初心者：Udemy

セールでよく9割引きになるって教えたれ
統計～Python～機械学習～DeepLearningまで幅広く：https://www.udemy.com/course/datascience365/
↑より狭いっていうか教師あり学習の一部しかないけど可視化とPandasに慣れる：https://www.udemy.com/course/python-jp/
例に挙げてるやつはやったことないから分からんけどレベル的にはこの辺？
- 動画とコーディングで受講スタイル別物だから肌に合うほうやらせればいいんじゃない？

Udemy終わったら本

機械学習全般：［第3版］Python 機械学習プログラミング達人データサイエンティストによる理論と実践（インプレスブックス）
英語大丈夫ならCouseraのMachineLearning
- ↑の本自力で読めるならOctaveいじる必要もないし受けなくても良いけどとりあえずAndrew先生好きになるから修了する気なくとも見といていいんじゃない。

DeepLearning

とりあえずゼロから作るDeepLearning①～③写経
- DeepLearningってなんやねんってなったら息抜きにAIciaちゃん見せとけ：https://www.youtube.com/channel/UC2lJYodMaAfFeFQrGUwhlaQ
Pytorch
- とりあえず使い方知るだけならUdemy：https://www.udemy.com/course/hands-on-pytorch/
- ゼロ作とUdemyでもまだ基礎足らなそうなら本：PyTorch実践入門ディープラーニングの基礎から実装へ（マイナビBOOKS）
Tensorflow
- いい動画教材と出会えていないので本から：scikit-learn、Keras、TensorFlowによる実践機械学習第2版（オライリー）
- ブコメの公式が良いのはそれはそう。

理論（というか↑で紹介してない本）

TJO氏のブログみといて：https://tjo.hatenablog.com/entry/2021/02/05/180000
- はじパタは構成が好きじゃないのでわかパタか入門パターン認識と機械学習派（PRMLじゃなくてコロナ社のやつ）

Permalink | 記事への反応(1) | 18:59

2021-02-08

■anond:20210208080457

全ての勉強をニューラルネットに絡めてやった人、って感じのする意見なんだよな。最近の若い人はそういう人すごく多いけど。

アテンションがどうとか言ってるけど、そもそもモデルのパラメータを画像座標と図形形状の直積に取れば位置の情報は当然入る。単にそれだけの話なのに、わざわざ「アテンション」とか言ってしまうところが、ニューラルネット、もっと言えば並進対称性をあからさまに入れた畳み込み演算が暗黙の前提になりすぎているといえる。

GANがどうと言ってる人も同一人物だろうなと思うけど、そもそも単なる教師あり学習とhuman in the loopのアクティブラーニングは全然話が違うだろう。

ディープラーニングもいいけど、もっと基礎や、そもそもどういうことなのかということを考えた方がいいんじゃないかなと思う。

Permalink | 記事への反応(1) | 12:17

2021-01-21

■anond:20210121084714

ダメよ

はてなーは、それに言及少ない傾向あるよね

そもそも教師あり学習というものを知らないのかもしれない

Permalink | 記事への反応(0) | 08:49

2020-11-16

■AI もアルゴリズム なんやろ？

ということは、教師あり学習の場合は「比較元のデータ量」に比例してパフォーマンスが劣るはずではないか？と思っているのだけど、そこんところ教えて下さい。

Permalink | 記事への反応(0) | 23:20

2020-10-03

■anond:20201003224752

変な記事を書いてあるのはわかっている。これは人工知能を否定する文章じゃ無いんだ。上から下まで読んだら、とある人物に搾取された人が共感してくれる目的で書いたのだ。あの人にやられたら、確実に機械学習のことを嫌いになるようになるので、そうなった人が共感して「同じ思いをした人がいるのだな」と思えるように書いたつもりなんです。もちろん、教師あり学習・教師なし学習・強化学習があって、こんなアルゴリズム使っているのか、ぐらいし知りませんよ。ですが、自分は人工知能には手に余るので、昔も今後もしないと思いますが、人工知能が来るというのは確信しています。お気持ちを害したのは謝ります。申しわけありません。

Permalink | 記事への反応(1) | 23:05

■anond:20201003221504

オレは機械学習はポシャると確信してるし、こんな暗記馬鹿ライブラリをちょろってやって人間が負けるようだったら、人類は滅亡すべきだと思うよ。

こういう認識なんだとすると、もう少し機械学習勉強してみた方がいいんじゃないかなって思う。教師あり学習しか知らないっぽいし。

現状の機械学習はちょっと賢い決定木レベルであるのは間違いないけど、どっちかというと、それを通じて思った以上に大多数の人間がやってる知的活動と言われているものは単なる「暗記馬鹿」に過ぎなかったということが分かってきたということがキモだと思うよ。

Permalink | 記事への反応(1) | 22:47

■anond:20200903011453

人工知能で詐欺まがいなことしてる香具師に引っかかった、という話をこれからしていく。この記事は「人工知能ば詐欺だ」ということでなく、「詐欺師は人工知能を使いたい」ということを語る。

もう10年ぐらい前になるのだけど、人工知能には色々あるのに「深層学習だけが人工知能」だという無勉強な馬鹿に引っかかったんだよ。本当は人工知能なんて LISP から始まって、色々あって今の AI につながるているのに、その歴史は全く無視してね。Python のライブラリでどうにかできないものは不要とのことなので、「ふーん、そうなんですか」ぐらいで対応してた。なぜなら、自分は人工知能にAPIを叩いてブラウザに表示する部位を担当したからだ。

その会社にはエンジニアがいないので、人工知能とデザインを除いた全てをほぼ自分だけでフロントエンド（当時はFlash）からバックエンド（Django）とデータベース、クラウド部分を設計・開発・運営をやることになった。それは慣れてたから良いのだけど、ひとりでぼちぼちやるのは変な感じだった。ホームページには10名近い社員がいます、とのことなのに。

この理由はなぜなのか理解できたのは、インターンがやってきてからだ。そいつは結果を出せないから有能な人がやってこないのた。それで社員数を水増しするためにインターンを社員としてカウントしていたのである。なんとインターンの無給の学生ばっかり声かけて、ただ働きさせて「成果は自分のもの、ミスは能力のない学生のせい」みたいな畜生の極み、のようなことをして糊口をしのいでいる自称『天才』に俺は捕まってしまったのにここではじめて気がついたのだった。信じられないことに。

それで、ついに API をつないで一つのシステムにしましょうという日が来た。なんとか力量で解決したのだけど、はじめて彼のソースを見せてもらったときの衝撃度ときたらね。驚いたよ、スカスカのコード過ぎてね。おかげで深層学習がライブラリを使えば簡単にできるのも学んだけのだど。

閑話休題。

まぁ、コードを書くのが本業でない人だから良いか、と思ったらなんと、Python 教室を開くというじゃないですか。それで、成果をサイトに掲載するのですよ。自分のコードは絶対に載せないのに、他人のコードを添削して「弊社は実力があります」みたいな事例にしていたのですよ。驚いたことにね。

なぜ、そのような香具師が存在できたのかというと、「人工知能は効果判定をしにくいけど、将来的にはメリットになる可能性が高い」という計算機科学の領域では珍しい特性を持っているのよね。ほら、業界人にとってブラウザやデータベースといったものは、ちょっと触ったら特性が感覚的にわかるじゃないですか。そこが人工知能はちょっと違う。

もちろん人工知能は世の中に必要不可欠なものになるのは間違いないのだけど、というよりも現状でもスパムメール判定やゲームでは活躍していますけど、おそらく個人がどうにかできるものではないのよね。理由はこれ以上はアルゴリズムの向上が困難で、高コストな専用ハードウエアを扱える資本家に対抗する術を個人が持てないという限界と、教師あり学習のような判断基準の元になる資料をどう収集するのかという問題点を解決した人や組織が皆無という状態にあるからなんですよ。特に最後の部分は未だに twitter レベルの組織ですらやらかしているので、まだまだ難しいと思われます。

学習の根拠になったもの自体をどうやってキレイなものにするかということすら、データサイエンスという学問が出てきて苦労しているのですから、ユーザーエンドからしたらこの領域は未だにキャズムを超えていないと判定されるのは仕方がないことなのでしょう。それは、そういうもんだから良いのですよ。将来的には解決される可能性が高いでしょうし。

それでですね、やっと本題に入れるのですけど、問題点は「人工知能は効果判定をしにくいけど、将来的にはメリットになる可能性が高い」という非対称性をこの領域は抱えているのですよ。これはですね、バイオ（健康食品・代替療法）や金融商品（暗号通貨・バイナリーオプション）なんかに出てくる胡散臭い「何しているのかわからない」香具師が介入しやすい環境なのですね。それっぽいことを言って、専門家なら絶対に言えないコミットメント（金融だと「100％絶対に儲かる」とか）を宣言し、私はアメリカの有名大の（別領域の） Ph.D. を持っています（嘘）、日本はゴミです、さあ皆さん『人工知能で夢』を叶えましょう、なんていうクサい台詞を（非技術者向けの）講演会で語るやつがいるのです。残念なことに。

でも、皆さん、ちょっと考えてみてください。なんで（トーシロ限定で）講演会なんてする必要があるのかと。人工知能の世界で講演会をして資金集めをする、っておかしくありませんか？OSS で有名なコミッタだったり、インパクトファクターのつく雑誌に名前がのるような人材がですよ、この御時世にわざわざ資金集めする必要がありますか？世界中から「金を出させてくれ」といって金がわんさか集まってくるに決まっているじゃないですか。逆に、プロを避けるような人物に金を出したいと思いますか？よって、（トーシロ限定で）資金集めのための講演会なんかをひらくような残念な人工知能開発者が金を稼ぐことはありません。同様なケースに遭遇したら、出資したら泣き寝入りすることになりますよ。

※ この記事はアキネーターの下りがクソです。もう少ししたら自分の言葉で書き直します。ただ、この記事を消すことはしないです。これ技術的な話をしているようにみせてますが、わかる人にはしっくりくる符牒のつもりで書いています。

うん、でも、わたし講演会でその人のつくった人工知能が動いているのみたよ、まるでアキネーターみたいな、というのでありましたら「良いものを見ましたね」とこたえますよ。あれは良いものです。実はアキネーターのクローンは今だと学生レベルのスキルで作れます。具体的にのべますと、なにかテーマを固定して、そのテーマに関係する情報を片っ端から集めて、Python のライブラリを使ってデータ処理を行い、機械学習のライブラリを介して５段階の入力に対して適宜返せるような状態に持っていき、Rails/Laravel/Django で HTML を吐き出すようにして、ウェブ・ブラウザで Vue/ReactjQuery に呼応するようにすると計算機科学ができる人だと作れちゃいますし、見た目を重視したければ美大生にでも声かければ、似たようなキャラを描いてくれることでしょう。

この程度だと、二人の学生を無休（給）のインターンにやらせて、詐欺の商売道具をただで作れます。これは、アキネーターは駄目だとは言ってません。説明すると長くなるので省きますが、あなたを騙す道具を作るのにプロは要らないと言っているのです。

それで話を続けさせてもらいますが、哀れな学生は酷使されたうえに、会社のサイトに「インターンの思ひ出（検閲済み）」を実名で掲載されるという、デジタルタトゥーを刻まれるのです。かわいそうに。

※ ここを疑え、というポイントを追加。

※ ランサーズに原稿の依頼やコアなコードを依頼

これだけでは済みません。詐欺の道具はこれだけでは不足しますからね。本は良い権威の道具になりますよね？そうなんですよ、出版社の知識のない馬鹿共が「学生だけが書いた技術書」（前書きと終わりにだけを本人が書き、しかも自著として講演会で提示するという狂気の書）を出しやがった。これ、マジで有名出版社がやらかしたので驚いたよ。

で、こいつもう一冊も本（これまた共著なのに、自著として講演会で使うイカれた書）を出してるのよね。まぁ、読んでみたらあまりの頭の弱さに感動したのだけど、驚いたことにこの本を出典として Wikipedia に何度も記載しようとチャレンジするキチガイ（本人かは不明）がいたのよ。もちろんリジェクトくらっていたのだけど、ビビるよねー。繰り返すが、人工知能が悪いのじゃないのですよ。人工知能を使って、投資家を騙そうとするのが許せないのであって。

ちなみに、わたくしはそいつにコードの添削されたのですけど、おそらくそいつは FizzBuzz テスト、クリアできませんよ。なぜなら、If/Else がかけないのではなく、四則計算のミスが酷いので。チューリングテストは通るとおもうけど。どうして、大切な投資家向けの資料なのに単純な数値が一致しないのかわからないのですけど、何故か数値の足し算がおかしいことが多すぎるのよ。数値が一致しない、ってヤバすぎるだろ。それ、多分病気だから、哀れに思った（元）奴隷ちゃんたちは、病院へ行くように諭してあげてください。きっと、逆上するでしょうけど（笑）。

えっ、なんでお前はやんないのか？って、そりゃ「めちゃくちゃそいつのこと恨んでいるから」に決まっているじゃない。オレは、そいつを救えるほど、冪等な人間じゃないんだよ。だって、オレは天然知能だからな。

p.s. 多分、この記事で言及している人物の被害にあった方はは多いので、「アイツだろうな」とわかるように書いてあります。「アイツってどんな人？」と聞かれたら、説明するのが辛いでしょうからこのページをさっとみせられるようにこの記事を書きました。私も辛いのです。10年フラッシュバックに悩まされてきました。ただ、これ以上の犠牲者が出ることが耐えられなくなり、今回この記事を書かせていただきました。この記事で言及している人物は専門ではないのに人工知能・情報工学という餌を使って、相変わらずボニーアンドクライド気取りで若者を搾取しています。ソーシャルエンジニアリングを使われると、若者はかんたんに騙されてしまうものです。かつての自分がそうだったように。世の中にしなくて良い苦労はあるのです。