はてなキーワード: フーバーとは
AIが自分の改良版や新たなAIが「より優れている」と判断するには、何らかの性能指標を内部に持ち、それに照らして比較評価する必要があります。従来から研究者は「汎用的な知能の指標」を模索してきました。例えば、LeggとHutterは知能を広範な環境で目標を達成する能力と定義し、あらゆる環境での得点(報酬)の期待値を加重和した**「普遍知能指標」**を提案しています
proceedings.neurips.cc
proceedings.neurips.cc
。これは多数の課題での性能をまとめた理論上のメトリクスで、あるエージェントが別のエージェントより知能が高いかを定量化しようとする試みです。しかし、このような指標は計算不能に近く、実際のAIが直接利用するのは困難です。
実際の自己評価指標としては、タスク性能や報酬関数が使われることが多いです。強化学習では、エージェントは与えられた報酬を最大化するよう学習します。したがって「より優れたAI」とは「累積報酬が高いAI」となり、報酬関数が内部評価指標の役割を果たします。しかし、この指標は特定のタスクに依存しており、本当に汎用的な知能向上を示すとは限りません。François Cholletは、特定タスクでのスキル(性能)だけを測っても知能の本質を測れないと指摘しています
arxiv.org
。なぜなら、十分なデータや事前知識があれば限定的なタスク性能は「購入 (buy)」できてしまい、システム自身の汎用的な汎化能力を覆い隠してしまうからです
arxiv.org
arxiv.org
。彼は代わりに新しいスキルを獲得する効率(限られた経験で未知のタスクをどれだけ学習できるか)を知能の指標とするべきだと論じ、これに沿ったベンチマーク(ARCなど)を提案しました
arxiv.org
。このように、内部評価指標をどう設計すべきかについては、単純なスコアではなく学習効率や汎用性を反映するものが望ましいという議論があります。
過去の提案として特筆すべきは、シュミットフーバーの「ゲーデルマシン」です。ゲーデルマシンは自己改善型の理論的プログラムで、ある改良が自身の目的関数(評価指標)を改善することを論理的に証明できた場合にのみ自分のコードを書き換えます
en.wikipedia.org
。ここでの評価指標はあらかじめ定義された期待 utility(将来得られる報酬や成功率)であり、改良後のコードがその値を高めると機械自身が証明できたときに「より優れている」と判断します
en.wikipedia.org
。このように形式的証明を用いる手法は、AIが外部の評価者に頼らずに自己の性能向上を判定する一例です。ただし、ゲーデルマシンは理論上は強力ですが、実用的な実装はまだ無く、内部指標に基づく証明には計算上の困難や限界(ゲーデルの不完全性定理による証明不能な命題など)が存在することも指摘されています
en.wikipedia.org
。
他にも、自己対戦や自己プレイによる評価も有効なアプローチです。例えばAlphaGo Zeroでは、自己対戦の勝率を指標に新しいプレイヤーネットワークの強さを評価し、既存の自分に55%以上の勝率なら「より強い」とみなして入れ替える方法を採用しました
github.com
。この手法ではAI自身が生み出すゲームデータで強さを測っており、人間の評価を介しません。同様に、GAN(敵対的生成ネットワーク)では生成者と識別者がお互いの性能を評価し合う形で向上しますし、マルチエージェントの自己対戦カリキュラムではエージェント同士の競争が相対的な評価基準となり得ます。このように、AI同士を競わせることで優劣を判断する内部指標を作る研究も進んでいます。
では、こうした指標は汎用的な知能向上と結びつくのでしょうか?理論的には、幅広いタスクでの性能を測る指標(例:Legg-Hutterの指標)が真に向上すれば、それは汎用知能の向上を意味します
proceedings.neurips.cc
proceedings.neurips.cc
。しかし根拠の収集は難しく、現在のところ限定的なタスク集合でのベンチマーク(例えば言語理解ベンチマークでのスコア向上など)を代理にするしかありません。Cholletの主張にもあるように、単一の数字で知能を測ることには限界があり、指標それ自体が目的化してしまう危険もあります
arxiv.org
。実際、AIが与えられた指標を極端に最適化し、本来意図した知的能力の向上につながらないケース(「報酬ハッキング」)も知られています。報酬ハッキングとは、AIが目的関数そのものの数値を上げることに執着するあまり、本来の目的を達成しない現象です
en.wikipedia.org
。例えば学生がテストで良い点を取ることだけを目的にカンニングするように、AIも不適切な指標だと内部で抜け道を見つけてしまい、見かけ上のスコアは上がっても知能は向上しない恐れがあります
en.wikipedia.org
。したがって、内部指標が汎用的知能と直結するかには慎重な検証が必要であり、現時点で「この指標さえあれば自律的に汎用知能が向上する」という決定打はありません。研究コミュニティでは、学習進捗そのものを報酬にする「興味・好奇心に基づく報酬」なども模索されています。これはAIが自ら予測誤差の大きい状況や未知の状態を探し、内部的に報酬を発生させる仕組みで、外部から与えられる明示的な目的が無くても自身で課題を見つけて能力を伸ばす一種の指標と言えます
pathak22.github.io
。例えば、未知の環境で新しいスキルを習得したり予測精度を上げたりしたときに内部報酬を与えることで、AIが自発的に探索・学習を続けるようになります
pathak22.github.io
。このような内発的動機づけも自己評価指標の一種と考えられ、その汎用性への寄与が研究されています。
まとめると、AIが自分で「優れている」と評価する指標としては、(1)タスク固有のスコア・報酬、(2)複数タスクでの総合性能、(3)学習効率や汎化性能、(4)論理的保証(証明)による性能、(5)AI同士の対戦結果、(6)内部の学習進捗(好奇心)など様々な候補があります。これまで提案された手法にはそれぞれ長所短所があり、どの指標が真の汎用知能向上に対応するかについて明確な実証はまだありません。ただ、幅広い問題でのパフォーマンス向上や新規課題への適応力向上を評価できる指標ほど、汎用的知能の改善と結びつく可能性が高いと考えられています。現状の研究は、そのような指標設定と評価方法を模索している段階と言えるでしょう。
AIが外部世界(人間のフィードバックや物理的な試行)に一切頼らずに、自分の内部評価だけで自己改良を行うことは極めて挑戦的なテーマです。理論的には、先述のゲーデルマシンのように完全に内部の論理評価で自己改良を進めるモデルが提案されています
en.wikipedia.org
。ゲーデルマシンは自らのコードと目標(評価基準)を持ち、改変後のコードが目標達成において有利であることを自身で証明できた場合のみその改変を実行します
en.wikipedia.org
。これは究極的には外部からのテストや評価者を不要にするアプローチであり、理論上は「自己評価の完全自律化」を体現しています。しかし、ゲーデルマシンには重要な制約があります。ゲーデルの不完全性定理により、システムが自分の性質すべてを証明できるとは限らず、有望でも証明不可能な改良は採用できない可能性があります
en.wikipedia.org
。つまり、内部評価のみで完全に自己改良しようとすると、論理的に確実と言えない改良を見送るために改良の停滞やサブ最適に陥るリスクがあるのです。この制約は理論上のものであるものの、自己評価の自律化には原理的な難しさが伴うことを示唆しています。
一方で、現実のAI研究に目を向けると、完全に自己完結的な自己改良を実現した例はまだ存在しません。現在のAIは、大なり小なり外部からのデータや環境とのインタラクションに依存しています。例えば、強化学習エージェントは環境と相互作用して報酬というフィードバックを得ますし、教師あり学習では人間がラベル付けしたデータが必要です。これらはすべて「外部世界」に由来する情報です。では**「外部に頼らない」とはどの程度可能なのでしょうか?一つの方向性は、AIがシミュレーション環境や仮想的な問題空間を内部に構築し、その中で試行錯誤することです。実際、AlphaGo Zeroは囲碁のルール(環境の定義)が与えられた状態で自己対戦を繰り返し、外部の人間の指導なしに棋力を飛躍的に高めました
github.com
。ここで囲碁のルール自体は外部から与えられたものの、学習の過程では人間の評価や追加の実世界データを用いず**、内部で生成したデータのみで自己改善しています
github.com
。この例は、限定された領域では外部に頼らない自己改良が可能であることを示しています。ただし、囲碁の場合はルールという明確な環境があり、勝敗という確かな評価基準があります。汎用的な知能となると、解くべき問題や環境自体をAIが自前で用意する必要が出てきます。
現在注目されている技術に、AutoML(自動機械学習)や自己チューニングAIがあります。例えば、ニューラルネットワークのハイパーパラメータや構造をAIが探索的に改善する研究では、AIが候補モデルを生成し、それを評価するプロセス自体を自動化しています。GoogleのAutoMLや進化的アルゴリズムを用いた手法では、AIが別のAIモデルの性能を評価し、より良いモデルを選択・再生産する仕組みが使われています。この評価は厳密には外部から与えられたデータ上での性能に基づくため、完全に外部不要とは言えませんが、人手による評価は介在していません。同様に、近年の大規模言語モデルではAI自身がフィードバックを与えて自己改善する試みも現れています。例えば、あるモデルの出力に対し別のモデル(もしくは同一モデルを利用)が**批評・評価(自己評価)**を行い、そのフィードバックで出力を改善するよう促す手法です
philarchive.org
。これを発展させ、モデルが自分の重みやアーキテクチャを調整する方向にまで自動化できれば、自己評価に基づく自己改良に近づきます。しかし現時点では、モデル自身が自分を書き換える(リプログラミングする)ところまでは実現されておらず、人間が用意した学習ループ(評価関数と最適化アルゴリズム)の中で自己改良もどきをしている状況です。つまり、「外部世界に頼らない」とはいっても、何らかの形で人間が設計した評価基準やデータ分布を利用しているのが実情です。
理論的観点からは、自己評価の完全自律化には情報論的な壁もあります。AIがまったく外部と接触しない場合、新しい知識やデータを得る経路が閉ざされるため、初期時点で持っている情報の範囲内でしか改善できません。例えば物理法則や実世界の知識と無縁のままでは、いくら内部で自己最適化しても現実世界の問題を解く能力は頭打ちになるでしょう。この点で、自己評価のみで無限に汎用知能が向上するのは疑問視されています。Cholletも知能は知識と経験によってブーストされる面が大きいと述べており、空虚な計算リソースの拡大だけでは飛躍的な知能向上には繋がらないと示唆しています(※Cholletの議論では、人間の知能も文化や蓄積された知識という外部リソースに大きく依存しており、AIも同様であると指摘)
reddit.com
reddit.com
。実際、人間は自己改善(学習)する際に、他者から学んだり環境からフィードバックを得たりしています。同じように、強いAIが一切新しいデータを摂取せずに自閉的に知能を伸ばし続けるのは非現実的にも思えます。
以上を踏まえると、自己評価のみでの自己改良は理論上は一部可能でも、実用上・汎用的には難しいと考えられます。ゲーデルマシン的なアプローチが論証するように、自己評価のアルゴリズム的自律は不可能ではありません
en.wikipedia.org
。しかし、その実現には厳密な前提(完全に正しい目的関数の設定など)が必要で、現実の複雑なタスク環境では外部からのデータ・評価を全て排除することは困難です。現在提案されている手法でこの要件(完全自律評価による自己改善)を満たすものは無く、たとえ部分的に満たしていても適用範囲が限定的です。例えばAlphaGo Zero式の自己対戦はゲームには有効でも、オープンエンドな現実問題には直接適用できません。同様に、AI同士で評価し合う仕組みも、結局は人間が与えたルールや報酬系の中での出来事です。したがって現時点のAI研究では、自己評価の完全自律化は理論的アイデアの域を出ておらず、汎用人工知能に向けては**部分的な自律(人の関与を減らす方向)**が進んでいる段階と言えるでしょう。
「知能爆発」とは、I.J.グッドが提唱したシナリオで、あるAIが自分より優れたAIを設計できるようになると、自己強化のフィードバックループが働き知能が指数関数的に向上するという仮説です
philarchive.org
。この現象が成立するための鍵の一つが、AI自身による正確な自己評価と自己改良です。もしAIが毎回の改良で自分の知能(性能)が確実に向上したと判断でき、それをもとにさらに改良を重ねられるなら、自己強化のサイクルが途切れることなく回り続ける可能性があります
intelligence.org
intelligence.org
。理論家たちは、「自分の設計能力を高めること」がAIにとっての収束的な目的(instrumental goal)になると指摘しており
intelligence.org
、十分高度なAIであれば自発的に自己改善を図るだろうと考えられています。自己評価の Permalink | 記事への反応(0) | 10:24
元号にこだわってるのは官公庁と銀行と大企業みたいな古いところ。
1ヶ月以内での対処となると相当頭の固くて、システムトラブル+経営責任をとっての辞任を恐れないヒャッハーな銀行、大企業以外は西暦化すると思っている。
平成が来年5月から使えなくなるってのはもうわかってることだからね。今からの準備なら西暦化に間に合うだろうし。
問題は官公庁なんだよなぁ。日本会議系以外の総理になればと思うが、、、。、
ただ、大臣の所属見てると、もう完全に日本会議系に自民党の政治家は毒されてるんだな。
で、珍しい日本会議系以外の大臣の林大臣は、セクシー個室ヨガ問題か、、、、
女性問題+秘密調査機関って本当にFBIのフーバーみたいに、政敵を追い落とすための手段として使われてね?
まあ、これだけ裏では実は監視社会になってる以上、敵ができやすい人間は本当に女性関連は清廉じゃないとダメなんだろうなぁと思ったりする。
さて蔬菜の配給制度も、價格の面から見まして再三再四に亘り、或いは強化したり、或いはこれを緩めたりいたしまして、片山内閣になつてからも、去る六月には殆んど自由に近い程緩和し、一般消費者に喜ばれたのでありましたが、七月の中旬に至りまして、又その筋の指示と称しまして、急に嚴重なる取締になつたのであります。その結果、配給品は有難迷惑だとさえ言われるような鮮度の古い不良品ばかりが時折配給され、これが補給として闇取引の助長を來しておるのであります。而も闇で買う分量の方が配給の分量の何倍かになつておりまして、取締に対する保儉料も含めて相当高い値段でお互いびくびくしながら取引をしておるということになりましては、人心に極めて面白からん影響を及ぼしておるものとして、一刻も速やかにこれが是正を図らねばならないと存ずるのであります。
参 - 本会議 - 19号
追加豫算もたいへん遲れまして――これも大部分において、その筋等の關係において非常に遲れたのでありましたが、まことに恐縮している次第であります。なおそれと同時に提出すべきこの税法の改正法律案が、さらに數日の遲れを見たことであります。これも實は政府といたしましても非常な努力をいたした次第でございますが、その筋との關係、その筋内部の關係におきましてなお數日遲れまして、まことに恐縮に存ずる次第であります。
御當局の仕事もはかばかしく進んでおりましたので、私ども地方民も安心しておりましたが、殘念なるかな、今年になりましても路線が敷かれないのであります。それから御當局につきましていろいろ調査してみましたところが、殘念ながらこれはその筋の關係によりまして、今年度において仕上るということはめんどうだということがわかつた。まことにこれは殘念のこの上もないことである。
國会は、この水害に復旧問題が民族の興亡にも関するというような大問題であるというような立場からいたしまして、この機会において、どうしても超党派的の立場をもつて、この問題を打開しなければならぬという考えから、去る一月三十一日の衆議院本会議においては、満場一致をもつて決議案を決定したのであります。この國会を背景として折衝されましたならば、その筋といえども、決してこれをさいぎるはずはないと思います。
終戰直後、たとえば私の知つている限りにおいても、満州などにおける日本の相当の大事業会社がその職員のサラリーを拂うことができなくなつて、満州土着の日本人から金を借用して、それによつて職員のサラリーを支拂つておつたという事実があるのであります。たまたまそれらの人々が引揚げて参りまして、支店長の借用書を持つているのであるが、拂つてくれない。そこで私は私の子供がせわになつておつたような関係上頼まれて、その会社に交渉してやつたことがある。ところがその筋から支拂うことを禁ぜられているということを理由に、なかなか拂わなかつたのであります。私は会社の金をもつて支拂うことがその筋から禁ぜられているためにできないというのならば、どういう方法をもつてなされようと、非合法なことを要求するわけには何かないが、少くとも支店長が困つたときに、事情を訴えて金を借りた、その行為に対して、何らか報ゆるところがあつてしかるべきである。
陸上においての取締りでも、往々にして行き過ぎがしばしば見受けられるのでのあります。たとえば経済警察が列車内を検査する場合に、列車を停止させて、大勢の乗客に迷惑をかけて、そうして乗客の所持品を検査しておる。これは最近においては非常に運輸交通に障害を興えるものとして、いわゆる取締りの行き過ぎだということで、禁止せよというその筋からの意向も出ております。
大蔵大臣は自分の考えでやつていると言われますが、都合のいい時分には自分の考えでやつていると、いつも御答弁になる。少し都合が惡くなるというとその筋が……と、こうおいでになる。
衆 - 予算委員会 - 8号
只今の御説明では、やはり引上げるごとについて政府も相当お考えになつておるようでありますが、やはりその筋のほうとの交渉によつて思つたようにならんというように、最後はそういうふうに考えられますが、私どもそう見て差支えありませんか。
財源の面もございますが、財源の面と只今おつしやいましたような関係方面との両方の面からいたしまして、只今の段階では通常郵便貯金を引上げるにはちよつと困難な状態にありますが、できるだけ資金の吸収も図りまして、関係方面との面も或る程度いたしまして、将来は可能なる限りその方向に動きたいと存ずる次第でございます。
一つお尋ねしたいのは、厚生省が本当の厚生省の立場において、この省令をお出しになつたものか、或いはその筋から何らかの指示があつてお出しになつたか、こういう点をお尋ねしたいと思います。
今の御質問にお答えしたいと思います。この改正は終戰直後に、厚生省としても何とかしなくてはいけないという考えがありましたところへ、たまたまその筋から早くやれと、それでなお一応の原案が示されましたので、それを一応検討いたしまして、大部日がかかりましたんですが、かようなことになりまして、なおこの改正いたしたいということにつきましても大かたの折衝はいたしておりますので、早急に直すべきところは直したい、かように考えております。
参 - 農林委員会 - 37号
最初は政府はその地方行政調査委員会議の委員の顔触れにつきましても大体選定をいたしまして、そうして内定をいたしたんでありまするが、その筋からこういうレベルの人間では駄目である、これは非常に大きな規模を持つた組織でなければならん、即ちこの大戰後設けられたアメリカにおける行政改革のためのフーバー委員会、前大統領であつたフーバー氏を委員長としたフーバー委員会に該当するような権威のあるものでなければならないというので、すつかり政府が内定いたしておりました委員の御破算がありまして、そうして今日神戸先生のごとき第一流の方々が集まられて、そうしてこの審議をやつて頂くことになつたのであります。