はてなキーワード: ロジスティックとは
俺は週5通ってる、美味しいのだから仕方がない。
店員や店によって肉の量が多かったり少なかったり勝手つゆだくだったり
同じ吉野家でも「今日はどんな味に出会えるかな」というワクワク感がある
これを単に不満と感じるか、人生の不確実性と楽しめるか、知性の差が現れる
勝手つゆだく店員の場合はつゆ抜きで頼む、つゆ抜きで頼んで通常の汁具合になるのだから愉快だ。
こいつ肉ケチるんだよね、ってときは諦めて牛鮭定食にする、この場合は概ね規定量の肉を盛ってくれる
こういう店員だと逆に特盛り肉増しを頼み人生最大の幸福を楽しむ
今日は煮込みが弱いな、客の回転がいつもと違ったのかな?彼氏と喧嘩でもしたのかな?なんかいつもと様子が違うぞ
みたいな事を想像しながら食うのも良い
他店のようにキッチンを隠し、奥でなにやってんのかわからない牛丼チェーンとは別格なのだ
あと意外に思われるかもしれないが吉野家と他店の最大の違いは紅生姜と七味である
他店はこれらをオマケ程度の軽い扱いをしているが、吉野家の紅生姜と七味は本気なのだ、さすが元祖の意地
食べ比べればわかるだろうに、他店とは別の食い物である
研究と試行錯誤、原料、仕入れ、製造、ロジスティック、全てにこだわり抜いたのが吉野家の紅生姜と七味
わかってんの?味の違いわからない?
データを集め、確率を計算し、そこから最適解を選び出す。そういう構造があるのは事実だ。だから「まったく違う」と言い切るのも嘘になる。
だが、それを「AIって結局は統計だろ?」なんて一言で片づけるのは、あまりに横暴だ。
統計そのものを動かす理論や数理、そこに積み上げられたアルゴリズムの厚みを無視してしまっているからだ。
たとえば俺が本気で勉強したときにぶん殴られたのは統計の延長で片付けられないようなもっと複雑でもっと美しい構造だった。
だから、この言葉にモヤモヤするのは「半分は当たっているけど、半分は外している」から。
その両義性を理解せずに「統計だろ?」で済ませるのは、ピアノの音を聴いて「ただの鍵盤を叩いてるだけだろ?」って言ってるようなものだと思う。
そこで、AIの仕組みについて漠然と理解している人のためにおすすめの本を三冊紹介する。
ここで紹介する三冊は、そんな俺のモヤモヤを実際に言語化してくれた本たちだ。
難しいし、読み進めるのに何度も心が折れかけた。けど読み切ったとき、AIは統計か?それとも統計じゃないのか?という問いが、ようやく立体的に見えるようになったんだ。
だから是非一読してみてほしい。険しい山ほど、山頂からの景色は美しいものだから。
著者:Christopher M. Bishop
けど、それでも読み進めると「機械学習ってバラバラなアルゴリズムじゃなくて、確率という一本の軸で全部つながってるんだ」って感覚が急に開けてくる。
ロジスティック回帰もSVMもニューラルネットも、ぜんぶ親戚だったのかよ!って衝撃。
何度も挫折しかけてはメモ書きしながら戻って、理解できた瞬間に鳥肌が立つ。
俺にとって本書は、AIという森の入口に置かれた地図そのものだった。
著者:Michael Sipser
PRMLとは真逆の本。ここではただ無機質なオートマトンやチューリングマシンのみ。
「計算ってそもそも何なんだ?」っていう根本を突きつけてくる。AIだってこの枠組みの外には出られない。
NP完全問題の章なんか読んだ暁には「世界にはどう足掻いても効率よく解けない領域がある」って現実にぶん殴られる。
AIが万能に見えても、その背後には絶対の限界があるんだと分からされる。
ここを通ると、妄信的に「AI最強!」なんて言えなくなるしいい意味で冷や水ぶっかけられる本。
AI万能説が唱えられる昨今、この一冊を読み理解することでAIの本質を理解できるようになるのは確かだ。
著者:Ian Goodfellow, Yoshua Bengio, Aaron Courville
PRMLで仕組みの家系図を見て、計算理論で壁にぶち当たったあと、ここに来ると「でも実際に世界を変えてるのはこっちだろ」って現実を知ることができる。
CNNがどうやって画像を認識してるのか。RNNがどう文章を扱ってんのか。GANがなぜフェイクをリアルにするのか――それが手元の紙と数式の上でほどけていくと、ニュースのAIが急に手触りを持つ。
もちろんクソ難しい。何度も心折れた。
でもここにいまの世界の心臓部があるって思ったらページを閉じられなかった。
読み切ったあと、AIは魔法じゃなくて地道な科学だって確信が腹の底に残る。
名著。
数式だらけで頭が痛くなるし、途中で本を閉じて「俺には無理だ」って投げ出したくなる瞬間が何度もあった。
だけど不思議とまた戻ってきてしまう。何故か?何故ならそこにワクワクがあるからだ。
ページをめくるたびに「うわ、こんな発想があるのか!」って驚かされる。
統計だけじゃない。論理だけじゃない。人間の思考を真似しようとした末に生まれた知恵の積み重ね。
それを追体験するのは、ちょっとした冒険みたいなものだ。難しさと楽しさが同じ場所にある。
白状するが、当時は俺もそう思っていた。
実際に学んでみればそれがどれだけ奥深く、そして人間の営みそのものみたいに豊かな世界だったかが見えてくる。
だからもし、ここまで読んで「ちょっとやってみるか」と思った人がいたら、迷わず飛び込んでみてほしい。
でも、そのうち泳げるようになる。スイスイ泳げるようになる。それも保証しよう。
そして気づくはずだ。
具体的にどんなモデルをつかってるの?
LLMでラベルつけて単純な非NNのロジスティック回帰にするってことはLLMは単に外部のAPIで呼んでて全部呼ぶほどのタスクじゃないのでラベル付けだけに使って自分のとこの超基本的な「モデル」のトレーニングに使うってことでしょ?
威張って人をレベル低いだの馬鹿だのアホだのいうほどのことじゃないよ
お金ないだけ
いろんな分野のAPIで1コール1ドルとかそういうのいくつもあっていちいち呼ぶ予算ないし全部のデータいらないから呼んだ結果を「蒸留」してローカルに置いておくなんてのもよくある話で
それとかわらない
はい、それは「知識の蒸留(Knowledge Distillation)」と呼ばれる、非常に強力で実用的な技術です。
巨大で高性能なLLM(先生モデル)が持つ特定の能力だけを、ロジスティック回帰のような軽量で高速なモデル(生徒モデル)に継承させる手法を指します。
まるで、万能な知識を持つ賢い先生が、特定のテスト範囲だけをまとめた超シンプルな「虎の巻」を作るようなイメージです。
巨大なLLMをそのまま使うのではなく、わざわざ軽量なモデルに「蒸留」するのには、明確なメリットがあります。
基本的な考え方は「LLMを、高品質な教師データを大量に生成するアノテーションツールとして利用する」ことです。
まず、ラベルが付いていない大量のデータ(例: ユーザーレビュー10万件)を用意します。そして、LLMに対して「このレビューはポジティブかネガティブか?」と問い合わせます。
ここでのポイントは、単に「ポジティブ」という結果(ハードラベル)をもらうだけでなく、「ポジティブである確率98%、ネガティブである確率2%」といった確率情報(ソフトラベル)も一緒に出力させることです。
この確率情報には、LLMが判断にどれだけ自信があるか、どちらの要素をどの程度含んでいるか、といった豊かな情報が含まれています。
次に、ステップ1でLLMが生成した大量の「データとソフトラベルのペア」を使って、ロジスティック回帰モデルを学習させます。
生徒モデル(ロジスティック回帰)は、LLM先生の「思考のニュアンス」が含まれたソフトラベルを正解として学習することで、単に0か1かを当てるよりも、よりLLMの判断基準に近い能力を身につけることができます。
これらのタスクは、LLMの持つ高度な読解力や文脈理解能力の一部だけを必要とするため、蒸留に非常に適しています。LLMの「汎用的な知性」は不要で、特定の「分類能力」だけを抜き出してくれば十分なのです。
この方法で作られた軽量モデルは、あくまで学習した特定のタスクしかこなせません。LLMのように対話したり、文章を生成したりする能力は持っていません。まさに「虎の巻」であり、万能な教科書ではないのです。
まず以下のタスクがある。
これは逐一LLMを使うと時間がかかるし、かといって「ポジとネガ」を表すラベルをdistant supervisionで抽出するとノイズがあるんだよ
ここで「LLMでアノテーションをする」という話になる
機械学習を学ぶ時にロジスティック回帰はまず基本としてやってその後ニューラルネットワークにディープラーニングとなってくもんやで
テキストデータに対してアノテーションを行う、という作業が数年前は盛んだった
感情分析とかね。あれは、実際には手作業じゃなく、X投稿の絵文字をラベルにして半自動化した
では、AIで任意のテキスト分類問題に対するアノテーションをするとどうなるかというと...どうなるの?
まあさらに小さいモデルへ圧縮する(蒸留と言う)というのはできるな。あと特徴語分析とか、テキストマイニングとか
追記:
https://github.com/Zhen-Tan-dmml/LLM4Annotation
追記2:
LLMの能力の一部をより軽量なモデル(例: ロジスティック回帰)へ蒸留するって話すら理解できないなら、お前エンジニアやめたほうがいいよ
中東の産油国が金があるからと言うて最先端半導体工場は建てられない。
半導体を作るには様々な原料を供給する国内工業の整備が必須となる。
半導体ともなると原料を作る原料まで必要になる。多段構造で輸入していては採算が取れない、
それらを原料すべて国内自給できる国と価格や品質で勝負にならない。
国家や地域の工業発達の初期段階ではまずセメント工場が作られる、新興国などで今でも観察できる。
セメント製造のプロセスは枯れており比較的カンタンな割に需要が大きく利幅も大きい。
さらに工業が発展し経済が順調に伸びると食糧問題が出始めて肥料を自国で作り出す。
肥料から化学工場が発展しこれらの産業規模が安定すると最後に製鉄、高炉となる。
コークス(製鉄に必要な石炭の蒸し焼き)まで自前で作れるようになるとほぼ先進国の仲間入りとなる。
ここまでくれば人材も育ち金融やロジスティックスの産業インフラが整っており伸びが加速する。
すでに空気分離による高品質で安定的な窒素、酸素が自国で賄える状態になっている。
電力事情も安定し始める。
さて製油である。現代文明は炭素の原子的(原始的ではない)結合力で発展してきたのだ。
炭素は引っ付けたり離したり、好きなように分子構造、組成を制御することができる。
万能のりのようなもので非常に重要。燃料もいうなれば結局はただの炭素。
半導体を産業の米などというが、炭素は工業のコメ、水、空気、必須元素なのだ。
話を戻す、
化学工場ができ始める段階になると原料の原油、ナフサをどーするか、となる。
産油国ならえいやっで石油精製を自前でやればよいのだがそれ以外の国は悩ましい。
すでにそこそこ産業、工業が発展するとガソリンの需要は大きくなっている。
ならば原油を輸入してガソリンを消費し、搾りかすを国内化学工場で消費する、としたほうが経済合理性は高い。
石油精製工場を中心に石油コンビナートを整備し化学工場群を稼働させる。
とはいえこれは簡単なことではない、莫大な投資が必要でありリスクも高い。
話は変わるが原油タンカーを日本と中東で1往復させると10億円の輸送費がかかる。
で、原油から必要なのはぶっちゃけガソリンだけでそれ以外の成分はゴミ。
75%はゴミ。
ゴミを運ぶのに1往復10億円。
そしてどーにも使い道が無い搾りカスの中でもさらに無用なタンクの底に貯まるピッチ、ネバネバドロドロのタール。
さぁこれをなんに使おうか、海に垂れ流すわけにはいかない。
10億円かけて25%しか使い道がない原油なんぞを運ぶのは経済合理性が悪い。
そこでアメリカは中東など産油地で粗精製して必要な有効成分だけ運ぶ
搾りかすはてめぇらでどうにかしろと捨てて帰る、アメリカの特権。
経済性、施工性、性能の面で道路はアスファルトよりもコンクリートの方が良い。
原油を輸送せず粗製ガソリンを国内に持ち込むのでアスファルト原料となるピッチが生産されないので市場が無い。
分析ツールを作って、様々な凝った統計情報を表示したいと思ったことはないだろうか。
ロジスティック回帰でモデリングして係数表示をしたり、決定木を視覚化したり、相関の行列をヒートマップで表示したりと、いろいろなことができる。
しかしいざツールを作ってみると、「そんな分析は必要ない」と叱責されてしまうのである。これは一体どういうことなのか。
それは開発に近い人の考える「分析」とビジネスに近いところにいる人の「分析」が、メンタルモデルからして全然違うのである。
ドメインに近いところにいる人たちは、もっと基本的な統計を要求するだろう。
収益の推移だったり、アイテムが特定の属性のユーザーにクリックされる確率だったり、特定の条件に合致するアイテムの単価の分布だったりと、そういうものだ。
開発者がやるべきことは、csvファイルをアイテムに対する特定の検索条件・グルーピング条件などで出力してダウンロードさせることだ。
ケンブリッジアナリティカが、心理学的データ等を利用して政治工作をしていたというニュースが結構前にあった。
ユーザーが持つ興味というのは、相関行列から求めることができる。
ユーザー×アイテム、といった行列はユーザーがどのアイテムに興味を持つかを表し、これを複数のユーザー間で比較して相関を求め、ユーザー×ユーザーに変換することができる。
このような相関行列は、ユーザーをさらにクラスタに分類することができる。
ユーザーが興味を持つアイテムから、IQ、MBTI、Big5、政治志向などを予測するロジスティック回帰モデルを学習させる。
そしてそのような予測から得たユーザー×パーソナリティの行列も援用して、ターゲティング広告の内容を決定する。
このモデルの問題点は、パーソナリティ予測の性能が低いことだ。
ケンブリッジアナリティカがやろうとしていたのは、政治志向があやふやな「説得可能」な人々を見つけ出し、トランプ派へ誘導することである。
ところが、予測精度が低ければ「政治志向があやふや」であるという予測は占いのようになってしまう。
仮に予測精度が高かったとしても、「政治志向があやふやだから説得可能性が高い」という前提が疑わしい。
結局、ケンブリッジアナリティカの問題は「個人情報を間違った方法で利用していること」である。
スキャンダルがかっこ悪いから、自分たちがすごいことをしていると見せかけるために、「俺達は政治を誘導することに成功した」などというハッタリをかましているだけである。
メリーランド州民主党、「組織的な人種差別」を解体するために白人女性を指導部から排除すべきだと宣言
民主党選出議員は講演者のラインナップについて「白人は…少数であるべきであり、それには正当な理由がある」と述べた
FOX初– 教育委員会の会議で発言したイスラム教徒の子供たちが「白人至上主義者と同じ側にいる」と主張して最近批判されたある民主党のメリーランド市議会議員は、「白人女性」や「白人至上主義者」をバッシングした経歴もある。シオニストユダヤ人」とFOXニュースデジタルが報じた。
元公立学校教師のクリスティン・ミンク氏は、12月に第5地区を代表してモンゴメリー郡議会議員に選出された。
彼女は「これは公平だ」と宣言しながら、火曜日の夜の教育委員会会議で、 LGBTQ+のカリキュラムに反対するイスラム教徒の子供たちは「白人至上主義者と同じ側にいる」と論じた。
「残念なことに、この問題は…一部のイスラム教徒の家族を白人至上主義者や完全な偏屈者と同じ立場に置くことになっている」と民主党は述べた。「私はあなたをそれらの人々と同じカテゴリーに入れるつもりはありませんが、ご存知のとおり、彼らはこの特定の問題について同じ側に陥っているので、それは複雑です。」
彼女はまた、「愛国者」という言葉は白人を表すのに使われると主張した。
「今こそ『愛国者』という言葉を取り戻す時だ。そして明確にしておきたいのですが、私が『『愛国者』という言葉を取り戻せ』と言うとき、私は実際に『愛国者』という意味でその言葉を使っている人たちが、『白人』という意味でそれを使っている人たちからその言葉を取り戻しているということです」と彼女は語った。
同市議会議員はまた、黒人や警察との衝突の間、白人は自らの身体を人間の盾として使用すべきだという要求への支持を表明した。
彼女は「現場で白人たちの特権をどのように活用するかをロジスティックに教えてくれる主催者たち」に感謝した。