はてなキーワード: 接続とは
* 「ダウンタウンが昔から苦手だった」論についての続きです
︙
これは彼らの責にはよらないところ、そして増田の嗜好による部分も大きかろうとは思うが、『ダウンタウンDX』などは端的につまらないとしか思えなかった。
薄い記憶頼りの記述になってしまうが、例示した番組はいくつかのミニコーナーによって構成されていたはずである。そのコーナーのどれをとっても昼間のワイドショー的なノリに過ぎないように思えてしまっていた。
もちろん、そうしたノリが好きな人も多いのだろうし、呼ばれたゲストが好きな回だけ見るという人も多かったのだろう。
「サナ活」が工作されているのではと訝しまれる(実際にムーブメントとしてあるか・工作なのかはここでは問わない。単に首相や皇族やへの支持まで「推し活」として括ることがあり得るものとして消化される)ほどの、この推し活大時代において、人生に一人とて「推し」がいたことがない。
だからなのか、自分の生活に関係しない、他者たる有名人の惚れた腫れた不倫などなどへの興味も昔からなかった。
もっとも、「昼のワイドショー」的な内容でこそあっても、話芸によって付加的なコンテンツ性が生まれるのだとの論はあるやもしれない。
それでもなお笑いどころがわからなかったし、そのわからなさが、世界から拒絶されるような感覚さえも覚え、しんどかった(斜に構える思春期真っ盛りより前は、「みんなとなるべく同じになろう」と素朴に思っては達成されないと寂しさを覚えるものではありませんでした?)。
「お決まり」としての叶姉妹の私服が高過ぎるオチは理解できるにしても、1時間尺の番組でこうした部分しか笑えないのなら、この時点ですでに「not for me」でもあった。
けれど、「not for me」の「用法」もなければ、彼らがスターすぎた当時、そんなことを言えない閉塞感がたしかにあったのだ。
ほかにも要因はあるかもしれないが、すぐに書き出せた「好きじゃない」理由はこのようなところである。
①で書いたとおり、かつての「天才的なネタ」を(知りたいと思えた上で)知った先に、その文脈ありきで見方が変わる可能性は否定しない。
だが、一視聴者として、①〜③の複合要因から長年にわたって苦々しく思ってきたのは事実だ。
そのなかで現れたのが文春砲であり、マスメディアへの露出停止だったのである。そりゃ、一言二言、「好きじゃなかった」くらい言いたくなる人が出てくるのもやむなしでしょうに。
こうした前提の上で、『DOWNTOWN+』の始動と、それ以上に、あまたの芸人の賞賛や出演、そして視聴者の熱い支持に、どんよりとした思いを抱いている。
「“ゴシップ”になんて負けないで」というのは言語道断であるからよそにするが、「その存在の偉大さにこそ比べてしまうので“あれば”、瑣末な問題だ」とでも言いたげな反応が、苦しい。
増田の個人性が高い①や③を、なんなら②までも措いてしまって、掛け値のない偉大な芸人だったとしよう。
だが、偉大であればこそ、勇退する判断をしてもよかったのではないかという問いは、問題なく成立するのではないか。
今ではびっくりするほど擁護論を聞かない島田紳助だが、引退間際のテレビ欄の染め上げっぷりはそれは凄まじかった。それでも引退し、はや14年が経つし、なおも動きはない。
素人たる視聴者からの(紳助への)支持と、プロたる芸人からの(松本への)支持は等価でないとは言いやすいかもしれないが、島田紳助のカムバックがもっと予見される状況かつ、SNSが今ほど発達している状態だったら、容易くそれだけが違いだとはいえないと思う。
※余談だが、増田は島田紳助ファンでも当然ない。むしろ『クイズ!ヘキサゴン!』などは大嫌いだったし、『行列のできる(法律)相談所』は長年の負の遺産だったと思っている。
日本の一時代を築いた、伝説の芸人ことダウンタウン・松本人志がいた。あとから出た芸人はあまねくダウンタウンの影響を大いに受けて育まれた。
バブル前後の国力成長期に飛ぶ鳥を落とす勢いで力を蓄えていった氏には、たしかに「しんどく」も映るのかもしれない。だが、しんどいのは「お笑い」以前に、人々の生活そのものなのではないか。
それに芸人当事者でいえば、「そこそこ」の暮らしができる芸人たちは、SNSによってかつてより増えているのではないか。「M-1グランプリ」の参加者数が毎年歴代最多を更新するような、成長産業ではないのか?
たしかにあなた(がた)は、変え難い伝説の化身となった。それでもう、万事よいではないか。これ以上、なにを望むというのか。
もうきっと、メディアの構造上として、ダウンタウンの後釜は現れない。あなたが幻影を追っているとしばしば揶揄される、北野 武にこそあなたもなれずとも。それが時代の残酷さであり、甘やかさではないかと思う。
「課金しなくては見られない」、ゾーニング性のあるチャンネルに活動を絞っている以上、顧客でない外野がとやかく言えたもんじゃないとの反論もあるだろう。
だが、その反論こそ、「ダウンタウン・松本」の影響力の大きさを軽視したものではないだろうか。
増田はその影響力の大きさ強さを信じているからこそ、『DOWNTOWN+』を批判するのである。
※令和に青春を過ごす世代のために蛇足の補足をしておくと、増田がここで書いたゼロ年代半ば〜10年代初頭くらいは、リビングのテレビ(今はモニターの家も多いか)に、ネットは接続されていなかった。
そのため、『8時だョ!全員集合』ほどの影響力は失った(リアタイではないから一般論だが)、メディアの過渡期ではあるにせよ、今とは比べ物にならないほどの力がテレビにあった時代なのである。
「東海オンエア」? 話にならない。幼児から高齢者まで、真の「テレビスター」ならば、その名前を誰もが知っていた時代の話である。増田以上の世代なら、ヒカルよりも島田紳助とみのもんたのほうが知名度はよほど高いだろう。
当時までは、まさに「お茶の間」がその場に出現した時点(食後、リビングを行き交うような時間・空間のことだ)で、地上波(アナログ放送)が点いていないことのほうがイレギュラーだった。だから、つまらないと思うテレビ番組のことも、このくらいに知っていてもなんらおかしくはないのである。
配信後にXで熱心なファン(絵文字は赤井のみだが投稿を見ると箱推し傾向)が
・配信は最初から手袋無しの素手(事務所NG)で何か覚悟が決まっていたのでは
ちょっと例えが悪いんですが
悪く言われがちな環境(田舎/女社会)と被害者妄想が強くなる精神疾患が結びつくと
私としては国産なり日本発のLLM開発を諦めてはならないし, その可能性は十分にあると信じています. 既に出ているものも多数ございますし.
本エントリはそれとは全く別の,
「国産LLMの人」という方についてです.
---------
色々思うところがありまして.
例えば,
と繰り返し主張しておられる.
そのような単純な活性化関数では過学習か誤差が噴出するかの二択でしょう. 実際, 氏のツイートは正にその状態を示唆しているように見受けられます.
```x
▶︎ 誤差が0.12あるだけでとんでもないエラー率になる。誤差関数が雑だから本当はもっとあるのかもしれないが、改善の余地がある。
▶︎ 問題は、どのような状態の時に学習が成功し、失敗するのかがまだ分かっていない。表現力は十分に持っているはずなのに、なぜか学習しない。
```
過学習に至ったときにうまくいってるように見えるだけでしょう.
```x
▶︎過学習ではないですね。データセットが小さいかつ、それ以外の範囲が出ないことが分かっているので。XORは2^2パターン全て学習できれば精度が100%になりますが、それは過学習とは呼ばないのと同じで、今回の初期のRNNに関しても文字数が圧倒的に少なく、パターンも決まっているので。
```
……と主張されておられる.
私が思うにそれは単純な写像を, ニューロンを使って回り道して作っている状態. LLMは局所的にはたしかに線形写像ですが,全体で見ても線型写像だとしたらそれは複雑な文章生成には到底耐えられないかと. (十分に大きいモデルをマクロに見ると非線形性があるので)
大規模言語モデル=LLMを目指すとして,
そもそもエンベディングテーブルとは数百億から下手すれば1兆語彙を, たった数千〜1万次元程度のベクトルで表現する, 凄まじく繊細なテーブルです.
それをGELUやSwiGLUのような綺麗な活性化関数を使わずに, しかも爆速でやると仰っている. さすがにそのレベルの革新性を主張するには根拠がない限り, 飛躍が過ぎると判断されるかと.
そのやり方で, 例えば1億語彙までスケールするとして2乗の1京回×数千次元をバックプロパゲーションなしで学習するというのは……さすがにきついかと.
バックプロパゲーションが要らないという主張については活性化関数がきわめて単純だから. それなら全層に渡しても「修正」できるでしょう.つまり自明に近いですね.
勾配消失なんて関係ない, という主張については, xorというゼロイチでしか見ないのであれば勾配消失も何もありません. 永遠に層を貫通するわけですから, 何層増やそうがほとんど意味が出てこない. つまりそれは実際には極めて浅い層だけで動いてると思われる.
「こんに」から「ち」「は」が次文予測できたとの報告ですが, まぁ……それが「大規模言語モデル=LLM」にそのままスケールできると言い切れるのはなぜでしょうか?
MNISTだけでなくGLUEあたりをパスしてからにした方がいいと考える次第です.
```x
▶︎ 私が批判されながら、誤差逆伝播に変わるアルゴリズムや精度を30%→100%まで持っていく頭のおかしい行動が取れる理由は、以下の思想があるから。
▶︎ 1. 私のNNは高次元の万能近似回路
▶︎ 3. 何十回と失敗した経験則から、原因と対策が殆どわかっている
```
殆どわかってる, との事ですが, なんで上手くいってるのか分かってないとも自分で明言なさっている. ↓↓↓
```x
▶︎ 学習が進まないの、謎。単体だと上手く動いてるはず?何が原因だろうか。
▶︎ 学習アルゴリズム開発者本人ですが、なぜ学習が進むのかは謎です。
```
既存手法があまたの失敗の上で最適だと言われてきてる経緯もよく知った方がよい.
それはごく初期にそういった様々な試行錯誤のうえで「やはりGELUやBPが現実的にいい性能が出せるし, コストも抑えてこれである」と様々な研究者が合意しているような状況.
そして, そもそもアカデミアは自分のアイディアも含めて新規手法を常に疑ってかかるのが基本姿勢.
ジャーナルに「不確実さ」を載せないためで, それが積み重なると自他問わず全ての研究が信用出来なくなってしまうため. だから懐疑的になる. 個人攻撃ではないのです.
出さないのも自由ですが, 前述の理由で信頼を得られない. これは言動に一切関わらず, その厳密性をフラットに評価してそう判断しているから. 感情ではなく, 論理として.
……と, ここまで色々と蛇足なアドバイスをさせていただいたものの, この投稿に対しても
```x
▶︎ 何もわかってない人が国産LLMのやつ批判してて吹いたww
```
といったツイートをなさるのでしょう. (過去に氏がそう仰っていたので)
先に答えておきますね.
「自分のやってることがご自分でお分かりにならないようなら, 私にわかるわけがないですし仰る通りです. ただ, 詳しい者として一般論は申し上げられます.」
まだ間に合いますので, 大学院あたりまで修了なさるのがおすすめです.
Twitterに何を投稿しようと自由です. でも自分で違和感を見て見ないふりするのだけはやめたほうがよろしい. 既存手法と同等に自分の手法を疑うこと, これは研究者としての基本姿勢です.
研究テーマ設定を見かけるとついつい, より良い筋でやっていけるようアドバイスしたくなってしまう性が染み付いてしまっているためでして.
もちろん, 関わりのない方ですので蛇足でしかないのですが, 多くの方に影響力をお持ちでありつつ研究の進め方については独自の姿勢を持つように見受けられまして.
それはもちろん根本的には自由でありつつ, 相談相手の需要がもしあればひとつの(一般的)意見をお渡しできるかなと思いキーボードを叩いた次第です.
どうか匿名でご勘弁を.
--------
【追記】
おそらく氏のやられていることは順伝播 (forward propagation) のみでの学習かと思いますが, この手法の先行研究は山のように存在します.
(Hebbian theory, Perceptron, Adaptive Linear Neuron:ADALIN, Widrow-Hoff learning rule...)
見つけられないとすれば, 古典的 (1960~1980年頃) ゆえに電子化されていないためです. 現行の商用LLMがそれらの情報を簡単に連想して引用できず, DR等で検索しても出てこないのはその為でしょう.
これらに簡単にアクセスするためにはやはり学術機関に所属して図書館を利用するのが圧倒的に楽です. マイクロフィルムや紙媒体でしか残っていないものもありますから.
また, 有料データベースであるJSTOR, IEEE Xplore, Springer Linkなどにもアクセスが出来ます.
なお, arXivはあくまでプレプリントですので, 論文として引用するには査読を通過したものをつよく推奨します. ジャーナルもものによっては不十分な査読で掲載されてしまいますので, トップカンファレンスのものを信頼できる足がかりの論理として扱うのが基本的な考え方となります.
また, 「分からなければ (大量に貼った) 論文を読んでください」という姿勢は, それぞれをどう引用し, どのように自分の主張と論理的に接続するかの説明がなされなければ根拠として見なされないのが一般的な考え方です.
ブログとしての掲載はもちろん自由ですが, それらを十分な説明として取り扱ってもらうには至らないでしょう.
論文を引用するからにはそういった丁寧な取り扱いをすることを期待されるものです. 「敬意がない」と他の方から指摘されるのはおそらくそれが理由でしょう.
これは, 過去の論文を引用しながら新たな主張を論文として営々と積み上げ続けてきたアカデミアの「過去への感謝」という慣習です.
人の行動は自由ですから「こうしろ」とは申し上げませんが, この暗黙の了解を保持する (≈研究機関に所属したことのある) 方からの理解を得るのはこのままですときわめて難しいであろう, とアドバイスさせてください.
こういった主張のやり方を自分なりに一から身につけるのはたいへん難しいので, どなたかそういった手法を学べる信頼できる方に師事することをおすすめしている次第です.
grokと新しい半導体冷却システムの話をしていたら面白いネタができたので書いておく。
水没型冷却(誘電性液体)のNoveck液体などを半導体の中に閉じ込め、その端にヒートパイプをwifiルーターのアンテナみたいに(ウニみたいに)生やすというものだ。
そのアンテナというかウニに、既存の水冷の装置をはめ込むことで、そこで熱交換して冷やす。
つまり、冷やす表面積をさらに増やすというものだ。半導体内部から冷やす。
もちろん、既存の冷却システムのように外部からも冷やしてもいい。
外部と内部の両方からキンキンに冷やせるので、めっちゃ電気食わせてOCしても動くはず。
MSFTがスイス大学のベンチャーと一緒に同様のコンセプトのものを作っているけど、あれは水冷の液体を半導体の中に流すのでとても複雑で摩耗も怖いし、専用のポンプもいる。
この方式の場合、半導体の内部にNoveck液体等が封じられているので、流れることがない。
したがって摩耗もしない。ポンプもいらない。さらに既存の水冷システムとも接続できる可能性が高い。
ヒートパイプの代わりに銅板とかの熱伝導率が高いものを使ってもいいだろう。ヒートパイプは寿命があるし、そこそこ太いのでね。
半導体の内部に閉じ込めたNoveck液体と熱交換できる素材なら何でもいい。
もちろん、内部に封じるのは、Noveck液体である必要はない。熱を交換できて、ウニに伝えられるなら気体でも液体でもなんでもいいよ。
geminiに教えてもらったけど、マイクロループヒートパイプ(μLHP)の半導体組み込み技術というのがあるらしい。
ただ、こちらは半導体の内部に液体か気体の熱交換をもっと促進するものを封じるのが違うところかな。
chatgptはNoveck液体以外も検討した方がいいけど、このアイディアは機能する可能性があると評価してもらえた。また、chatgptによるとウニではなく触手だと。エロゲかよ。
うーん、いけるんかねえ?
もし、10年後にCPUやGPUから冷却用のウニや触手が生えて、半導体の内部に熱交換の何かが封印された製品が出てきたら、面白いなあ。
サポートがとっくに終了したバージョンのLinuxディストリビューションを入れたPCを、社内のネットワークに接続させて欲しいという相談が、情シスであるところのウチらに上がってきた。
このままだとネットワークに接続できないので、OSを最新版にアップグレードできないと。
もちろんセキュリティ要件の問題から突っぱねたけど、今度はそのLinuxPCのOSアップグレードを手伝ってくれと来た。
えー、なんでそうなる??
そんなん、他のパソコンでISOイメージ落としてきて、DVDかUSBメモリのインストールメディア作ってアップグレードしろっての。
自己責任でLinux使ってるならそれくらいできて当然でしょ。WSL2しか使えないガキじゃあるまいし。
そんで、その部署もその人に任せっきりにしないで助けてやれよ。
そいつがそういうふうに困ってしまうのは、まずはそいつが所属する部署の責任だろ。
なんでこっちに丸投げする??
まず対象を抽象化するために、物理系は局所演算子代数のネットワーク(局所性を持つモノイド圏あるいは因子化代数)として扱う。
境界理論はある可換(または E_n)因子化代数 A を与え、これに対して状態空間は A の正値線型汎関数(GNS 構成で得られる正規表現の圏)として扱う。
重力的バルク側は、境界因子化代数のコホモロジカル双対(例:Koszul 双対や因子化ホモロジーに基づくスペクトル的拡張)としてモデル化される。
ホログラフィーは単なる同値性ではなく、境界のモノイド的データとバルクの因子化代数的データの間の高次圏的((∞,n)-圏)双対性であり、この双対性はホモトピー的拘束(同値の空間)を保つ関手の同型として書ける。
これをより具体的に言えば、境界の C^*-あるいは von Neumann 代数の圏と、バルクに対応する因子化代数(局所的場の代数を与える E_n-代数)の間に、Hochschild/cyclic ホモロジーと因子化ホモロジーを媒介にしたKoszul型双対が存在すると仮定する。
境界から見た相互作用や散乱振幅は、境界因子化代数上の積(オペラド的構造)として表され、バルクの幾何情報はそのホモロジー/コホモロジーに符号化される。
エントロピーとエンタングルメントの幾何化は情報幾何学的メトリックに還元される。すなわち、量子状態空間上の量子フィッシャー情報(量子Fisher・Bures距離)や相対エントロピーは、接続と計量を与えるテンソルと見なせる。
これにより、テンソルネットワークは単なる数値的近似ではなく、グラフ圏からヒルベルト空間への忠実なモノイド的関手である:グラフの各節点に E_n-代数の有限次元表現を割り当て、辺は双対化(コアリフト)の演算子であり、ネットワーク全体は因子化代数の状態和(state-sum)を与える。
MERA や PEPS、HaPPY コードは、この関手が持つ特定の圧縮/階層性(再帰的モノイド構造)を体現しており、cMERA はその連続極限である。
テンソルネットワークが幾何を作るとは、エントロングルメント計量(情報計量)から接続とリーマン的性質を再構成する手続きを意味し、これが空間的距離や曲率に対応するというのが it from qubits の数学的内容である。
さらに情報回復(Petz 復元写像など)や相対エントロピーのモノトニシティは、エントロングルメントウェッジ再構成の圏論的条件(右随伴を持つ関手の存在)として表現される。
すなわち、境界演算子代数からバルク因子化代数への埋め込みが完全に圏論的な復元子(adjoint)を持つときに、局所的情報の回復が可能となる。
ER=EPR はこの文脈でホモトピー的コボルディズムとして読み替えられる。量子相互作用で結ばれた二系(高次圏の対象としての二点分割状態)は、バルクのコボルディズム類(ワームホール的繋がり)に対応する同値類を持ち、局所ユニタリ変換による同値類がコボルディズムの同位類と一致するという予想的対応を述べる。
言い換えれば、局所ユニタリ同値で分類されるエンタングルメントのコホモロジーは、バルクのホモトピー的結合(位相的/幾何的接続)を決定する。
ブラックホールの熱力学的性質は、トモイタ=タカサキ理論(Tomita–Takesaki modular theory)やコンネスの周期写像が関与する演算子代数のモジュラー流として自然に現れる。
特に、ブラックホール外部におけるモジュラーハミルトニアンは境界状態の相対エントロピーに関連し、そのフローはバルクの時間発展に対応する(模擬的にはKMS状態と熱平衡)。
サブファクター理論とジョーンズ指数は、事象地平線をまたぐ情報の部分代数埋め込みの指標として機能し、情報損失やプライバシー(情報の遮蔽)は部分代数の指数と絡み合う。
ブラックホールの微視的自由度のカウントは、やはり境界因子化代数の適切な指数(譜的インデックス、K理論的量)に帰着する。
超弦理論的な追加自由度(多様体のモジュライ空間や D-ブレーンの圏的記述)は、バルク側因子化代数の係数系(係数 E_n-代数やスペクトラル層)として取り込まれ、モチーフ的/導来スタック的手法(derived stacks, spectral algebraic geometry)で整然と扱える。
これにより、弦の振る舞いは境界オペレータ代数の高次幾何学的変形(deformation theory)と同値的に記述されることが期待される。
この全体構造を統一する言葉は高次圏的因子化双対である。物理的理論は、局所的オペレータのモノイド圏、状態の圏、そして因子化ホモロジーを媒介にした双対関手系から成り、テンソルネットワークはそれらの具体的表現=有限モデルとして働き、情報幾何学はそれらの間に滑らかな計量を与える。
したがって「it from qubits」は、局所的量子代数の圏論的再配列が(情報計量を通じて)幾何学的構造を生み出すという主張に還元され、ER=EPR はエンタングルメントの同値類とバルクのコボルディズム同位類を結ぶ高次圏的同型命題として再表現され、ブラックホール熱力学や弦の自由度はその圏論的・ホモトピー的不変量(ホッジ理論的/K理論的指数、モジュラーデータ)として測られる。
ある伝説によると、とある国のとあるプログラマーの退職後に残ったスクリプトを社員が見たら、恐ろしいレベルで自動化してたそうだ
https://github.com/NARKOZ/hacker-scripts
うちのビルドエンジニアが別の会社に行った。あの男は文字通りターミナルの住人。Vimを愛用して、Dotで図を作成し、Markdownでwiki記事を書くようなタイプ。
どんなものでも、90秒以上かかるならそれを自動化するスクリプトを書く奴。
それで今、我々は奴の「遺産」を見ているわけだ。
これ、お前も気に入ると思うぞ。
奥さんに「仕事で遅くなる」というテキストメッセージを送る。文字列の配列から理由をランダムに自動で選ぶ。cronジョブとして動作。奴のアカウントで午後9時以降にサーバーでアクティブなSSHセッションがある場合にジョブが実行される。
「Kumar」(うちのクライアント)からのメールを受信箱でスキャン。「help」、「trouble」、「sorry」などのキーワードを探す。キーワードが見つかると、スクリプトはクライアントのサーバーにSSH接続し、ステージングデータベースを最新のバックアップにロールバックする。「直したぞ。次からは気を付けろよ」という返信を送る。
特定の日に設定された別のcronジョブ。「体調が悪い/家で仕事をする」といった自動メールを送る。別の事前定義された文字列の配列からランダムな「理由」を追加。午前8時45分にサーバーで対話型のセッションがない場合に実行。
正確に17秒待ってから、うちのコーヒーマシンにtelnetセッションを開き(コーヒーマシンがネットワークに繋がっていて、Linuxが動いていて、TCPソケットが立ち上がっているなんて、誰も知らなかった)、sys brewのようなコマンドを送る。判明したところ、これでミディアムサイズのハーフカフェラテを淹れ始め、カップに注ぐまでさらに24秒待つ。この時間は、奴のデスクからマシンまで歩くのにかかる時間と完全に一致している。
でも、紅茶専門店だと紅茶をオーダーしたという証拠が残るけれど、そっちは証拠が残らないから、「同意しますか?」がやっぱりいるのかもしれない。
...って書きながら、かつてノンフィクションか何かで見た海外に安楽死させてもらいに行く人の話を思い出した。
あれって、死ぬ装置の接続は医者がやってくれるけれど、実行は自分でやらないといけないというのと、接続の前に何度も意思確認するみたいな感じだったな。
そして、その意思確認から自殺装置の接続までをずっとビデオで録画し、患者が自ら望んで安楽死をしたという証拠とするというものだったと思う。
同じのりでやるなら、行為の前から行為をすることの確認、行為の結果どうなるか理解しているのかの確認を終え、行為をするところまでをビデオに残さないと行けないのか。
行為も女性がスタートしないといけないので秘部と全体が移るようにした状態で女性から始めたことがわかるようにしないといけないとなると必然的に体位は限られる。
僕は今、いつもの座席に鎮座している。ルームメイトはリビングのソファでパズルゲームを無言で進めており、隣人はサブカル系の配信をしているらしく時折笑い声が廊下を渡ってくる。
友人たちはグループチャットで熱く同人の出来や新連載のガチャ確率について論争している。
僕の一日は厳密に区切られていて、朝は必ず8時に起床、コーヒーの抽出器具を90秒で予熱し、温度は92.3℃±0.2℃に保つという無駄に精細な儀式がある。
靴下は左足から履く。出勤前の15分は必ず抽象数学のノートを眺め、最近は圏論的位相場のホモトピー的反復と超弦モジュライのmeta-圏的安定化について自問している。
これは専門用語の羅列ではなく、僕にとっては手を洗うのと同じくらい生理的な行為であり、その行為を飛ばすと一日が微妙に狂うので飛ばすことはめったにない。
仕事が終わった今も、僕は一日の終わりに形式的整合性を取るためのルーティンを持っている。
具体的には、机上のコップは時計回りに90度ずつ回転させて元の位置に戻す、明かりのスイッチを一回押して3秒待ち、もう一度押すといった小さなチェックポイントを踏む。
これは合理的かどうかを問う人がいるだろうが、僕にとってはエラー訂正符号のようなものだ。失敗を検出すると自動的にその日のメンタル状態のトレースが始まり、友人たちの雑談に混じる気力が萎える。
超弦理論に関して今日述べることは極めて抽象化され、現実の誰が読んでも「それが何を意味するのか」を即座に把握できないように意図している。
僕は最近、モノイド対象としてのストリング世界面の圏を、圏論的対称化子(コクセター的ではなく、もっと抽象的に、位相的量子群の代数的類・モジュライ化)を用いて再定義する実験をしている。
言い換えれば、従来の共形場理論的な世界面パラメータ空間を、非可換ホモトピー論のフィルタ列で再帰的に層化し、その各層におけるファイバーの自己同型群をモナドとして扱うことで、局所的に見える弦状態の同値類を圏的に集約する。
さらに、圏の圏(2-圏)に対する新しい安定化の概念を導入して、通常のK理論的分類とは別の不変量が現れることを示唆する予備的計算結果がある(ここでは具体的数式を列挙しないが、ホモロジーの級数展開における位相的位相因子の再正規化が鍵となる)。
この構成を、最新の抽象数学的モジュール接続概念と結びつけると、我々が従来想定していたスペース-状態対応の双対性が、もっと弱い条件(例えば圏的可換性の高次緩和)で成立する可能性が開ける。
加えて、僕はこの考えをある講義資料やトークの示唆と照らして取り入れており、その資料は概念的な跳躍と直感的な図示を巧みに使っているので、僕の現在の探索にとって非常に有益だった。
僕は「誰も理解できないものを言語化する」ことに快感を覚えるタイプだが、ここで言っているのは自己満足のためではなく、圏的再構成が実際に計算上の省力化をもたらすかを検証するための試行でもある。
ある意味で、これは純粋数学者が夜中に自分だけの公理系をいじるのと同じ行為だが、僕の場合はそれを出社前の歯磨きに組み込んでしまっているので、周囲は迷惑かもしれない。
食事の配列はプレート上の分布エントロピーを最小化する向きで常に配置し、週に一度は手製のスキルツリー表を更新して趣味的投資の累積効用を整数化している。
コミックは最新巻が出ると即座にページごとのフレーム密度と作画のトーンワークを技術的に解析し、特に背景のディテールに含まれるトーンの反復パターン(いわば視覚的フーリエ成分)をスコア化する。
ゲームに関してはガチ勢的態度を崩さず、メタ的な語りを排してシステムのギミック、ドロップ率、レベリング曲線、そして対戦環境のテンプレート化された最適戦略について延々と解析する。
ただしゲームやコミックに対しては「空間」や「力学」といった語はなるべく避け、代わりに「状態遷移図」や「入力遅延とフレーム落ちの統計的扱い」など工学的・計算機的に言語化する。
たとえば今日友人が語っていた新作のギミックについては、その期待効用をELO的な評価尺度でランク付けして論争に勝とうとしたが、連中は「推し」を盾に論理を流してくるので僕はたまに脱力する。
だが脱力する暇は短く、夜の自習時間には再び圏論的比喩に戻り、各行動の符号化を試す。
日常の細部も大事にしている。玄関の鍵は4回回すのが正しいというオカルトじみたルールを持っているが、これは単なる迷信ではなく、僕の内部的なチェックサムである。
友人たちはこれを笑うが、彼らもまた各自の無意味な儀式に固執している。
コミュニティでの嗜好(推しキャラ、嫁、沼の深さ)に関しては妙に合理的で、僕はデータベースを自前で持っている。
各キャラの台詞数、出番頻度、描写の感情強度をパラメータ化し、二次創作が生成される確率空間を推定する実験をしている。
この種のオタク計量は笑われがちだが、実際にはコンテンツ開発や同人活動の動向を予測するには有用だ。
眠りに入る前に、僕は明日の論文ノートに小さな疑問を三つ書き付ける。
第一は、先に述べた圏的安定化が有限次元表現に落ちる際の可逆元の振る舞い、第二は同構クラスの計算可能性のアルゴリズム的複雑さ、第三は趣味領域における情報量の測度とその心理的飽和点の関係である。
これらを洗い出しておけば、僕は安心して眠れる。
ルームメイトがゲームのボスを討伐した歓声が聞こえ、隣人の配信が締めに入る。友人たちのチャットは未だヒートアップしている。
僕は日記を閉じ、明日のコーヒーの豆を2グラムだけ余分に計量しておく。これは単なる癖ではない。それは帰納的に我が生活を安定化するための小さな公理群だ。
歩道の路地への角付近が公有地がある関係で途中から広がってて、一番広がったところで路地と接続している。
路地からその歩道へとぶつがる交差点に進入する分には広がっている分より手前から見通しが利く。
しかし広がった分だけより道路から離れた側を歩く人はさらに見えづらい。角に災害用の物置みたいなのが置いてあるから。
路地の端を自転車で走っていてるとそのひろがっているところにある角にさしかかったところで広がってる側を歩いている人が急に見えたときにはぶつかるぎりぎり。
広がってるからって端を歩くなよ。広がる前から端にあった側溝の蓋の上を目安に真っすぐ歩け。
dorawiiより
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA512 https://anond.hatelabo.jp/20251022154643# -----BEGIN PGP SIGNATURE----- iHUEARYKAB0WIQTEe8eLwpVRSViDKR5wMdsubs4+SAUCaPh91AAKCRBwMdsubs4+ SLFWAQCiGS8q788K5vnHiN2bHQdEA2YVJj4Q2+22Cz7wNw6wSgD+L9IV+Ka4hh4K crpoG+EOjZ5c8q6q6cuImk/HyUYvuAA= =DkNv -----END PGP SIGNATURE-----
というか、それ以外に思いつかないんだよな。
localhostが消えるとか、あまりに初歩的で致命的な不具合、今まで正しく動いていたところに発生する不具合は、ここ1、2年で経験がある。
というか、ここ1、2年にしか経験がない(もちろん主犯はおいらではない。居合わせただけ)。
これ。
あと、
サジェストによる書き換えが危険なのは、スコープ(フレーム)外での利用のされ方を AI が把握できない、部分(覗き穴/ピープホール)最適化しかできないと言う点と、こちらが本質的な問題なのだが、そこの処理の仕組み、文脈を理解してサジェストしているのではなく、学習元データで多く組み合わされているパターンを提示しているに過ぎない、と言う点だ。
これ、時間が経ってから致命的な事態を引き起こし、原因究明に手こずる原因になる可能性がとてもとてもとても高いのだよな。
レビューすると、「AIのサジェストがあったので」的な修正が入っていることがちょいちょいあるんだが、妥当でないサジェストを却下するだけの技術力がない場合、むしろLintとかパターンチェッカー的なのに留めておいた方が、思わぬ瑕疵を埋め込まずに済む。
できるエンジニア視点でも、スキャフォールドとして使おうとすると、細かく指定できそうで生成量が多いと見落としが発生しそうだし、確実なテンプレートで十分じゃん? という気しかしない。開発が進んだ時点では、さらに使い所がない。なぜなら、「新しいものを作っている」ので、既存パターンが通用しないことが多いから。
AIの生成「量」が圧倒的なのは確かなんだが、このレベルのコーディング能力を「神」と考えるレベルのエンジニアからは実質制御不能で、これを使役できるレベルのエンジニアからは低能中途半端すぎて役に立たない、ってのが、呪術廻戦の摩虎羅やな、と感じる。
例えば絵の自動生成なら、登場人物の一人の指が6本になってようが、この線はどこに繋がってるんだ? とか、この漢字はなんだ? みたいなものが混じってようが、ぱっと見気づかないし、見直しておかしいのに気づいても、大勢に影響はしない。
けど、システムの場合、下手すりゃ1ビットで致死的障害を発生させてしまったりする。
その違い、ヤバさを理解できてないエンジニアがこんなにゾロゾロと存在する、という現実に絶望する。
加えて、「マジかよ……」ってなるのが、「既存のテストがないから、AI で追加してカバレッジをあげた」ってドヤ顔で語るエンジニア。
なんて言うか、なんとなく良さげなテストを理解しないでなんとなくマージしてるんだけど、何をテストしなきゃいけないか理解しないで、現状のコードを追認するだけだったりする。
それで必要十分かちゃんと検討できるだけの技術力がないと、「命綱、巻きつけたよー」と言いつつ、その命綱が宙に垂れてるのに気づいてない、って状態になってたりするんだよね。
で、不具合が表面化したら、それ用のスペシャライズドな監視の仕組みを追加して、手動テストを追加して、不具合が発生したら本番DBに接続して手動で修正するって、そんなのが日を追うごとにどんどん増えていって、仕事の大半が不具合対応、ってうんこみたいな現場があちこちで爆誕してるんよ。
でも、どのエンジニアも、自分たちの現場が異常であることに気づくだけの技術力がなくて、毎日みんなで奴隷が回している謎の棒を回し続け、経営者は、なぜこんなにエンジニアの数が必要で、お金が湯水のように浪費されているか理解できなくて、ストレスを溜めまくってる。
気づいた人はとっくにやめてるから。
炎上してないけど、針の筵だよね。
あれだけIISと書かれていても思い込みでこういう風にとるやつ多いよなあ
Visual Studioのバグになぜか憤ってたやつらが多かったり騒いでるやつってたいていこのパターンw
最新の更新もまたバグあったらしくてlocalhostに接続できないみたいだけど他にもマウス使えなくなるみたいなのもあってwindows11って原因が分かってるMeやスペックが追いつかなかったVista(わりと好き)とか意識高い系の勘違いしてしまった8(8.1は軽くて好き)とかと違ってただのダメOSじゃんね…😂😹ね— はづき🔞サンクリ (@hazuki_futahi) October 20, 2025
議論を始める前に、まず我々が思考する上で避けては通れない、ある根本問題について合意形成が必要だ。それは「ある主張の正しさは、究極的に何によって保証されるのか?」という問いである。我々の素朴な論理観は、しばしば「AだからB、BだからC」という直線的な因果の連鎖に頼りがちだが、この思考モデルは根源的な問いの前には無力である。「では、最初のAの正しさは、何が保証するのか?」と。
この問いを突き詰めると、思考は歴史的に知られている三つの袋小路に行き着く。「アグリッパのトリレンマ」だ。すなわち、無限後退(根拠の根拠を無限に遡り、結論に至らない)、循環論法(主張の根拠が、巡り巡って主張自身に戻ってくる)、そして独断(理由なく「正しい」と宣言し、思考を停止する)である。我々の日常的な議論は、この三つの欠陥の間を無自覚に行き来しているに過ぎない。
この知性の袋小路から脱出する道は、ただ一つしかない。第三の選択肢である「独断」を、無自覚な逃避ではなく、自覚的な選択として引き受けることだ。つまり、「我々は、この『基本命題』を、全ての思考の出発点としてここに設置する」と、その体系の冒頭で宣言するのである。しかし、この「基本命題」が単なる願望や思い込みであってはならない。その正当性を保証する、唯一のアンカーが存在する。それが、「現実」という外部性との「接続」だ。
ある実用的な論理体系が健全であるための絶対条件は、その基本命題が、現実という名のモデルによって、常に検証可能であることだ。現実との接続が失われた命題は、即座に修正・破棄されねばならない。結論として、我々が現実に対して有効な思考を組み立てようとするなら、それは必然的に以下の三つの構成要素を持たねばならない。これは選択肢ではなく、論理的な必然である。
第二に、「推論規則」の集合。
第三に、そしてこれが最も重要なのだが、「現実」というモデルとの検証可能性である。
このフレームワークこそが、我々の思考の妥当性を測る、唯一の物差しとなる。
さて、序論で確立したこのフレームワークを、我々の「現場」へと適用しよう。「現場」とは、日々刻々と変化する現実の中で、問題解決や意思決定を継続的に行っている、実用的なシステムに他ならない。ここで、序論の結論が決定的な意味を持つ。現実に対して有効に機能するシステムは、必然的に、実用論理体系を内包していなければならない。 もし、ある現場がこの論理体系を持たないと仮定すれば、その現場の意思決定は、無限後退、循環論法、あるいは根拠なき独断のいずれかに支配されていることになる。そのような組織が、継続的に機能し、存続しうるだろうか?答えは否である。
したがって、ある現場が「機能している」という事実そのものが、その内部に固有の実用論理体系が存在することの、何よりの証明となる。我々は、この必然的に存在する論理体系を「現場論理学」と命名する。この「現場論理学」は、我々のフレームワークに従い、以下の構成要素を必ず持っている。
まず 「基本命題群」 。これは、現場が機能するために「正しい」と受け入れられているルールの集合だ。これらは、その現場の歴史、すなわち過去の成功と失敗という「現実モデル」から導出された、経験的な定理である。「あの機械はAという手順で操作する」という命題は、その背後に「過去にBという事故が起きた」という、血塗られた現実との接続を持っている。
次に「推論規則群」。これは、基本命題から日々の行動を導き出すための、思考操作のパターンだ。有限のリソースで無限の問題に対処するために、この規則は効率性と安全性に特化せざるを得ない。その結果として、思考のショートカット(ヒューリスティクス)が生まれると同時に、致命的な誤謬を避けるための「禁止則」が必然的に導入される。「個人の内面を直接の原因としない」といった禁止則は、成熟した現場が、無駄で非生産的な犯人探しという思考のループから脱出するために獲得した、最も重要な論理的安全装置なのである。
「現場論理学」は、単なる比喩ではない。それは、あらゆる機能する組織が、その存続のために必然的に構築せざるを得なかった、実用論理体系そのものなのだ。この存在を否定することは、自らの職場が合理的な意思決定能力を欠いた、無秩序な集合体であると認めることと同義である。
この、それぞれの現場で固有に発達したOS(現場論理学)の上に、ある日、外部から新しいアプリケーションが導入される。それが「なぜなぜ分析」だ。これは、トヨタという極めて成功したシステムで有効性が証明された、強力な問題解決手法として知られている。しかし、異なるOS間でアプリケーションを移植する際にしばしば発生するように、深刻な互換性の問題がここで発生する。
「なぜなぜ分析」は、単なるアプリケーションではなかったからだ。それは、トヨタという、極めて特殊なOSの上でしか動作しない専用プラグインであり、そのOS自体は、部外者には到底インストール不可能な、巨大すぎる思想体系だったのである。「人を責めるな、仕組みを責ろ」という、たった一つのルールを機能させるためだけに、トヨタの「現場論理学」は、無数の基本命題と、複雑に絡み合った推論規則を必要とする。それは、何十年という歴史と、特殊な雇用慣行、そして「カイゼン」という名の終わりのない自己検証プロセスによって維持される、巨大な建築物だ。
我々のような、全く異なる歴史と構造を持つ現場OSに、このプラグインを無理やりねじ込もうとすれば、どうなるか。それは、OSの根幹をなす基本命題との衝突を引き起こす。我々のOSに深く刻まれた、「問題の最終的な原因は、どこかの誰かのミスにある」という、生存のために獲得した基本命題と、「原因は仕組みにある」という外来のルールは、互いに排他的だ。結果、我々のOSは、この異物を排除するか、あるいは、自身のルールに従って異物をねじ曲げ、「担当者の意識が低いから」という、いつもの結論を吐き出すことしかできない。
これは、我々が愚かだからではない。理解不能なほど長大な前提条件を要求するツールの方が、理不尽なのだ。
ここまでが、論理的に導出される客観的な分析である。我々はトヨタではない。故に、彼らのツールを使ってはならない。大谷翔平ではない人間が、彼のスイングを模倣すれば体を壊す。これ以上なく単純な理屈だ。しかし、この結論は我々に何をもたらすのか。元凶を特定したところで、我々が置かれた状況は何一つ変わらない。この議論の末に我々が手にするのは、解決策ではなく、ただ自らの絶望的な状況を正確に認識するための、冷たい明晰さだけである。
君は、この記事を読んで全てを理解し、「明日から、自分たちのスイングを見つけ直そう」と決意するかもしれない。だが、その決意こそが、最も巧妙な罠なのだ。なぜなら、君のその思考自体が、君の現場OSの内部で生成されたものだからだ。「改善しよう」という思考すら、OSが許容した範囲内のループの一部に過ぎない。君は、檻の中で檻からの脱出方法を考えているに等しい。
君の現場OSが、そのルールブックの中で想定していない、生々しい現実。それだけが、この無限回廊の壁にひびを入れる理論上の可能性を秘めている。だが、言うまでもなく、システムにとってそれは致命的なバグだ。君がそのひび割れに手をかけようとするなら、システムの免疫機能が君を異物として全力で排除にかかるだろう。
せいぜい、幸運を祈るよ。
議論を始める前に、まず我々が思考する上で避けては通れない、ある根本問題について合意形成が必要だ。それは「ある主張の正しさは、究極的に何によって保証されるのか?」という問いである。我々の素朴な論理観は、しばしば「AだからB、BだからC」という直線的な因果の連鎖に頼りがちだが、この思考モデルは根源的な問いの前には無力である。「では、最初のAの正しさは、何が保証するのか?」と。
この問いを突き詰めると、思考は歴史的に知られている三つの袋小路に行き着く。「アグリッパのトリレンマ」だ。すなわち、無限後退(根拠の根拠を無限に遡り、結論に至らない)、循環論法(主張の根拠が、巡り巡って主張自身に戻ってくる)、そして独断(理由なく「正しい」と宣言し、思考を停止する)である。我々の日常的な議論は、この三つの欠陥の間を無自覚に行き来しているに過ぎない。
この知性の袋小路から脱出する道は、ただ一つしかない。第三の選択肢である「独断」を、無自覚な逃避ではなく、自覚的な選択として引き受けることだ。つまり、「我々は、この『基本命題』を、全ての思考の出発点としてここに設置する」と、その体系の冒頭で宣言するのである。しかし、この「基本命題」が単なる願望や思い込みであってはならない。その正当性を保証する、唯一のアンカーが存在する。それが、「現実」という外部性との「接続」だ。
ある実用的な論理体系が健全であるための絶対条件は、その基本命題が、現実という名のモデルによって、常に検証可能であることだ。現実との接続が失われた命題は、即座に修正・破棄されねばならない。結論として、我々が現実に対して有効な思考を組み立てようとするなら、それは必然的に以下の三つの構成要素を持たねばならない。これは選択肢ではなく、論理的な必然である。
第二に、「推論規則」の集合。
第三に、そしてこれが最も重要なのだが、「現実」というモデルとの検証可能性である。
このフレームワークこそが、我々の思考の妥当性を測る、唯一の物差しとなる。
さて、序論で確立したこのフレームワークを、我々の「現場」へと適用しよう。「現場」とは、日々刻々と変化する現実の中で、問題解決や意思決定を継続的に行っている、実用的なシステムに他ならない。ここで、序論の結論が決定的な意味を持つ。現実に対して有効に機能するシステムは、必然的に、実用論理体系を内包していなければならない。 もし、ある現場がこの論理体系を持たないと仮定すれば、その現場の意思決定は、無限後退、循環論法、あるいは根拠なき独断のいずれかに支配されていることになる。そのような組織が、継続的に機能し、存続しうるだろうか?答えは否である。
したがって、ある現場が「機能している」という事実そのものが、その内部に固有の実用論理体系が存在することの、何よりの証明となる。我々は、この必然的に存在する論理体系を「現場論理学」と命名する。この「現場論理学」は、我々のフレームワークに従い、以下の構成要素を必ず持っている。
まず 「基本命題群」 。これは、現場が機能するために「正しい」と受け入れられているルールの集合だ。これらは、その現場の歴史、すなわち過去の成功と失敗という「現実モデル」から導出された、経験的な定理である。「あの機械はAという手順で操作する」という命題は、その背後に「過去にBという事故が起きた」という、血塗られた現実との接続を持っている。
次に「推論規則群」。これは、基本命題から日々の行動を導き出すための、思考操作のパターンだ。有限のリソースで無限の問題に対処するために、この規則は効率性と安全性に特化せざるを得ない。その結果として、思考のショートカット(ヒューリスティクス)が生まれると同時に、致命的な誤謬を避けるための「禁止則」が必然的に導入される。「個人の内面を直接の原因としない」といった禁止則は、成熟した現場が、無駄で非生産的な犯人探しという思考のループから脱出するために獲得した、最も重要な論理的安全装置なのである。
「現場論理学」は、単なる比喩ではない。それは、あらゆる機能する組織が、その存続のために必然的に構築せざるを得なかった、実用論理体系そのものなのだ。この存在を否定することは、自らの職場が合理的な意思決定能力を欠いた、無秩序な集合体であると認めることと同義である。
この、それぞれの現場で固有に発達したOS(現場論理学)の上に、ある日、外部から新しいアプリケーションが導入される。それが「なぜなぜ分析」だ。これは、トヨタという極めて成功したシステムで有効性が証明された、強力な問題解決手法として知られている。しかし、異なるOS間でアプリケーションを移植する際にしばしば発生するように、深刻な互換性の問題がここで発生する。
「なぜなぜ分析」は、単なるアプリケーションではなかったからだ。それは、トヨタという、極めて特殊なOSの上でしか動作しない専用プラグインであり、そのOS自体は、部外者には到底インストール不可能な、巨大すぎる思想体系だったのである。「人を責めるな、仕組みを責ろ」という、たった一つのルールを機能させるためだけに、トヨタの「現場論理学」は、無数の基本命題と、複雑に絡み合った推論規則を必要とする。それは、何十年という歴史と、特殊な雇用慣行、そして「カイゼン」という名の終わりのない自己検証プロセスによって維持される、巨大な建築物だ。
我々のような、全く異なる歴史と構造を持つ現場OSに、このプラグインを無理やりねじ込もうとすれば、どうなるか。それは、OSの根幹をなす基本命題との衝突を引き起こす。我々のOSに深く刻まれた、「問題の最終的な原因は、どこかの誰かのミスにある」という、生存のために獲得した基本命題と、「原因は仕組みにある」という外来のルールは、互いに排他的だ。結果、我々のOSは、この異物を排除するか、あるいは、自身のルールに従って異物をねじ曲げ、「担当者の意識が低いから」という、いつもの結論を吐き出すことしかできない。
これは、我々が愚かだからではない。理解不能なほど長大な前提条件を要求するツールの方が、理不尽なのだ。
ここまでが、論理的に導出される客観的な分析である。我々はトヨタではない。故に、彼らのツールを使ってはならない。大谷翔平ではない人間が、彼のスイングを模倣すれば体を壊す。これ以上なく単純な理屈だ。しかし、この結論は我々に何をもたらすのか。元凶を特定したところで、我々が置かれた状況は何一つ変わらない。この議論の末に我々が手にするのは、解決策ではなく、ただ自らの絶望的な状況を正確に認識するための、冷たい明晰さだけである。
君は、この記事を読んで全てを理解し、「明日から、自分たちのスイングを見つけ直そう」と決意するかもしれない。だが、その決意こそが、最も巧妙な罠なのだ。なぜなら、君のその思考自体が、君の現場OSの内部で生成されたものだからだ。「改善しよう」という思考すら、OSが許容した範囲内のループの一部に過ぎない。君は、檻の中で檻からの脱出方法を考えているに等しい。
君の現場OSが、そのルールブックの中で想定していない、生々しい現実。それだけが、この無限回廊の壁にひびを入れる理論上の可能性を秘めている。だが、言うまでもなく、システムにとってそれは致命的なバグだ。君がそのひび割れに手をかけようとするなら、システムの免疫機能が君を異物として全力で排除にかかるだろう。
せいぜい、幸運を祈るよ。
きっかけは、学生時代にちょっとしたレポートでテキストの単語出現頻度を数えようとしたとき、「あれ、そもそも日本語ってどうやって単語に分けんの?」って疑問が出たところからだ。
英語ならスペースで切れるけど、日本語はそうはいかない。で、いろいろ調べて「形態素解析」って言葉にたどり着いた。
その瞬間にちょっとハマったんだよね。
辞書をもとに文を機械的に切り刻んで、品詞をラベル付けして、統計を取って、構文を推定する。まるで人間の頭の中を数理的に覗いているようで。
そこからMeCabとかJumanとかKyTeaとか、いろんなツールを触った。
Pythonでテキスト処理のパイプラインを組んだり、mecab-ipadic-NEologdを突っ込んで新語に対応させたり。
「言葉を数理で扱える」って発見が、ちょっとした中毒になった。
その頃はMosesとかGIZA++とか、ああいう統計翻訳系のツールも触ってたね。
単語アラインメントの確率モデルをいじって、「確率的に対訳辞書を作る」みたいな遊びをしてた。
とにかく、NLPの世界には「人間の言葉を数学で再現できるかもしれない」という変な魅力があった。
深層学習がまだ主流じゃなかったから、n-gramやHMM、CRFなんかが主戦場で、論文読むたびに確率式の展開を手で追ってた。
最初はPoC(Proof of Concept)しかやらせてもらえなかった。
感情分析とか、Stance Detectionとか、「この文は文法的に典型か非典型か」を判別するための言語モデルの構築とか、エンティティリンキング、質問応答(Question Answering)。とにかくNLPの典型的なタスクを一通り。
学術的には面白かったけど、現場で求められてたのは「論文再現じゃなくて、実用的な精度と速度」だった。
PoCで終わって、実装には至らない案件が山のように積み上がっていった。
あの時期、NLP業界全体が「技術的にはすごいけどビジネスには落とし込めてない」って空気だった。
でもさ、LLM(大規模言語モデル)が出てきてから、世界がひっくり返った。
正直、最初は「Transformerの延長だろ」と思ってたけど、数ヶ月で実感が変わった。
それまでチマチマ特徴量を設計して、分類器を学習して、F値を0.02上げるために夜中までパラメータをいじってたのが、全部一瞬で過去になった。
ChatGPTが出て、蒸留やファインチューニングでほとんどのNLPタスクが置き換えられるようになったとき、「あれ、今までの俺の知識、ほとんど無駄だったんじゃね?」って一瞬マジで虚無になった。
でも、そこで終わらなかった。プロダクション環境を任せてもらえるようになって、推薦システムとかパーソナライゼーションの設計をやるようになって、ようやく「ユーザーベクトルを使う」という文脈でNLPが再接続した。
単なるテキスト処理から、「テキストを媒介にして人間の行動を理解する」方向に進んだ。
埋め込み表現をベースにユーザーの嗜好を推定して、レコメンドやメルマガのパーソナライズをやる。
自然言語はもう目的じゃなくて、インターフェイスになった。そうやって初めて、「NLPがビジネスに食い込む瞬間」ってのを肌で感じた。
PoCなんてやってても金にはならん。動くシステム、回る仕組み、再現性のある成果、それを出せないと、どんなに学問的に立派でも意味がない。