2025-10-14

自然言語処理10年ぐらいやってきた

学業でも仕事でも趣味でも、ずっと自然言語処理をやってきた。

別に最初からAIだのNLPだのに興味があったわけじゃない。

きっかけは、学生時代ちょっとしたレポートテキスト単語出現頻度を数えようとしたとき、「あれ、そもそも日本語ってどうやって単語に分けんの?」って疑問が出たところからだ。

英語ならスペースで切れるけど、日本語はそうはいかない。で、いろいろ調べて「形態素解析」って言葉にたどり着いた。

その瞬間にちょっとハマったんだよね。

辞書をもとに文を機械的に切り刻んで、品詞をラベル付けして、統計を取って、構文を推定する。まるで人間の頭の中を数理的に覗いているようで。

そこからMeCabとかJumanとかKyTeaとか、いろんなツールを触った。

Pythonテキスト処理のパイプラインを組んだり、mecab-ipadic-NEologdを突っ込んで新語対応させたり。

言葉を数理で扱える」って発見が、ちょっとした中毒になった。

その頃はMosesとかGIZA++とか、ああい統計翻訳系のツールも触ってたね。

単語ラインメントの確率モデルをいじって、「確率的に対訳辞書を作る」みたいな遊びをしてた。

とにかく、NLP世界には「人間言葉数学再現できるかもしれない」という変な魅力があった。

深層学習がまだ主流じゃなかったから、n-gramやHMM、CRFなんかが主戦場で、論文読むたびに確率式の展開を手で追ってた。

今思えば、あれが一番自然言語処理っぽい時代だった気がする。

で、いろいろあって自然言語処理系の企業入社

最初はPoC(Proof of Concept)しかやらせてもらえなかった。

感情分析とか、Stance Detectionとか、「この文は文法的典型か非典型か」を判別するための言語モデルの構築とか、エンティティリンキング質問応答(Question Answering)。とにかくNLP典型的なタスクを一通り。

学術的には面白かったけど、現場で求められてたのは「論文再現じゃなくて、実用的な精度と速度」だった。

PoCで終わって、実装には至らない案件が山のように積み上がっていった。

あの時期、NLP業界全体が「技術的にはすごいけどビジネスには落とし込めてない」って空気だった。

でもさ、LLM(大規模言語モデル)が出てきてから世界がひっくり返った。

正直、最初は「Transformerの延長だろ」と思ってたけど、数ヶ月で実感が変わった。

それまでチマチマ特徴量を設計して、分類器を学習して、F値を0.02上げるために夜中までパラメータをいじってたのが、全部一瞬で過去になった。

ChatGPTが出て、蒸留ファインチューニングほとんどのNLPタスクが置き換えられるようになったとき、「あれ、今までの俺の知識ほとんど無駄だったんじゃね?」って一瞬マジで虚無になった。

でも、そこで終わらなかった。プロダクション環境を任せてもらえるようになって、推薦システムとかパーソナライゼーションの設計をやるようになって、ようやく「ユーザーベクトルを使う」という文脈NLPが再接続した。

単なるテキスト処理から、「テキスト媒介にして人間の行動を理解する」方向に進んだ。

埋め込み表現ベースユーザーの嗜好を推定して、レコメンドメルマガのパーソナライズをやる。

自然言語はもう目的じゃなくて、インターフェイスになった。そうやって初めて、「NLPビジネスに食い込む瞬間」ってのを肌で感じた。

PoCなんてやってても金にはならん。動くシステム、回る仕組み、再現性のある成果、それを出せないと、どんなに学問的に立派でも意味がない。

でも、PoCの積み重ねがなかったら、今の設計思想もなかったと思う。無駄に見える実験が、実は土台になってる。

自然言語処理って、そういう「積層的な知識挫折の積み上げ」が一番の資産なんだよな。

  • さっぱりわからんから、トランスフォーマーで説明してくれんかの

    • なんか面白いこと言って

    • 私にいい考えがある

    • ウルトラマグナスとかロディマスコンボイとか名前は出てくるんだがこれという名言が出てこない バンブルビーバンブルビー

    • 入力された文字列(=プロンプト)がトークンに分割されて、トランスフォーマを介してベクトルに変換される 変換されたベクトルは更にトランスフォーマに入力され、次のベクトル...

  • AIで全部できるようになるやろ…😟

  • AIで書かれた記事のように見えるが、共感もある。 自分は、ゲームプログラミングとイラスト作成が趣味だったんだけど ゲームエンジンが登場してシェーダープログラミングの知識は全...

  • いうてもマルコフチェーンと大差ないやろ

  • でも、これからの自然言語処理はLLMだけに注力するっていうのはちょっと違うと思うなぁ。 Transformerの限界って、もうきてる気がするんだよなぁ。 非言語的な直感を言葉にするのが人間...

    • 人間の思考のメカニズムがそもそも解明されてないのに 何いってんだ?

    • アーキテクチャの問題ではなく事後学習の問題のように思う 最近のGRPOのような強化学習による最適化の有効性を考えると、極論、「考えてる風」な表層的な推論に完璧に罰則を与えるこ...

      • 君の主張も『「考えてる風」な表層的な推論』にしか見えないよ?

      • 2010年にgoogleが解いた問題を未だに悩んでるの、永遠に進級できない学生みたいでおもろいな

    • 言語に落とし込まなかったからこそ、AlphaGoは成功したんだろ? 言語に落とし込んだら、人間を超えられないと思うんだ。 人間がまだ解決してない数学の問題を解くことはできないし、...

  • でもお前が人生賭けてやってることってスパムメールの送信ですよね

  • 生成AIの文章になんでこんなブクマついてんだ

  • 財務省の文系カスは基礎研究の予算削ろうとするから危なっかしいよなぁ…

  • 高専1年目の内容で20年止まってるとか老害だぞ?大丈夫か???

  • 翻訳や画像診断系似たようなところあるけど、接続した先のビジネスがレコメンドとかメルマガなのはちょっと悲しいな…

  • 俺なんて自然言語脳内処理を50年以上やってるわ

  • BERT出た時もそうだったけど、ほんと自然言語処理屋さんってPoCでできる範囲しか興味なくて、どうやってデータクローリングするかとか、きちんと成立するシステムに仕立てる気が無い...

    • 知ったようなことを言うな ユーザーの言語能力が制限要因になるからこれ以上の高度化大規模化は望めない データを集めれば集めるほどクソを掴まされて全体がゴミになってしまうんだ...

      • そりゃ馬鹿ばっか学習したら馬鹿にしかならんでしょ そういうことよ

      • こういう知ったかぶりするのはどうせ元増田とは別のニワカ氷河期中年なんだろな 何も作れなかった世代は黙ってろ

    • 興味ないね

    • そりゃ言語処理が専門で、製品化は専門じゃないんだから当たり前だろ

  • たぶん同世代ぐらいの自然言語処理エンジニアだけど同じ気持ちでうれしい。 横目で画像処理の人たちが盛り上がっていて、言語処理が置いて行かれていた時代を経たから やっと一番楽...

    • 喋ってる内容20年遅いけど今でもITやってるのかな。時空を超えてエンジニアやってるといいね。

    • こいつ、奈良先端大とかでたまたま自然言語処理かじって、そのまま就職しただけだろ。

  • 埋め込み表現をベースにユーザーの嗜好を推定して、レコメンドやメルマガのパーソナライズをやる。 ゴチャゴチャと異常に複雑な確率モデル(今だとtransformer)をこねくり回してや...

  • 第三だか第四著者インターン主著の論文がトップカンファに通ったらまるで自分が通したかのように「トップカンファ通した!」と散々オーバークレイムし、最近出した本のAmazon評価は...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん