自然言語処理を10年ぐらいやってきた

はてな匿名ダイアリー

2025-10-14

■自然言語処理を10年ぐらいやってきた

学業でも仕事でも趣味でも、ずっと自然言語処理をやってきた。

別に最初から AIだのNLPだのに興味があったわけじゃない。

きっかけは、学生時代にちょっとしたレポートでテキストの単語出現頻度を数えようとしたとき、「あれ、そもそも日本語ってどうやって単語に分けんの？」って疑問が出たところからだ。

英語ならスペースで切れるけど、日本語はそうはいかない。で、いろいろ調べて「形態素解析」って言葉にたどり着いた。

その瞬間にちょっとハマったんだよね。

辞書をもとに文を機械的に切り刻んで、品詞をラベル付けして、統計を取って、構文を推定する。まるで人間の頭の中を数理的に覗いているようで。

そこから MeCabとかJumanとかKyTeaとか、いろんなツールを触った。

Pythonでテキスト処理のパイプラインを組んだり、mecab-ipadic-NEologdを突っ込んで新語に対応させたり。

「言葉を数理で扱える」って発見が、ちょっとした中毒になった。

その頃はMosesとかGIZA++とか、ああいう統計翻訳系のツールも触ってたね。

単語アラインメントの確率モデルをいじって、「確率的に対訳辞書を作る」みたいな遊びをしてた。

とにかく、NLPの世界には「人間の言葉を数学で再現できるかもしれない」という変な魅力があった。

深層学習がまだ主流じゃなかったから、n-gramやHMM、CRFなんかが主戦場で、論文読むたびに確率式の展開を手で追ってた。

今思えば、あれが一番自然言語処理っぽい時代だった気がする。

で、いろいろあって自然言語処理系の企業に入社。

最初はPoC（Proof of Concept）しかやらせてもらえなかった。

感情分析とか、Stance Detectionとか、「この文は文法的に典型か非典型か」を判別するための言語モデルの構築とか、エンティティリンキング、質問応答（Question Answering）。とにかくNLPの典型的なタスクを一通り。

学術的には面白かったけど、現場で求められてたのは「論文再現じゃなくて、実用的な精度と速度」だった。

PoCで終わって、実装には至らない案件が山のように積み上がっていった。

あの時期、NLP 業界全体が「技術的にはすごいけどビジネスには落とし込めてない」って空気だった。

でもさ、LLM（大規模言語モデル）が出てきてから、世界がひっくり返った。

正直、最初は「Transformerの延長だろ」と思ってたけど、数ヶ月で実感が変わった。

それまでチマチマ特徴量を設計して、分類器を学習して、F値を0.02上げるために夜中までパラメータをいじってたのが、全部一瞬で過去になった。

ChatGPTが出て、蒸留やファインチューニングでほとんどのNLP タスクが置き換えられるようになったとき、「あれ、今までの俺の知識、ほとんど無駄だったんじゃね？」って一瞬マジで虚無になった。

でも、そこで終わらなかった。プロダクション環境を任せてもらえるようになって、推薦システムとかパーソナライゼーションの設計をやるようになって、ようやく「ユーザーベクトルを使う」という文脈でNLPが再接続した。

単なるテキスト処理から、「テキストを媒介にして人間の行動を理解する」方向に進んだ。

埋め込み表現をベースにユーザーの嗜好を推定して、レコメンドやメルマガのパーソナライズをやる。

自然言語はもう目的じゃなくて、インターフェイスになった。そうやって初めて、「NLPがビジネスに食い込む瞬間」ってのを肌で感じた。

PoCなんてやってても金にはならん。動くシステム、回る仕組み、再現性のある成果、それを出せないと、どんなに学問的に立派でも意味がない。

でも、PoCの積み重ねがなかったら、今の設計思想もなかったと思う。無駄に見える実験が、実は土台になってる。

自然言語処理って、そういう「積層的な知識と挫折の積み上げ」が一番の資産なんだよな。

Permalink | 記事への反応(15) | 06:37

記事への反応 -

anond:20251014063736
さっぱりわからんから、トランスフォーマーで説明してくれんかの
- anond:20251014132255
  なんか面白いこと言って
  - anond:20251014132337
    パンダの尻尾
    - anond:20251014133115
      もっと面白いこと言って
- anond:20251014132255
  私にいい考えがある
  - anond:20251014133157
    なんか面白いこと言って
- anond:20251014132255
  ウルトラマグナスとかロディマスコンボイとか名前は出てくるんだがこれという名言が出てこないバンブルビーバンブルビー
- anond:20251014132255
  入力された文字列（＝プロンプト）がトークンに分割されて、トランスフォーマを介してベクトルに変換される変換されたベクトルは更にトランスフォーマに入力され、次のベクトル...
anond:20251014063736
AIで全部できるようになるやろ…😟
anond:20251014063736
AIで書かれた記事のように見えるが、共感もある。自分は、ゲームプログラミングとイラスト作成が趣味だったんだけどゲームエンジンが登場してシェーダープログラミングの知識は全...
anond:20251014063736
いうてもマルコフチェーンと大差ないやろ
anond:20251014063736
でも、これからの自然言語処理はLLMだけに注力するっていうのはちょっと違うと思うなぁ。 Transformerの限界って、もうきてる気がするんだよなぁ。非言語的な直感を言葉にするのが人間...
- anond:20251014160123
  人間の思考のメカニズムがそもそも解明されてないのに何いってんだ？
- anond:20251014160123
  アーキテクチャの問題ではなく事後学習の問題のように思う最近のGRPOのような強化学習による最適化の有効性を考えると、極論、「考えてる風」な表層的な推論に完璧に罰則を与えるこ...
  - anond:20251015122509
    君の主張も『「考えてる風」な表層的な推論』にしか見えないよ？
  - anond:20251015122509
    2010年にgoogleが解いた問題を未だに悩んでるの、永遠に進級できない学生みたいでおもろいな
- anond:20251014160123
  言語に落とし込まなかったからこそ、AlphaGoは成功したんだろ？言語に落とし込んだら、人間を超えられないと思うんだ。人間がまだ解決してない数学の問題を解くことはできないし、...
anond:20251014063736
でもお前が人生賭けてやってることってスパムメールの送信ですよね
anond:20251014063736
生成AIの文章になんでこんなブクマついてんだ
anond:20251014063736
財務省の文系カスは基礎研究の予算削ろうとするから危なっかしいよなぁ…
anond:20251014063736
高専１年目の内容で２０年止まってるとか老害だぞ？大丈夫か？？？
anond:20251014063736
翻訳や画像診断系似たようなところあるけど、接続した先のビジネスがレコメンドとかメルマガなのはちょっと悲しいな…
anond:20251014063736
俺なんて自然言語脳内処理を50年以上やってるわ
anond:20251014063736
BERT出た時もそうだったけど、ほんと自然言語処理屋さんってPoCでできる範囲しか興味なくて、どうやってデータクローリングするかとか、きちんと成立するシステムに仕立てる気が無い...
- anond:20251014231342
  知ったようなことを言うなユーザーの言語能力が制限要因になるからこれ以上の高度化大規模化は望めないデータを集めれば集めるほどクソを掴まされて全体がゴミになってしまうんだ...
  - anond:20251014232933
    そりゃ馬鹿ばっか学習したら馬鹿にしかならんでしょ　そういうことよ
    - anond:20251014233215
      うむこのように
  - anond:20251014232933
    こういう知ったかぶりするのはどうせ元増田とは別のニワカ氷河期中年なんだろな何も作れなかった世代は黙ってろ
    - anond:20251014235918
      いや元増田と文体がぜんぜん違うでしょう
- anond:20251014231342
  興味ないね
  - anond:20251015111344
    また魔晄中毒？
- anond:20251014231342
  そりゃ言語処理が専門で、製品化は専門じゃないんだから当たり前だろ
anond:20251014063736
たぶん同世代ぐらいの自然言語処理エンジニアだけど同じ気持ちでうれしい。横目で画像処理の人たちが盛り上がっていて、言語処理が置いて行かれていた時代を経たからやっと一番楽...
- anond:20251014232632
  喋ってる内容２０年遅いけど今でもITやってるのかな。時空を超えてエンジニアやってるといいね。
- anond:20251014232632
  こいつ、奈良先端大とかでたまたま自然言語処理かじって、そのまま就職しただけだろ。
anond:20251014063736
埋め込み表現をベースにユーザーの嗜好を推定して、レコメンドやメルマガのパーソナライズをやる。ゴチャゴチャと異常に複雑な確率モデル（今だとtransformer）をこねくり回してや...
anond:20251014063736
第三だか第四著者インターン主著の論文がトップカンファに通ったらまるで自分が通したかのように「トップカンファ通した！」と散々オーバークレイムし、最近出した本のAmazon評価は...

記事への反応（ブックマークコメント）

permalink Twitterでシェア Facebookでシェア

人気エントリ

注目エントリ

ようこそゲストさん