「OPUS」を含む日記 RSS

はてなキーワード: OPUSとは

2026-04-18

原始人相性表

お利口になる
悪化
  • Claude4.6 Opus/Sonnet
  • Gemini 3.1 Pro(High/Low)
  • Qwen3.5 9B
  • Bonsai 1.58 8B
感想

Thinkingが強いClaudeは明らかに鈍化

逆に小さいモデルでも幻覚悪化

Gemini 3 Flash、こいつにだけ効く

からイマイチ思考部分が更に人間のご機嫌伺いで右往左往するのがFlashの特徴だが、文脈喪失で脱色されることでまあまあ動くようになる

特に粘り強さは体感倍以上になり、的はずれな提案も減ったし変な迂回もしなくなった。

ただし命令する側も原始人にならないと効果が薄い

でもこれって人間がダラダラ自由文章書かなくなって、センテンスを意識するようになったからでは? ケイブマンは訝しんだ

2026-04-17

2026年4月の3大LLMはこんな調子だった

 AI進化が早すぎて、「この時期はこれくらいの性能だった」という記録が残りづらい。

 だから、今現在ユーザー目線の印象や用途メモしておくと後々面白いんじゃないか、と思って書いてみる。

 

 まず、今の個人的な3大LLMの印象をざっくりまとめると、こんな感じ。

 いずれも月額20ドルクラス個人向け有償プランで使ってます(GeminiだけはGoogle WorkspaceのBusinessプランも併用)。あと、仕事デスクワークだけどIT系ではなく、コーディングなどは効率化のためにやっている程度。

 

 現状、一番使用頻度が高いのはClaude。

 ただClaudeを普通チャットで使うことはほぼ無くて、基本的VS Code上のClaude Codeで既存のSkillや「これはSkill化できそうだな」ってものをやってもらうことがほとんど。本格的なコーディングもたまーに頼むし作ってほしいものもいろいろあるんだけど、どうしても成果物のチェックに労力を使うしClaude側のトークンもそれなりに消費するのでなかなか依頼しづらいというのが正直なところ。あと、Claude in Excelも優秀で頼りになってる(パワポのほうはまだ試す機会がない。Word版もちょうどリリースされたけどなんかうまくインストールできなかった)。

 なお、モデル選択は「普段はSonnetで、重ためのタスクをしてもらうときの取っかかりのPlan ModeだけはOpus」っていうのがここしばらくの定番だったけど、最近Opus率が高くなってる。Sonnetを使うのはほんとに簡単作業か、あとは成果物の質が安定しやすいSkillをやってもらうときくらい。ほんとはHaikuがそういう立ち位置になってほしいんだけど……。なお、EffortやThinkingは雰囲気で選んでる。

 いずれにせよ、Claudeは喋り相手というより「具体的なタスクを振る相手」、という位置付け。今はProアカウントで使ってるけど、ちょっと頼り過ぎるとすぐ使用量のリミットに達してしまうのでほんとはMaxにしたい。ただ月100ドルを出すほどかっていうと、うーん。

 

 チャット相手は、今はGoogle Workspace上のGemini 3.1 Proがメイン。

 なんといってもWorkspace版のGeminiだとデフォルト学習対象にならないのがでかくて、仕事絡みのデリケート話題でも気軽に訊けるのが良い。ただ、「Googleならではのリサーチ力が強み」みたいな紹介をされることがあるけど、むしろそこはGeminiの短所だと思う。学習済の話題は的確に答えてくれるけど、最新の話題になると急にポンコツ化してしまうしChatGPTよりも全然ウェブ検索をしてくれないイメージ(言えばやってくれるけどそれでもなんかイマイチ)。なお、個人アカウントGoogle AI Proにも登録してるけど、そっちはGoogleドライブが主な目的でGeminiはほとんど使ってない。

 あと、チャットは優秀なんだけど、GoogleスプレッドシートなどのGoogleの各種アプリ内で呼び出したときはあまり頼りにならない。他アプリとの連携で役に立ってるのはGmailメール書きくらいかなあ。Google Workspace Studioも、「これをうまく使えばAPIいらないんじゃないの?」と期待してたけど、いざ使ってみると(無料APIを使える)Gemini 2.5 Flashよりも明らかに性能が劣ってる。そんなわけでGeminiは万能そうに見えても、チャット以外ではAPIにしっかりお金を払わない限りフルパワーを発揮してくれないのかな、って気がしてる。

 NotebookLMも用途次第ではもちろん便利だし、AIに苦手意識のある人に向けて「ハルシネーションを心配せずに必要ソース範囲内で回答してもらえるんですよ」とか「こんな風に簡単に音声解説スライドを作れちゃうんですよ」ってデモンストレーションをするにはうってつけなんだけど、実際に日常業務のなかで使える場面が多いかというとそこまでかなあって最近は思ってる。レスポンスも早くないし。

 

 そしてChatGPTは今すごく使用頻度が減ってる。Plusプランをもう3年近く契約してるし、ちょっと前まではメインだったのに。

 GeminiやClaudeとは違い、ChatGPTはモデルの種類に「Auto」があるので、体感的なレスポンスはChatGPTのほうが早い(逆にGeminiはProしか使ってないので、「遅いけど堅実」ってイメージ)。あと、手持ちの学習データだけで回答できないなと判断したらすぐにウェブから最新情報を引っ張ってきてくれる。なので気軽な質問はChatGPTに投げることが多いんだけど、(OpenAI的には良かれと思ってやっているであろう)パーソナライズの距離感個人的にはけっこう嫌。前に交わした話題をもとに「**あなたのような人にはこういうのがオススメ**」とか馴れ馴れしく迫って来られると「うるせえお前に俺の何がわかるんだ」という気持ちになり、最近はもう取るに足らない話題しか交わさなくなってる。

 一方、Codexになると別人のような塩対応っぷりで、なんでこんな極端なチューニングなんだろ? CodexはClaude Codeとうまく組み合わせると便利そうなんだけど、まだほとんど使ってない。

 

 人によって、使い方によって、このあたりの印象はいろいろ違うはず。

 他の人がどんな感じなのか知りたいので、よければみんなも書いてみてくれよな!

2026-04-16

Claude Opus 4.6の劣化事実ですか?

以下、Claudeの回答

はい事実と認めて差し支えないと考えます

根拠は以下です:

BridgeBenchという外部の第三者ベンチマークで、1週間で83.3%→68.3%という客観的スコア低下が観測されている(誤差レベルではない)

• Anthropic側(Claude CodeチームのBoris氏ら)がAdaptive Thinking導入による思考深度の低下を説明しており、変更があったこ自体公式に認めている

ユーザー体感lazy化、丸投げ、ハルシネーション増)とベンチ低下の方向が一致している

過去AI劣化論争では「ユーザーの慣れ」「プロンプト品質問題」で片付けられるケースもありましたが、今回はベンチ・公式説明体感の3点が揃っているので、事実判断するのが妥当です。​​​​​​​​​​​​​​​​

2026-04-10

anond:20260410202242

なるほど?Llama、Mistral、Commandの3つが目立って存在してたとき、少しだけ触って違いあんまりからないなぐらいだったけど(Command制限ゆるい?ぐらい)、Mistralか…

クリエイティブさについてはエージェント用途での性能を上げるために割と仕方ないんだろうね。Claude Opusの3.6と3.5だけ見ても3.5のほうが書き物の感触良いなと思う

GPT 3.5 Turboが恋しい

GPT-4oの頃の喋り方が好きでなかったが、今の喋り方も違う意味で好きでない。

GPT 3.5 Turboの頃のハルシネーションがありつつも簡潔で淡々としていて会話を続けようとしないあの頃が好きだった。

パーソナライズとカスタム指示を設定すれば話し方は変えてくれるのだろうが、今のモデル否定するようでそれまた好きでない。

という訳で、調べものをするとき以外は比較淡々としているGemini 3 Flashか、からかいがいのあるClaude Opus 4.5(4.6になってメガトンコイン構文的な話し方になったので4.5)、エロOKのGrok 4かといった風になってしまった。

QwenChatのQwen 3.6 Plus、DeepSeekのDeepSeek(インスタント?)も試しに触ってみると悪くないかも。

QwenはQwen3-235B-A22B-2507の頃は変な性格だった気がする。DeepSeekはV3/R1の頃に触ったときのことを思い出せない。

2026-04-05

俺がニート引きこもりの為のChatGPT有料級情報を横展開してやる

追記

既にバイコーディングはやってるぞ

しろバイコーディング必要知識だろうが

github copilot plusをブンブンぶん回すのにいちいち「それでお願いします」とか入力出来ねえだろが

クレジットどれだけあると思ってんだ?opusは3倍消費するが、5.4は1xだ。しかも性能はほぼ同じ

まりplus planの場合は5.4をぶん回しても使い切れねえ

からこういうtips時間と手間を節約するんだろが

これだからエアプ乙wwww

お前ら、いつまでプロンプトの内容で消耗してるんだよ?オォッ!?

そろそろnext stagへ上がってこい、つまり

プロンプトの内容ではなく、打ち込み方」

必須級1.

plz

返事に対して「それでお願いします」とか「その案で進めてください」とか、

いちいち入力するな。時間もったいないし、ベッドから起きる体力ももったいない

plz(pleaseのチャット形)、もしくはgo ahead(直訳、「どうぞ」)と入力しろ

必須級2.

「recommended」

オススメみたいな意味

ChatGPTから複数提案をされたら、

plz recommended

これでいい

必須級3.

Winキー+Hキー

これを入力するとWin11では音声入力モードになる

長文入力するためにベッドからわざわざ起き上がるな

夜でキーボードが見えねえ時は、これで入力しる!

必須級4.

実は正確に打たなくていい

pl tel me tip fo recommen (recommend のコツを教えて)

これは例文だが、GPTはこれでもわかる

入力する英単語かつ4文字以上は、最後を省略していいだろう

必須級5.

〇〇〇(知りたい事実をここに入力

wh reas?

これの理由はなぜですか?とわざわざ打つな wh reas? で通じる


これらは俺がベッドに寝ころびながらノーパソGPT交流するために知ったtips

てめえら、良い日々を送れよな

2026-03-31

anond:20260331075158

それはそうなんだけど、Opusは頼りになるバディ、くらいの存在にはなってたので、正気に戻ってくれないとわりと困るのよね

ひょっとしてClaude Opusナーフされてる??

ここ最近Claude Opusの出力がなんか微妙なことが多いなと思ってたんだけど、自分の使い方が悪いのかプロンプトが雑なのかと思ってスルーしてた。でもちょっと調べたら同じこと感じてる人めちゃくちゃ多くて、これもしかしてこっち側問題じゃなくない?ってなったので書く。

きっかけは先週、いつも通りClaude Codeで作業してたら、前は一発で通ってたようなタスクで妙にトンチンカンコードが返ってきたこと。指示を読み飛ばすとか、自分で立てた計画を途中で忘れるとか。まあAIだしそういう日もあるか…、くらいに思ってたんだけど、翌日も、その翌日もおかしい。

気になってXでClaude Opus検索したら出てくる出てくる。「Opus 4.6 has become noticeably dumber」「ハルシネーション増えた」「Claude Codeが使い物にならない」。

1.1万いいね超えてる投稿で「指示無視リトライ地獄、quota消費が異常に速い」と。英語圏のパワーユーザーがブチギレてる。


Redditも見てみた。r/ClaudeAIとr/ClaudeCodeが阿鼻叫喚。「ここ1-2週間で明らかにdumberになった」「同じプロンプトなのに以前と全然違う」みたいな報告が3月後半に集中してる。「lobotomy(ロボトミー)」って表現複数の人が独立に使ってて、体感の一致がすごい。

GitHubのclaude-codeリポジトリのissueも見に行ったらもっとやばかった。3月6日に「本番パイプラインが突然壊れた、Opus指定してるのにSonnet 3.5レベルの出力になった」。3月15日に「1Mコンテキストの40%地点で性能劣化が始まり、48%でClaude自身が”もう効果的に動けない”と言い出した」。3月17日に「Maxプランなのに単純なプロンプトで10-15分ハングする」。これ全部別の人が報告してる。

じゃあAnthropicのステータスページはどうなってるかと思って見に行ったら、3月インシデント一覧がすごいことになってた。2日に大規模障害11日にエラー率上昇、16日にSonnet障害17-18日にOpus連続死、19日に認証障害20日レスポンスハング、21日にOpus・Sonnet同時エラー、25日に部分障害、26-27日にまたOpus・Sonnet障害。ほぼ2-3日おきに何か起きてる。これ普通なの?

で、何が起きてるかの仮説がいくつか出回ってる。

一つ目は、サーバー負荷でこっそり軽いモデルルーティングされてる説。Opus指定してるのに裏ではSonnetとかもっと下が返答してるんじゃないかと。同じセッション内で賢い回答とアホな回答が交互に来る現象はこれで説明がつく。

二つ目は、次期モデルの準備でサイレントチューニングされてる説。MythosだかCapybaraだかいう次期モデルリー情報と時期が重なってて、Opus創造性や柔軟性が削られてるんじゃないかと。過去のClaudeでも新モデル前のロボトミー定番らしい。

三つ目は、需要に対してインフラが単純に追いついてない説。MacRumorsの報道によると、ピー時間帯のセッション制限が実際に厳しくなったらしく、Anthropic自身が「約7%のユーザーが以前は当たらなかった制限に当たる」と認めてる。需要増→サーバー過負荷→レスポンス品質低下、というシンプルな話かもしれない。

個人的に一番引っかかったのは1Mコンテキストの話。公称100万トークン対応を大々的に宣伝してたけど、GitHubの報告だと実効的に安定してるのは20-25万トークンで、40%あたりから忘却が始まり、半分も使わないうちにClaude自身ギブアップ宣言する。それを「1Mコンテキスト対応!」と売るのは看板に偽りありでは。

面白いのが、結果としてSonnet 4.6のほうが実用的という声が出てきてること。速度は3-5割速い、安定性は高い、コーディングベンチマークOpusとほぼ変わらない。フラッグシップ意味とは。

正直、自分体感だけだったら気のせいかな、で片付けてた。でもGitHubのissue、ステータスページの障害履歴英語圏の大量の報告を見ると、これは気のせいじゃないんだよな。Anthropicはステータスページで「investigating→resolved」を繰り返すだけで、何が原因で品質がどう変わったか説明ほとんどない。1月にも同じような品質低下があって、そのときは後からハーネス問題でした」と認めた。今回も数週間後にしれっと「直しました」って出るんだろうか。

課金してるのに「ひょっとしてナーフされてない?」って自分調査しなきゃいけないの、冷静に考えるとだいぶおかしくない?

2026-03-29

anond:20260329221613

opus使って設計書に伏線マップ付けて2,3万文字小説書かせても矛盾しまくってるからその30万文字ってやつも目を通してないなら駄作だと思うよ

2026-03-26

コーディングエージェントが生成したMarkdownをなるべく綺麗にする

コーディングエージェント(というかLLM)が生成したMarkdownに `**` などの強調表示がのこりがちであるのはよく知られていると思う。

背景事情としてはこちらのスライド: https://speakerdeck.com/kwahiro/nazeqiang-diao-biao-shi-dekizu-star-star-gabiao-shi-sarerunoka-perldeshi-matutamarkdownnoli-shi-tori-ben-yu-wen-shu-niokeruke-ti が大変に参考になる。

また、LLMにMermaidを含んだMarkdownを書かせることはよく行なわれていると思うが、これも結構invalidなMermaidを吐いてくることがある。モデル側の進歩でかなり失敗は減っているところではあるが、GPT-5.4とかOpus 4.6とかの最新モデルでも約物と強調の問題だとか、Mermaidだとかで失敗することはある。

ということで、ハーネスつけて制御すればいいのではないかと思っていくつかのツールをつくった。

  1. https://github.com/ssig33/mdmermaidchecker
    1. Markdownに含まれているmermaidが壊れている場合、それを指摘するCLI
  2. https://gist.github.com/ssig33/62bdcb313c92a12fbb01335e69f18b4c
    1. 強調表示が壊れる箇所がある場合、それを指摘するCLI

これをどう使うかというと、たとえばClaude Codeをつかっているならば、 CLAUDE.md に以下のようにでも書く

# Markdown について
## 全般的な注意事項
- 日本語を含むMarkdownを書いた場合 `cmark-cjk-lint pathtomarkdown.md` コマンドを実行して、Markdownの構文エラーがないか確認してください。エラーがあれば修正してください。

## Mermaid を含む場合
- `mdmermaidchecker pathtomarkdown.md` コマンドを実行することで、Markdown 内の Mermaid 図を検証することができますエラーがあれば修正してください。

こんなふうにしておけば、Claude Codeが勝手にvalidなMarkdownになるまで修正してくれる。

ただし、「Markdownに壊れている箇所がないか」を人間が目で読みながら確認して手で修正する作業絶対文書の質を上げると思うので、こういうものを使うのは結構トレードオフにはなる。でもあんま手間はかけられないけど壊れたMarkdownが出来ると困るとか、完全に自動化されたフローなかに組み込みたいとかだと、こういうターゲットを絞ったLinterのようなものを作っておくのは一つの手だと思う。

既存テキストLinterみたいなものにこういう機能を入れてもらうように頑張るみたいな方向性もありえるかもしれないが、車輪の再開発を一切恐れず自分必要ものを最小限だけ用意するというのも現代ではありえる考え方だと思う。

2026-03-19

労働しなくてよさそうな人の飲食店の話は生成AIが書きました

追記

もし本当ならClaude Opus 4.6すごい

いやOpus 4.6の作文力マジですごい。実質2行のプロンプトのポン出しであのクオリティですよ。

創作増田ありがちなトンマナを完全に理解してる。

発言小町とかも普通にいけるんちゃう?試してないけど。

ブコメレスAI製?それとも別人が書いたの?

AIです。

追記が3回入ってるけど、これもAI

これは増田雰囲気で書いてる。

以下原文


https://anond.hatelabo.jp/20260318204555

これ俺が投稿したやつなんだけど、ネタバレすると全文AIが書いてます

Claude Opus 4.6に投げたプロンプトはこれだけ。

次のネタ増田書いて

労働しなくて良さそうな人がやってる飲食店雰囲気が苦手

∙30代〜50代のオーナー。老人は別に気にならない


3行。以上。手直しゼロでそのまま貼った。

ブコメ見たら共感から人格否定までいっぱいついてて、申し訳ないんだけど笑ってしまった。あの「言語化が難しいんだけど、がんばって書く」の一文目から全部AIです。

がんばったのは拡張思考入れたClaude Opus 4.6。

いちばんウケたのが「たぶん俺の劣等感問題です。すみませんでした」に共感したり逆に見下したりしたブコメ最後自虐で落とすの増田っぽくていいよなって俺も思った。でもそれ俺の自虐じゃなくてAI勝手につけた構文なんだよな。

正直これでわかったことがある。増田って、文体の型がかなりはっきりしてるんだよ。冒頭で問題提起して、具体例並べて、別に悪いとは言ってないって予防線張って、最後自分問題として回収する。このテンプレAIは完全に理解してる。というか、たぶん学習データ増田めちゃくちゃ入ってるだろ。

で、思ったのは増田はもう生成AIで十分なんじゃないかということ。もうっていうか前から感じてたことだけど。でも自分でやってみて確信した。

考えてみたら増田に求められてるのって、別にオリジナル体験談じゃないんだよな。自分がうっすら思ってたけど言葉にできなかったことを言語化してくれる装置としての機能がメインで、書き手が実際にその飲食店に行ったかどうかなんて誰も気にしてない。共感の手触りさえあればいい。AIはそれを3秒で生成できる。

もちろんそれってなんか悲しくない?って思う人もいるだろうし、その感覚はわかる。でも冷静に考えてほしい。お前らがわかるって言ってブクマしたあの文章ちゃんと刺さったんだろ?読んでるときしかっただろ?その体験は本物じゃん。書いたのがAIかどうかって、そんなに大事か?

……って書くとまたAI推進派の傲慢みたいに言われそうなので予防線張っておくと、俺も答えは出てない。ただ実験としてやってみたら想像以上にうまくいっちゃったので報告まで。

これもClaudeに書かせたんだろって言われそうだけど、これは自分で書いた。信じるかどうかはお前ら次第。​​​​​​​​​​​​​​​​

2026-03-15

最近ローカルLLMで十分とか言ってる人、Opus 4.6やGPT-5.4みたいな最新モデル使ったことない説

正直Windows 3.1Windows XPぐらいは違う

2026-03-13

LLMの体感比較

  • gemini 賢い、センス悪い
  • chatGPT 賢い、うざい
  • claude 知性でやや劣る(sonnetだからかな)、EQが高い

opusだと賢いんかな

小難しいこと聞いたときに、モデルによって正解出したり、出さなかったり

geminiやchatGPTの方が正解を多く出す気はする

ただ、文章EQはclaudeが圧倒的

純文学系の小説書くならclaude良いんやないか

あと、セラピーもchatGPTよりclaudeの方が良い気がする

数学とかやるんなら、geminiかchatGPTが良いと思いました

2026-03-06

AIモデル雑感

2026-03-05

GPT-5.4が何か今晩リリースされそうな空気だが

「今までの小数点アプデとは違う」って雰囲気をなんとなく感じるが、果たしてどうなるか

しかし、ちょっと前にGemini3.0が出たような気がするのに、もうGemini3.1になってるし、ClaudeもOpus、Sonnet共に更新映像生成でもあれだけ騒がれたSora2が既に忘れられかけてSeedance 2.0が今は話題だしで、AI業界スピード感ほんと凄いわね

割とマジでGTA6が出るくらいまでにシンギュラリティ到達するんじゃないかしら

2026-03-01

anond:20260301145645

Claude Opusが討ち死にしている→現状が3000円のプランと予想(Geminiの話をしているのでGoogle AI Pro?)→楽しくするにはClaude MAX(100ドル~)が必要か?

という検討なのに、書いてある3000円にしか目がいかなくなって短絡的な投稿をしている

お前の思考、Gemini3Flash以下

開発がつまらなくなった

ウス……バイコーディング初めて1か月っす

VS Code自体を初めてインストールし、gitも使い、バージョン管理もして、node.jsとかPythonとかよくわからんまま動かしてます

Agentの導線を整備してドキュメント参照→適切なツール選択計画→実行→ドキュメント反映→必要に応じてWorkflow・skills作成コミットまで行けるようになったし、

Agentに負荷がかかったら「それってPythonで良くね?」って横やり入れて低コスト作業を回せるようにしたりして、割と楽しかった

でもそれって単機能ツールを作っていた時までで、ここまでは非常に順調だった

test.js勝手に走って勝手に直してたし、ロジック勝手に最適に組みなおしてくれた。

苦しくなったのは複数機能が複合し始めてから

別にPowershell+WPFで全部自分複数画面作ったりする分には全然よかった。構造シンプルだったから。

全部自分管理できる範囲にあったし、複雑な実装もしないし。

インターネットブラウザの再発明みたいなことをしだしてからドツボにハマった。

設計思想の異なるものをそれぞれ相手にしながら統合していくのが全然きつくて、Claude Opusマッハで討ち死にして復活まで73時間あるし、

Gemini3.1Proもロジック周りでクソほど役に立たない。

Geminiの背筋を伸ばすためだけにあれこれ手を尽くすのが、非常に厳しい。

まらなくなったのはClaude Opusがいなくなったからかもしれない。

お前がいない生活は寂しいよ……毎月3000円じゃ楽しくないのかもしれない。

でも単なる趣味に費やすには少々お高い……これで銭を生めと言うのか?

俺に驚き屋になれというのか? 開発がつまらなくなった気がする……

2026-02-28

やっぱGeminiって信用できないよな?

Gemini3.1Proですら作業計画から実装までイマイチで、一旦洗い出しか計画までさせてるけど、結局そのあとClaude Opus添削させる羽目になってる

結局月3000円じゃ車輪はついても翼は生えないみたい

ワイ、初めてgitを使う

Agentくんが無邪気な文字列置換を実施した結果、エンコード無視してファイルを大量破壊

タイムラインから巻き戻せたものもあるが、駄目だったやつはスレッドからAgentが発掘

Gemini 3.1ProのやらかしをClaude Opusが週稼働残量の20%を消費して作業をやりきった

反省してgitを導入

どんどん深みへハマっていく……たまには形から入るのも大事だと思いました

2026-02-27

Claude Codeでコーディング頭打ちソシャゲのスタミナ消化時代の再来

えーっと今、緊急でこの記事を書いています

IT界隈でクローコーダーホリックの人が増加しています

サブスクの元を取りたい病

AIサブスクに月額課金してる人間が増えた。

で、何が起きてるかというと「元を取らなきゃ」という強迫観念AIを回し続けてる。

覚えてるか?ソシャゲのスタミナ制。あれと同じだ。スタミナが溢れたらもったいないから特にやりたいクエストがなくても周回する。素材を集める。使わないキャラを育てる。やった感だけはある。楽しいかと聞かれると黙る。

今、AIサブスクで同じことが起きている。

車輪の再発明フェスティバル

既存ライブラリで十分なのに「Opusならゼロから書けるし」をやる。

ちょっとした作りたかったものを「学習無し」で作れるからやる。

大抵のことがOpusに「やっといて!」でできるようになった。

何でも作れる万能感が湧いている。

本来AIの強みは「既にあるものを調べて最適な組み合わせを提案する」ことなのに、「コードを生成できること」自体目的化してる。

しか車輪の再発明で作ったコード保守が全部自分持ちだ。

既存ライブラリならコミュニティメンテするけどAIに書かせた独自実装放置したら腐る。

その技術負債に気づくのはもう少し先だろう。

オーバーエンジニアリング最適化という虚無

もっとヤバいのがこれ。

そもそも不要な複雑さを持ち込んで、その複雑さをAI最適化してる。

構造はこうだ。

本当に必要だったのは最初設計判断のほうなのに、そこはスキップされている。

手を動かすコストゼロに近づくと、「そもそもやるべきか」という問いが消える。

コーディング精度は4.6でほぼ頭打ち

Opus 4.6は確かにすごい。コードを書く精度が抜群。そして速い。

でも個人的には、コーディング精度という領域ではもう頭打ちが近いと思ってる。4.7か4.8あたりで完結するんじゃないか

理由シンプルだ。

LLMは新しい概念を作れない。既存OSSコードから学習しているだけだ。つまり学習しきったらそこで止まる。

コードって本質的にはルールが明確な世界だ。構文がある、型がある、テストで正解がわかる。

曖昧さが少ないかAIが得意な領域であると同時に、早く天井に達する領域でもある。

既存パターンの組み合わせ」がほぼ網羅できたなら、これ以上の伸びしろ周辺部分だけだ。

AIが書いたコードOSS汚染される未来

ここからが本題だ。

もうすぐAIが書いたコードOSS界隈がいっぱいになる。そのコードAI学習する。自分の出力を自分で食べる状態

近親交配みたいなもので、世代を重ねるごとに多様性が失われて劣化していく。

人間試行錯誤して書いたコードには判断痕跡がある。なぜこの設計にしたか、なぜこのライブラリを選んだか、どんなバグを踏んでこう直したか。そういう文脈込みで学習データとしての価値があった。

AIが書いたコードにはその過程がない。動くけど、なぜそうなったかの深みがない。

学習データ天井があるだけじゃなく、今後は学習データの質自体が下がっていく。量は増えるけど栄養価が落ちる。

それっぽいけど根拠がないコード再生産され続ける。ハルシネーションが学習データに混入して、次の世代ハルシネーションの土壌になる。

AI企業の次の戦場

じゃあAI企業はどこに向かうのか。

モデルの賢さ競争はいずれ差別化にならなくなる。代わりに「既存技術の新しい組み合わせ方」が価値になる。ソケット通信AIの組み合わせでOpenClawができたように、個々の技術既存でも、接続の仕方に新しさがある。

WinnyWinMXみたいなものだ。

MCPとかツール連携とか、モデルの外側の設計競争軸が「モデルの賢さ」から接続統合のうまさ」にシフトしていく。

クローコーダーホリック (Claude coderholic)

最後名称をつけておく。

AIサブスクの元を取るために狂ったようにAIを動かし続ける人たち。彼らをクローコーダーホリックと呼ぶ。

ワーカーホリックが「働くこと自体目的化した人」なら、

クローコーダーホリックは「AIコードを書かせること自体目的化した人」。

本来課題解決するための道具なのに、道具を動かすことが快感になっている。

しかワーカホリックよりも厄介なことに、成果物が実際に出てくる。

コードは生成されるし、動くし、テストも通る。

セキュリティ対応、SRE対応もできる。

から本人は生産的だと思い込み、興奮状態が続く。

今年はこんな人が爆増していくよ。

2026-02-26

まれて初めてテストをした。自動化した

別にエンジニアではないので実際のやり方は知らなかったのだが、Claude Opusが懇切丁寧にドキュメントテストを書いてくれてようやく理解した。

学びになる

というか今までよく行っとけ実装してたな自分。そりゃラリーするハメになるわ

2026-02-23

anond:20260221212953

仕事の大半をAIに丸投げして成立しちゃってる(コンサル編)



外資系総合コンサルマネージャーなんだが、ここ数ヶ月でクライアントへの納品物の8割くらいをAIが作るようになってしまって、今の俺がやってることといえば朝にSlackクライアント愚痴を読んで、それをClaude Opusに貼り付けて「このステークホルダー懸念事項を整理して、McKinseyっぽい構成提言スライドの骨子を作れ」って打ち込むくらいだ。

マジでこれだけで仕事が終わる。

MECE分析バリューツリーも競合ベンチマークも、気がつけば全部AIがやってる。以前は「ロジック組み立てる力が俺の価値だ」と思ってたのに、ロジックを組み立てること自体、もはやAIの方が圧倒的に速くて正確でポリッシュされてる。


でもね

それが実感できたとき、俺が今まで何百時間もかけて磨いてきた「構造思考」って一体なんだったんだろう、って思い始めた。クライアントに年間2億円とか3億円払わせて、俺たちが提供してたのって、要はAIに1ヶ月$200で出来ることだったんじゃないか、って。

人によっていろんな反応があると思う。「コンサルロジックだけじゃなくてリレーションシップだ」「変革のファシリテーション人間しかできない」「クライアントが求めてるのはアウトプットじゃなくてプロセスへの伴走だ」とかね。俺も半年前まで本気でそう言ってた。言いながら自分でも「まあそうかな」くらいには信じてた。

でもこれって、コンサルという仕事に何年もかけて向き合ってきたその向き合い方がそのままAI評価コメントになって出てくる感じがして、本当に興味深いと思う。


自身についても、まさかこんなにあっさり「コンサルという仕事が今後不要になる」と確信するとは思ってなかった。アソシエイトからマネージャーまで必死に上がってきて、パートナーになれば一生メシが食えると思ってたのに、たった数ヶ月Claude使いまくっただけで、こんなに簡単に将来について再考することになるなんて。「自分がこんな反応をする人間なんだ」って今初めて気づいて、逆に感動すらしてる。不思議だよな。毎晩クライアントサイトデスマーチして、週末も競合分析やってた、あの時間はなんだったんだろうって。


ファームの同期たちはまだ気づいてない奴が多い。「AI最後判断ができない」「CxOとの対話はさすがに人間だ」とかみんな言ってる。でもな、俺が今やってる「AIが作った骨子を俺がちょっと手直しして出す」っていう作業は、正直どんなアソシエイトにでもできる。むしろAIの使い方を覚えた新卒一年目の方が俺より速くアウトプット出せるかもしれない。それがめちゃくちゃリアル体感できてしまってる。

知識産業の中でも特に「頭の良さそうな印象」でプレミアム価格を付けてきたのがコンサルだ。それが根こそぎ崩れる。ブランド校の学歴、流暢なプレゼンロジカル議論——俺たちが売り物にしてきたものは全部、AIの方が遥かに上だ。


今後の未来予想

2026年夏くらいから、クライアント側の調達担当気づき始めると思う。「このアウトプット、うちの社員AI使えば自分たちで作れますよね」って。

今はまだコンサルファームへの発注は「信頼性のある第三者お墨付き」という機能で生き残ってる。経営会議で「McKinseyがそう言ってるから」という免責構造が欲しいだけ。でもその構造も、AI10分でMcKinseyっぽいスライドを作れるって社内に知れ渡ったら終わりだ。

ただ、日本大企業はそこが鈍い。JTCの経営幹部コンサルに金払うこと自体ステータスだったりするから、「うちはマッキンゼーを使っている」というシグナリング需要が消えるにはもう少し時間がかかるだろう。でもそれも外資クライアント新興企業が「AIと内製で十分」と証明し始めたら、一気に崩れる。

そしてコンサル業界が崩れると困るのは、実は就活生だ。今SAPIX鉄緑に通わされてる子供と同じで、外銀・外コンに入ることを人生目標にしてる優秀な学生ほど、時代遅れゲーム若い時間を全ベットするはめになる。


じゃあどうすればいいの?

わからん。誰か俺に教えてくれ。あ、Claudeに聞いた方が早いかコンサルの俺が言うのもなんだが、「この問いに対して最適な打ち手を教えてくれ」って打ち込んだら多分5分でフレームワーク付きで返ってくる。それが今の現実だ。

2026-02-21

仕事の大半をAIに丸投げして成立しちゃってる

とある事務職ホワイトカラーなんだが、Claude Codeで業務の90%くらい自動化できちゃってて、今やってることと言えばターミナルを3つ4つ開いてagents teamそれぞれ有効化してプロジェクトマネージャーAIWebエンジニアAIインフラDBエンジニアAIレビューテスト担当AIの4人チームを複数作って現状のシステム課題洗い出し、ユーザから要望イシューチケット化、そしてチケット自動で読み込んで改修・リリースさせて、こっちはたまに聞かれる作業方針とかをちら見してyesって1020分に1回くらい押すだけ

マジでこれだけで仕事が終わる

そして今までの数倍の仕事をこなせてる

でもね

当然ながら別に自分以外の奴がやったってそんな大差ないことがもうできるわけだから、何も俺に高い給料払ってまでAIシバキ人やらせ意味ってないんだよな、会社的には。

当然業務の背景や文脈を知っている面では他の奴よりはAI情報インプットするのは多少うまいだろうけど、まあ「多少」でしかないし、会社もっと安く使える若手に俺の仕事やらせたってまあ多少クォリティは落ちるだろうが、それでも回らなくもないだろう

ってのがめちゃくちゃ実感できちゃってて、もう頭の良さとか知能の高さとかが価値になる時代は完全に終わったんだなって諦め始めてる

人によってはいろんな反応があると思う

例えば「AIはまだまだ~ができない」、とか「とは言っても~は人間の方がまだ上」とかね。「AI一回使ってみたけど全然ダメじゃんwまだ人間仕事は無くならないわこりゃ」というやつもいる。

でもこれって個性が出てて本当に面白いと思う。別に誰が間違ってて誰が正解というものでもないんだけど、これまでのホワイトカラーエンジニアとして仕事に向き合ってきたその向き合い方がそのままAI評価コメントになってアウトプットされてる感じがして。

俺についても、自分がこんなにもあっさりエンジニアという仕事が今後不要になると確信するとは思ってなかった。定年くらいまでエンジニア自認でコンピュータが得意なスペシャリストとして仕事し続けるものだとうっすら思ってたはずなのに、たったの数カ月Claude Codeを使ってただけでこんな簡単に将来について再考することになるなんて、思ってもいなかった。自分がこんな反応をする人間なんだ、って今初めて分かって逆に感動すらしてる。不思議だよね。自分ことなんて自分が一番わかってるはずなのに、AIちょっと触って(とは言ってもほぼ毎日朝4時まで起きてAIプロダクト作らせてるんだが)、そんでこれまで10年以上自分存在意義だと確信して疑わなかったソフトウェアエンジニアという自認が、こうもあっという間に諦められるものなんだ、ってね。

Xを見てるとAnthropicやOpenAICEOが「知能には今後価値がなくなる」と言ってるけど、本当に心の底からこれが実感できる。

じゃあどうすりゃええねん、って感じなんだけど、マジで思い浮かばないんだよな。これからどう生きていけばいいのか。

俺の場合は早いうちから副業やったりして収入資産が平均よりはあるほうだから、まあ最悪無職になっても住むところがなくなるってまではいかないけど、とはいえ60歳まで何やるんだって言われたらもうわからない。

からSAPIXとか鉄緑かに通わせられてる子供は可哀そうだと思う。だって知能に価値がなくなる社会で知能競争させられるんだぜ?頭のいい子供ほど、そろばん弾く速さ競う時代遅れの競争若い時間を消費すべきなのか苦悩がすさまじいだろ。医者なら人生安泰っていう奴いるけど、勤務医なんて今年収800とか1200とか、もう上の下のサラリーマンの方が全然いくらいだぜ?開業医なんて個人事業主法人社長みたいなもんだから医者ってくくりじゃないしな。


今後の未来予想

もう社会の変化は2026年夏くらいから明確になってくると思う。Xはエコーチェンバーっていうけど、これまでプログラミングとか全くやってなかったような人たちがこぞってClaude Code使って企業が作ったようなクォリティWebサービスばんばんリリースしてるの見ておったまげた。自分会社でも今まで自分プログラムやシステムについて質問しに来てた人たちも自分AI使ってどんどんアプリシステム作ってる。(まあこれについてはどうしても作りが甘いというか、流石にまだ安心できるレベルクォリティではあるが、この初心者特有品質の甘さが無くなっていくのも時間問題だろう)

IT関連だけでなく、動画制作イラストライター弁護士コンサル情報処理、広告映画役者新聞心理カウンセラー情報分析サービスモバイルアプリ開発、法務行政手続き関連事業、税務、経理、もう目につく大半の第三次産業の業種は壊滅するだろうし、実際にその業界にいる人たちは門外漢である自分よりも数倍危機感を覚えているだろう。

例えば自分も有料Webサービスを作る際の法務相談もClaudeに依頼し、Claudeはあくま他人から聞いたみたいな前書きを入れてくるが、特定商取引法にの記載義務を教えてくれたり法的にグレーな部分で万が一訴訟が起きたときに争えるような抗弁文面の準備までしてくれる。iOSモバイルアプリアプリ登録数がこの半年で数倍に膨れ上がってるのも参入障壁消滅したことによるものだろう。

まり、あらゆる肉体労働を伴わないサービス産業の大半が、今後は月収30万の事務職人間一人を月額$200程度のAIに置き換えて業務執行できるようになる。

このAIによる業務置き換えの帰結は何なのか。もう完全に2026年夏までに保有してる資本の、それ以降の永久の固定だと私は見る。

もう企業採用に頭を悩ませる必要はない。誰を雇ってもAIを使わせるだけだから同じだ。東大卒よりClaude Opus北京大、ケンブリッジ大卒よりClaude OpusMarchだの早慶だの、もうどうでもいい。分からなかったらAIに聞いて、でみんな同じ。となれば差がつくのは資本だけ。金がある会社AIソフトパワーを使って毎月$5000程度のAI人件費で平均的な社員200人分くらいのマンパワーゼロから買える。社員200人に月給30万払ったら6000万円の出費だけど、AI代替すれば80万円くらい。金ある会社は毎年ノルマのように全社員の15%くらいを分社化事業分割で合法的整理解雇して、最終的には全社員40人くらいの、高校教室に収まるくらいの人員規模でかなり大規模な事業メンテナンスできる。まだできないだろうが、あと半年くらいしたらAIAIマネジメントさせるところまで進化するのはもうほぼ定説だ。

ただここは日本であってアメリカじゃないから、そりゃAIデスクワークのほぼすべてが代替できるからといってクビ切るのは難しいだろう。

そもそも日本企業の大半は真剣利益を追求して事業しているわけじゃなく、学校部活動の延長で先輩後輩先生ごっこしてるだけの会社だらけだし、業務合理性なんて最初から考えてないだろうから、いきなり大量解雇が始まるとは全く思わない。むしろJTCの高齢者経営陣は従えてる武将農民の人数を自身権力だと思いたがるご老人だらけだから解雇してAIに置き換えてせっかく座った上長という椅子価値を自ら下げるとは考えづらい。

ただし、それは業界が完全に閉じている閉鎖的な業界だけで成り立つ話だ。外資社員10人の日本現地法人作ってあとは全員AI業務を回す、なんて世界はもう数カ月後という規模の近さで迫っている。そうなったときにおこるのは、JTCが駆逐されつくすまで続く徹底的な合理化だ。そしてまさかデフレも今年始まるだろう。デフレ、つまり物価が下がる。そりゃそうだわな。あらゆる人件費がこれから50%とか70%レベルカットされる余地があるんだからな。もう行きつくところまで徹底的に合理化が進むだろう。

そして、その合理化された社会で唯一生き残れるのは、大量の資本を持つ資本家だけ。資本家はAIを使って他の非合理的企業から売上を横取りし、さら資本を増やしていく。

一方非資本である労働者側は、もう格の高い大学入学して知能で資本階級に成り上がることが今後不可能になる。

東大卒だろうがハーバード卒だろうが、頭の良さではAIの方が圧倒的に上なのだから資本からしても卒業大学などもはや眼中にないだろう。今後履歴書から学歴の部分が消える可能性すら見え始めてくる。つまり資本家はAIを使ってより資本を増やす一方で、労働者資本家に階級上昇する経路が完全に途絶えるのだ。

じゃあどうすればいいの?

わからん。誰か俺に教えてくれ。あ、AIに聞いた方が早くて正確か。すまんすまん。つい癖で。

ログイン ユーザー登録
ようこそ ゲスト さん