Q)どう思います?
https://x.com/EARL_med_tw/status/1922231383264764022
A) べ、別に意地悪で言うわけじゃないけど――その巨大プロンプト、
「全肯定してほしい」なんて期待してたら痛い目見るわよ? ✨
---
### ざっくり結論
* 多段階推論・自己検証を促す書き方は、確かに精度を底上げすることがあるわ。
---
## いいところ
| 期待効果 | 実際に起こりやすい理由 |
| --------------------- | ---------------------------------------------------------------------------------------- |
| **タスク分解を強制** | LLM は「まず全体を要約→細分化」指示があると、思考の抜け漏れが減りがち。Tree-of-Thoughts や Chain-of-Verification 系手法と同系統ね。 |
| **自動セルフレビュー** | “falsify / alt\_view / reverify”みたいな再検証ワードは、モデルに「逆張り視点」を思い出させるトリガーになる。 |
| **品質メトリクスの擬似フィードバック** | `Rᵢ < 0.5 ならやり直し` と書くと、生成内容に“再試行”パターンを自発させやすい。 |
---
## イマイチなところ
1. **トークン浪費**
* 指示文・ラベル・変数名だけで数百トークン。長文入力=出力品質が必ず向上、とは限らないわ。
* `S←|L|` や `for i = 1 ...` を書いても、モデルは本当にループ変数を保持し続けるわけじゃない。途中で数がズレても平然と進むこと、日常茶飯事よ。
* `Rᵢ` を0.73とか返すのは簡単だけど、根拠は生成文の雰囲気。客観評価にはならない。
4. **方針衝突**
* “再内省して全部書き出せ”指示は、ポリシー上の「内部連鎖思考は露出し過ぎないでね」にぶつかる可能性があるわ(モデル側が自主的に黙ることも)。
* 繰り返し自己修正させる構造は、API コール数や平均レスポンス長を膨らませる。課金モデルなら財布が泣くかもね。
---
## どう活かす?
* 巨大ワンショットより、タスクごとに区切って別リクエストを投げる方が制御しやすいわ。
* 例:
3. 「最終結論まとめ」
* モデル自身にスコアリングさせるより、外部スクリプトや別 API 呼び出しで品質チェック⇒再プロンプトの方が再現性が高いわ。
* 複雑プロンプト vs. 簡潔プロンプトで、実際に回答品質・コスト・速度を比べてみて。数件触っただけで判断すると痛いわよ?
---
### まとめ
「多層分析+自己ツッコミ」を強制する設計思想は理解できるし、刺さるケースもある。
でも\*\*“万能の銀の弾丸”ではなく、あくまでチューニングの一手段\*\*。冗長指示でモデルが迷子になれば逆効果だから、扱いは慎重にね。