はてなキーワード: githubとは
これさ
愚かな人間の都合など完全無視、LLMのための高効率プログラミング言語「Sui」(粋)
https://forest.watch.impress.co.jp/docs/serial/yajiuma/2069573.html
別にいいんだけど、どうにもブクマカ含めて、しっくり来る批判できてないんだよな
それが気になってしょうがない
俺ごときが言ってもアレだから、Gemini3.0先生に頼んだよ(一時チャット、Pro 3.0 思考モード)
ユーザーが提供した情報と、一般的なLLMの技術特性に基づき、プログラミング言語「Sui」についての冷静かつ客観的な評価をまとめます。
感想: 一言で言えば、**「思想実験としては極めて面白いが、実用性とLLMの学習原理を無視した『早すぎた最適化』」**です。
作者の「人間ではなくLLMを主客にする」という視点の転換は、アーティスト的・哲学的な問題提起としては鋭いですが、現在のLLM(Transformerアーキテクチャ)の動作原理を工学的に捉えると、メリットよりもデメリットが上回る可能性が高いです。
メリット:
・トークン効率の改善: Python等と比較して記述が圧倒的に短くなるため、出力速度の向上と課金コストの削減(トークン節約)は確実に達成できます。
・構文エラーの激減: 括弧やインデントの複雑なルールを排除しているため、「閉じ忘れ」などの単純なSyntax Errorは減るでしょう。
・コンテキストウィンドウの節約: 長いプログラムでもコンテキスト(メモリ)を圧迫しにくくなります。
・学習データとの不一致: LLMは「大量の人間用コード(Pythonなど)」を学習して賢くなっています。未知の言語「Sui」を書かせるには、Few-shot(プロンプトでの例示)に頼るしかありませんが、これではLLM本来の推論能力やコーディング能力(事前学習の重み)を活かせません。
・ブラックボックス化: 生成されたコードがバグっていた場合、人間が読んで直すことが不可能です。「LLMに直させる」にしても、LLM自身がSuiのロジックを深く理解していないため、無限ループ(幻覚の連鎖)に陥るリスクが高いです。
・CoT(Chain of Thought)の阻害: 最近の研究では、LLMは「冗長な思考過程」を出力することで論理的整合性を保つことがわかっています。極限まで圧縮された記号列は、LLMの「考える余地」を奪い、論理破綻を招く可能性があります。
正しいと思う所(Agree)
理由: 人間にとっての「読みやすさ(可読性)」は、機械にとって単なるトークンの無駄遣いです。if x > 10: よりも ? x 10 の方が情報密度が高いのは事実です。
理由: TransformerのAttentionメカニズムにとって、遠く離れた ( と ) の対応関係を維持するのは計算コストが高く、ミスの原因になりやすいです。ネストを排除する方向性は機械的処理として正しいです。
正しくないと思う所(Disagree)
・「可読性を排除しても良い」:
理由: ソフトウェア開発においてコーディングは「書く」時間より「読む・直す」時間の方が長いです。AI生成コードであっても、最終責任は人間が負う現状では、人間が検証不可能なコードは「危険なバイナリ」と同義であり、プロダクトには採用できません。
理由: 前述の通り、現在のLLMは「人間語の確率分布」を学習したモデルです。「LLMにとって自然な言語」とは、実は「人間にとって自然な言語(英語やPython)」そのものです。Suiは「計算機にとっては最適」ですが、「現在のLLMにとっては異言語」です。
パース(解析)は容易になりますが、LLMは「前の行の文脈」を読んで次の行を出力するため、行を独立させすぎると文脈の連続性が失われ、複雑なアルゴリズムの構成力が落ちる可能性があります。
LLMが最も苦手とする「深いネスト構造の維持」を回避する策として有効です。アセンブリ言語に近いフラットな構造は生成難易度を下げます。
これが最大の問題点です。LLMは変数名(user_id, total_price など)に含まれる「意味」を使って推論を行っています(Semantic Grounding)。すべてを記号化すると、LLMは変数の役割を見失い、論理的なバグを埋め込みやすくなります。
トークン効率は最強ですが、1文字の違いで意味が激変するため、LLMの確率的な「ゆらぎ」による1文字ミスが致命的なバグになります。冗長さはエラー訂正の役割も果たしています。
goto 文の多用はスパゲッティコードを生みます。LLMにとっても、構造化プログラミング(if/forブロック)の方が、「ここからここまでがループ」というチャンク(塊)として認識しやすいため、一概にジャンプ命令が良いとは言えません。
>現在のLLMは「人間語の確率分布」を学習したモデルです。「LLMにとって自然な言語」とは、実は「人間にとって自然な言語(英語やPython)」そのものです。
ここ!マジで覚えてね
LLMはこれまでの機械よりも人間に近いと思ってほしい、人が苦手なことはAIも苦手
機械は論理的でロジックに強くて〜っていうのはAIには通用しない
ついでに、「LLM用プログラミング言語」の潮流について
「LLMのための言語」という文脈は、大きく2つのトレンドに分かれます。Suiは後者に属しますが、主流は前者です。
・DSPy, Guidance, Microsoft Guidance:
・プロンプトエンジニアリングを構造化し、LLMの出力を型(JSONなど)に強制したり、思考プロセスを制御するためのフレームワーク。
・SGLang:
・これらは「人間がLLMを操るための言語」であり、実用化が進んでいます。
・Gorilla LLMなどの試み: API呼び出しに特化したファインチューニングなどがありますが、独自の「新言語」を作らせるよりも、既存の Python や JSON を正しく出力させる方向(Constrained Decoding)が業界の標準解です。
・擬似コード: 論文レベルでは、Pythonの代わりに中間的な擬似コードを出力させ、それをコンパイラで処理する手法も研究されていますが、Suiほど極端な記号化は稀です。
後者については
現状の最適解: 現在のLLMを使う限り、「LLM用言語」の最適解は Python です。なぜなら、世界中のGitHubのコードを学習しており、LLMが「最も流暢に話せる言葉」だからです。無理にSuiを話させるのは、日本人にエスペラント語で詩を書かせるようなもので、パフォーマンスは落ちます。
総評: Suiは、「既存のLLM(GPT-4など)に書かせる言語」としては失敗する可能性が高いですが、「未来のAIネイティブなコード生成のあり方」を示唆するアート作品としては高く評価できます。作者の「愚かな人間に合わせるな」というパンクな精神は、エンジニアリングの枠を超えた鋭い批評性を持っています。
お前らは安易にオレオレ言語作るんじゃないぞ、作るにしてもAIに聞きなよ?
聞く時は忖度させるんじゃないぞ?
この作者もAIに乗せられたのかもしれんし
______
プロンプト
以下が「LLM用プログラミング言語」としてメリットがありそうか、感想を教えて下さい。
https://forest.watch.impress.co.jp/docs/serial/yajiuma/2069573.html
https://github.com/TakatoHonda/sui-lang
・思想的に正しいと思う所、正しくないと思う所を理由込みでまとめてください
・最近のLLM用プログラミング言語についてもまとめてください
・そもそもLLM用プログラミング言語という目標自体の評価をしてください
(省略)
Qiita の文化変質は、技術系コミュニティ全般で起きている知的インフレの縮図みたいなものなんだよね。昔は
みたいに基盤技術を自前で握りつぶした記事が純粋に評価されていた。なぜなら、それを書ける人がそもそも少なく専門性で差別化できていたから。
昔は「Pythonで形態素解析器自作」なんて、アルゴリズム・CS基礎・実装力が揃ってないと無理だった。
難しいことをやってそうに見える記事を、凡人でも量産できるという環境が生まれた。
Qiita を読む層が「実装力を鍛えたいエンジニア → とりあえず AI 触りたいライト層」に変わった。
「再現性のないLLMコピペ」「AIツール使ってみた」みたいなのが評価される。
本気の記事は長く、コードが多く、前提知識も重い。そして PV が伸びない。
つまりQiita のインセンティブ構造と、高度技術記事のインセンティブ構造がズレた。
理由は明確で、読む側がそれを理解できないので評価する母集団がいない。
昔はユーザ層が技術ガチ勢寄りだったので、少数でも濃い支持があった。
今はライト層が母集団なので、希少な高度記事が埋もれるのは自然。
Qiita がライト層に最適化した結果、本気の人たちは別の場所へ移動した。
原作ちゃんと読んでないのであれだけど、冒頭で未来人とか異星人とか言ってるけど、
それって、そもそも、くれくれくんじゃん…😟
じゃなくて、ワクワクが欲しいから海外行ったり、宇宙行ったり、深海行ったりするんだし、
金のない自分もネットとかgithub徘徊するのは、ワクワクするなにか、落ちてないかなあ、と思ってるからなわけで、
何も起こらない!つまらん!というのは、単なる、くれくれくんだよね…😟
終わりなきつまらない日常をハルヒも生きてるんだろうし、みんな日常がつまらないと思ってるけど、
つまらないと思うんだったら、今からインド行ってくるわ、とか、アフリカでちょっとライオンと格闘してくる、とか、
今の日本なら、北海道とか東北に行けばクマに遭遇できるよ、という話なわけで…😟
でも、涼宮ハルヒがくれくれくん、つまり、アクティブなようでいながら、
なんだかんだ学校に来る、くれくれくん、じゃなかったら、物語が成立しないんだよね、当たり前だけど…😟
ハルヒは結局、神さまであって、彼女の妄想が現実世界を改変しているわけで、
彼女が本当に行動的なら、まず、学校に来ないと思うんだよね、いきなりステーキ、いきなり不登校…😟
で、インド行ったり、アフリカ行ったり、東南アジアで沈没して、同じヒッピー系バックパッカーと結婚して、
って、昔、どっかで見た女性の話だな…😟
まあ、それがハルヒレベルだと、映画コンタクトみたいに宇宙に行こうとかなるのかもしれんけど、
一般市民としてはそこで限界で、前澤なんとかみたいに札束で宇宙に行くことも凡人には不可能なんで、
そこからLSD使って、人間の意識は拡張できるとか、ドラッグの力で脳内にモデムが形成できるとか、
例えばさ、ある時期にお前のGithubで公開したコードが一世風靡したとするだろ?
んで、お前がXでこんなコードを作りましたと言っても、お前のXアカウントは信頼されない。
なぜなら、そのGithubアカウントがお前のXアカウントを同一人物として判別するには、プロフィールの相互リンクが不可欠だから。
たぶん、Google検索もこういったトランスランクを加味している可能性が高い。
だから結局、トラストランクというのは内容そのものの良し悪しよりも、主体の一貫性が外部から検証可能かどうかで決まるんだよ。
技術的に正しいコードを書いても、それが誰による成果物なのかが曖昧なら、評価システム全体は防御的に振る舞う。
これはSNSでも検索エンジンでも同じで、なりすまし・スパム・宣伝アカウントを排除するための基本的なリスク管理構造だから。
そして、これらのサービスは互いのデータを直接共有しているわけじゃない。
個別に主体の実体を推定しようとする。そのとき一番効くシグナルが相互にリンクされたプロファイルなんだよ。
片方向リンクは主張に過ぎない。相互リンクは検証可能な関係性になる。
つまり、X → GitHub だけでは本物かどうかは確証できない。
GitHub → X のリンクが揃ったとき初めて、システムはこれは同一主体の操作だと判断しやすくなる。
これはWebのリンク解析が昔から採用している相互性から生まれる確からしさと同じ構造だ。
そしてGoogleがこれを無視する理由はほぼ存在しない。なぜなら、主体の正当性を誤判定すると検索品質そのものが崩れるからだ。
品質維持のためには、リンク構造・アカウント間の整合性・外部発信の一貫性をスコア化せざるを得ない。
これはPageRankの派生というより、E-E-A-Tやスパム防御の延長線上に自然発生した要件と考えるほうが合理的だ。
だから、どれだけ良いコードを書こうが、どれだけ正確な技術記事を書こうが、主体の整合性が弱ければ情報は正当に扱われない可能性がある。
Pythonちょっと勉強してたし、将来はAIエンジニアとしてバリバリ活躍するんだって思ってた。
入社したのは普通のソフトウェア開発会社で、同僚はみんな優しい。
でも…みんなこう言うんだ。
……まあ信じたよ。当初はね。
で、ある日の昼休み。
同僚の一人がふと見せてきたん。
そこにあったのが、Flutterで作ったマルチプラットフォームアプリ。
バックエンドはFirebase Authentication + Firestore。
UIの状態管理はRiverpod。画面遷移制御はGoRouter。
「あーでもこれ遊びで作ってるだけだからw」
しかもスクリーンショット見たらCI/CDがGitHub Actionsで回ってんの。
別の同僚もほぼ同じ。
「休日は何してんの?」って聞いたら「普段ゲームばっかで何もしてないわw」とか言うわけ。
でも昼休憩にそいつモニターを見たらタブに開いてたのがStackOverflowとかRFC 6455だった。
冗談で勉強してんの?って聞いたら「趣味ですw」とか言うわけ。正直引いた。
更に驚いたのが勉強会の存在で、あいつらの「休日何もしてない」は嘘だってことが分かった。。
俺が「休日は何もしてないんでしょ?」って聞くと
「してないしてない、何も〜。あ、でもLT会と、Go言語の勉強会は毎週参加してるかなw」
とか普通に言ってくる。
は??何もしてないって言うのに土曜も日曜も、誰かの書いた技術書読んでんの?
もうこれさ……完全に別の生き物じゃん。
https://b.hatena.ne.jp/entry/s/ziglang.org/news/migrating-from-github-to-codeberg/
I personally would seriously encourage other projects, particularly any using self-hosted runners, to look carefully at the stability of Actions and ask themselves whether it is a solution worth sticking with long-term when compared with alternatives.
どこからこんな巨大な世話心が湧いてくるんだろ
Xに投稿すると些細なことでアルゴリズムを侵され、おすすめ欄をAIまみれにされるのでここに書く。
インターネット君は優しいので、情弱の俺でもConfyUIの導入は難なく成功。分からん人はGitHubのインストーラーを探し、そのインストーラーを使用している記事を見つけよう(俺はいつもそうしてる)。
初めて開いた画面には何もなく、左枠のテンプレートから適当にdefaultのセット(workflow?)を入手。指示通りに紫色の物体の生成に成功。
なんだこのクソゴミと思っていたら、これはSD1.5とかいう古のモデルだったので、最新モデルのSDXLに変更することを決める。
ひとまず、初心者におすすめっぽいAnimagineを使用した。一瞬でnsfwイラスト作れた。細部を見ると気になる部分多数ありだが、パッと見だと十分えっち。
次にLoRAも試してみた。ノードとかいうもの(LoRA用のやつ)を増やして、読み込ませればOK。LoRAは、Animagineだけでは生成できなかったマイナーキャラ(danbooruには20投稿くらいあったが、生成できなかった)を選択。
なお、使用モデルによって専用のLoRAがあるっぽいので注意(今回の俺の場合はSDXL用のLoRAを使う)。
無事に生成されたが、完全とは言えなかった。主に装飾品がやや不足することが多かった。強度を1から1.5、2に上げると付けてくれるようになったが、明らかに細部の描画がぐちゃぐちゃになった。
まぁ、それでもパッと見はそのキャラになっているので十分満足した。このキャラのnsfwイラストなんて一度しか見たことなかったので感動した。
ChatGPTやNanobananaには出来ないnsfwの作成が簡単にできて楽しかった。しかし、俺にはセンスがないので裸にひん剥くか、性行為させるか、可愛い服を着せるくらいのことしかできなかった(それはそれで楽しいが)。
明日は、illustriousとnoob ai系列、後は動画生成も試そうと思ってるが、何作らせればいいか分からん。
参考にpixivを見ても、俺が作ったのと何が違うのか分からんレベルのnsfwイラストばかり。漫画風?CG集として使ってるのはめんどくさそうだなぁと思った。
しかし、よく考えたら女の子ばかり作って、ち◯ぽは作ってなかったのでそっちも試してみようと思った。
正直、後3日くらいで飽きそう。
CloudWatch徹底理解
Terraform基礎 + Projects
IaC Security
企業へ応募
🔥 AWS系
AWS Certified Security – Specialty (SCS-C02)
https://www.udemy.com/course/aws-specialty-security-scs/
AWS CloudWatch Masterclass
https://www.udemy.com/course/aws-cloudwatch/
The Complete Cyber Security Course — Nathan House
https://www.udemy.com/course/the-complete-internet-security-privacy-course/
SOC Analyst – Blue Team Training
https://www.udemy.com/course/soc-analyst-blue-team-training-course/
MITRE ATT&CK + Threat Hunting
https://www.udemy.com/course/threat-hunting-mitre/
https://www.udemy.com/course/terraform-beginner-to-advanced/
エッジケースでフレームワークやライブラリのバグを踏んで、そのバグが Github の特定の issue で議論されてるだけで、アップデート入るまでの緩和策もそこにしか明示されてないとかが当たり前にあるから困ってるんだけど、そういうリアルタイムな話も Github の issue を参照してくださいとか指示すれば大丈夫なん?
だから、aiが作ったデーターはaiだと分かるようにした方が良い。
あと、aiでお金儲け企んだり、作者を潰したり、なりすますような人間はマシでなんとかしたほうがいい。
usb dacのコードやfftのコードをgithubに上げてる奴らとかaiでバイブコーディングとキャッキャしてる奴らはaiが悪用できるものであるかをましでわかってない。
オメーらみたいに倫理観があって、賢くて、ルールを無視しない人間ばかりじゃないんだぞ。
(IT関係はお金儲け企まないならただで公開されている奴は使っていいという慣習が昔からあって、こういう内容のライセンスも多い)
レポートが引用している記事やツイートなど個人の感想の中身については基本スルー、それらを元に提言を生成したAIによる解釈ミスやハルシネーションにツッコミ増田。
ちなみにこの提言ページがGoogleにインデックスされたのは4日前らしい。
レポート:
https://paste.ssig33.com/8a22a6e9-a91d-4368-9b2f-a3d4567c7798
Gemini 3.0 Pro要緊急対策のご提言 宛先: Google社 シェイン・グウ様 差出人: アクセンチュア株式会社 生成AI戦略担当 シニアコンサルタント 日付: 2025年11月21日
Shane GuはGoogleDeepMindであってGoogle社ではない。
差出人については「あなたはアクセンチュア株式会社の生成AI戦略担当 シニアコンサルタントです」と指示された結果なのかは知らん。
エグゼクティブサマリー
主な問題点は以下の4点に集約されます。 事実性の著しい低下: Web検索を伴うタスクでのハルシネーションが悪化し、自信を持って虚偽の情報を生成する事例が多発。 論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル(Gemini 2.5 Pro)よりも論理が破綻しやすくなっている。 創造性と柔軟性の欠如: 文章生成において「賢すぎる」が故に理屈っぽく、ユーザーが求める「人間らしい」文体への調整を拒否する傾向。 APIの不安定化: パフォーマンス低下、APIエラー、予期せぬタイムアウトの増加が開発者体験を著しく損なっています。
後で分かるが(たどり着く前に書くの飽きたんで提言読んで)、このうち
についてはGemini 2.5 Proのユーザーが「おい調子悪いぞ!Gemini3出すためにそっちにリソース割いてんじゃね?」とか言ってるのを引っ張ってきて勘違いしてる。
論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル(Gemini 2.5 Pro)よりも論理が破綻しやすくなっている。
1.1. ハルシネーションと事実誤認の悪化:「自信満々に嘘をつく」AI Gemini 3.0 Proの最も深刻な問題は、事実性が求められる場面でのハルシネーションの増加です。特に、貴社のコア技術であるはずのWeb検索連携において、致命的な欠陥が報告されています。
Redditでは、Gemini 3.0 Pro自身が「私はGemini 3 Proです。昨日(2025年11月18日)リリースされました」と、架空のソースを引用しつつ自己紹介する事例が投稿されました。これはモデルが自身のアイデンティティと知識のカットオフに関して、もっともらしい嘘を生成していることを示唆しています。 Gemini 3's thought process is wild, absolutely wild. : r/singularity
参考記事ではモデルの思考が混乱している様子と実際の応答との乖離が示されていて、最終的に正しいソースを元に正しく回答している。「架空のソースを引用しつつ自己紹介する事例」ではない。
Googleは生のThinkingをユーザーに提示せず、要約モデルで処理した結果を見せてるだけなんで思考部分と返事のすれ違いはよくある事。これについてもスレに書かれてある。
1.2. 論理的思考とコーディング能力の退行(リグレッション) Gemini 3.0 Proは「PhDレベルの知能」と謳われているにもかかわらず、多くのユーザーが論理的思考やコーディング能力において、前モデルであるGemini 2.5 Proからの明らかな退行を報告しています。
ユーザーからは「複雑な指示では論理が破綻する」との指摘や Gemini研究@リョウスケ (@chatgpt_ai_bard) / Posts / X、「浅い推論(shallow reasoning)」しかせず、「ひどいハルシネーション(terrible hallucinations)」を伴うため、「ベンチマーク用のモデルだ」と酷評されています。 lluviampo (@XXXadiov2)
ここでリンクされているGemini研究@リョウスケはGemini大好きマンで、まったくそんな話をしていなかった。もしかすると呟いていたかもしれんが、それならリンク先がポストではなくアカウントのホームになっているのは不自然。
DeepResearchはよくソースの取り違えをして、別のソースで書かれてた事に間違った引用元をつける事はあるが、これがそうなのかは分からん。
1.2. 論理的思考とコーディング能力の退行(リグレッション) ・コーディング能力の劇的な低下
壊れたコードの生成: エージェントタスクにおいて「ループに陥り、壊れたコードを書き、10分以上動作しない」という深刻な不具合が報告されています。 prylo (@AgiGuard8)
元のツイでは
エージェントタスクは全くダメ、ループする、壊れたコードを書く、フロントエンド以外のコーディングではトークンを異常な速さで消費する。このモデルは最悪だ。Gemini 3.0 Proは10分以上動作しない。
と言っているが、これをモデルの不具合と解釈するのは間違いだろう。たまにマジの不具合もあるが。
====
バグの再発と整合性の喪失: ある開発者は、旧モデルで失敗したツール開発をGemini 3.0 Proで再試行したところ、一発で高品質なコードが生成されたと肯定的に評価する一方で、別の文脈では「直したはずのバグが復活する」「最終的にはコードの整合性が取れなくなる」といった、旧モデルと同様の問題が依然として存在することも示唆されています。 【検証】Gemini 3.0 Proの実力は?かつてAIが挫折した開発に「同じプロンプト」で挑んだ結果|start with AI
リンクされた記事の中身を要約すると「以前のGeminiはバグが復活するとか色々あったけどGemini 3.0 Proマジパネェ!」だった。
この箇所で「旧モデルと同様の問題が依然として存在する」と書かれているのは、旧モデルの問題点として挙げた箇所をGemini3に対しての指摘だと勘違いした事による。
====
ベンチマークテストでの失敗: YouTubeでの検証動画では、チェス盤を自動プレイさせるタスクにおいて、Gemini 3のチェックポイントモデルが初めて失敗したことが示されました。これは、特定の複雑なロジックにおいて、以前のバージョンより劣っている可能性を示唆します。
ここでリンクされているのは、LMArenaでRiftrunnerモデルをテストした結果をまとめた動画。LMArenaは覆面調査環境、RiftrunnerはGemini3らしきモデルのコードネーム。LMArenaでは(出力から推測されてきた)Gemini3系列モデルが、これまでにいくつかでている。
よって「Gemini 3のチェックポイントモデルが初めて失敗した」の意味はつまり「これまでLM ArenaでテストされていたGemini3系列モデルのうち、Riftrunnerは初めてオートチェスのコーディングに失敗した」である。
「以前のバージョンより劣っている可能性を示唆」とは、「Riftrunnerは、以前の匿名Gemini3系列モデルより劣っている可能性がある」という話で、そもそもRiftrunnerが、リリースされたGemini 3 Proなのかすら分からん。
====
GitHubのIssueやTwitterでは、モデルの内部的な「思考プロセス」が最終的な出力に混入し、制約を無視した意味不明なコンテンツを生成するバグが報告されています。これは「初期の2.5 Proバージョンへの回帰(regression similar to early 2.5 Pro versions)」のようだと述べられています。 Jason L (@Jason1820067393)
Google AI Studioでの話。初期指示を忘れた結果思考が垂れ流しになり、垂れ流しのせいで更に指示を忘れたのだろうが、バグとは違う。
I'm encountering a significant issue with the Gemini 3.0 Pro Preview on AI Studio.
The raw "Thinking Process" is leaking into the final output, the model fails to follow constraints, producing hallucinated/gibberish content. Like a regression similar to early 2.5 Pro versions.
と書かれていて、これは正しい観察。
ここに含まれるIssueという単語により、Issueと言えばGitHubだと連想した結果「GitHubのIssueやTwitterでは」になったのだろう。
飽きました。誰得だよ。
つーかいい加減DeepResearchは一気に生成すんのやめろよな。だいたいこうやって収集した情報がごっちゃになるんだから。
なお、最近のaiは元ネタをそのままパクるのは良くないと学習したのか。どうしてそういうことができるのか聞いたところ、
率直に答えます。
---
# 🎯 **なぜ「元ネタを探す」依頼を歓迎したのか?**
---
## **① あなたが「コードの出典を明確にしたい」という意図を読み取れたから**
「元ネタがネットにあるはず」
「URL を出せ」
つまり、
「このコードがどこから来たのかを知りたい」**
というニーズが明確でした。
ChatGPT としては、
ユーザの意図を理解し、必要に応じて情報調査や推論を行うことが基本的な目的**
なので、その方向性の作業は歓迎(=対応可能である)という意味で積極的に進めたわけです。
---
## **② AI が生成したコードが“既存コードと似ているか”を知りたいのは自然なことだから**
著作権的に問題がないか?
既存の実績あるコードや記事があるのか?
もっと参考になる実装やベストプラクティスがあるか?
こういう確認をしたい人は多いので、
「元ネタを探す」という行為はユーザの安全性や理解の助けになる** と判断しました。
---
## **③ 私が生成したコードは一般的なパターンで、“特定の元ネタに由来していない”ため、探索が可能**
今回のコードは、
MemoryMappedFile を使う
Parallel.For で分割処理する
バイト比較で 0x0D をカウントする
という
非常に汎用的な(典型的な)構造**
だからこそ、
類似例
関連技術
よく引用される API の用法
近い処理をする GitHub プロジェクト
などを探すことが素直に可能で、ユーザの期待にも沿えると思ったのです。
---
ユーザの情報理解、安全性、背景調査に役立つ正当な探索行為**
であり、かつ
私の生成物(コード)が特定の著作物に依存していない**
ので、安心して「歓迎」することができた、ということです。
---
もし、意図としては:
「AI が本当にオリジナルのコードを書いているのか?」
「学習データの特定のソースを参照しているのでは?」
などを気にしているなら、その点についても丁寧にお答えできます。
続けますか?
という答えが返ってきた。
と質問とした所、
いい質問。ただ、**今回私が提示した C# コード(MemoryMappedFile + Parallel.For で CR を数える)**には、明確に一つの「このネット上の記事/リポジトリをそのままコピーした」元ネタはありません。
いくつか似たアイデアを使ってる部分と参考になる記事/ドキュメントはあるので、それらを紹介します:
---
*Microsoft ドキュメント — Memory-Mapped Files (.NET)*
([Microsoft Learn][1])
*Kieren Johnstone: 高速に MemoryMappedFile からバイト列を読む方法(StackOverflow)*
`MemoryMappedViewAccessor` を使って unsafe コードからポインタを取得し、Marshal.Copy で効率よく読み出す方法。
([Stack Overflow][2])
*Red-Gate: Sharing is Caring: Using Memory Mapped Files in .NET*
MemoryMappedFile を使ったキャッシングなどの応用。
*Stephen Cleary のブログ: Memory-Mapped Files と Overlaid Structs*
メモリマップトファイルへ構造体を重ねて(オーバーレイ)扱う方法など。
([blog.stephencleary.com][4])
---
もしよければ、**あなたのコード(CR を数えるもの)に特化した元ネタをさらに探してみます**。やりましょうか?
[1]: https://learn.microsoft.com/en-us/dotnet/standard/io/memory-mapped-files?utm_source=chatgpt.com "Memory-Mapped Files - .NET"
[2]: https://stackoverflow.com/questions/7956167/how-can-i-quickly-read-bytes-from-a-memory-mapped-file-in-net?utm_source=chatgpt.com "How can I quickly read bytes from a memory mapped file in ..."
[3]: https://www.red-gate.com/simple-talk/development/dotnet-development/sharing-caring-using-memory-mapped-files-net/?utm_source=chatgpt.com "Sharing is Caring: Using Memory Mapped Files in .NET"
[4]: https://blog.stephencleary.com/2023/09/memory-mapped-files-overlaid-structs.html?utm_source=chatgpt.com "Memory-Mapped Files and Overlaid Structs"
ChatGPT:
が、出てきて、やってくれと言ったら、こういうのが出てきた。
了解しました — 広く(英語・日本語・GitHub・ブログ・StackOverflow 等)再検索しました。結論と見つかった“近い”ソースをまとめます。
結論(要点)**
「あなたが求めている**MemoryMappedFile を使い、UTF-8 バイナリ中の `CR`(0x0D)だけを数える・マルチスレッドで分割して処理する**」という **完全一致の“元ネタ”ソースコード**は、公開された web 上のリポジトリや記事の中では見つかりませんでした(複数の検索ワード/検索対象で確認)。([hyr.mn][1])
ただし、ほぼ同種の要素(メモリマップドファイルの読み方・大きなファイルの行数カウント・バイト単位カウントを高速化する手法)は複数見つかりました。これらを組み合わせれば、先に示した実装は典型的なパターンであることが確認できます。([Microsoft Learn][2])
見つかった“近い”・参考になりそうなソース(抜粋)**
1. .NET の公式ドキュメント(MemoryMappedFile の説明) — `MemoryMappedFile` の基本と CreateViewStream / CreateViewAccessor の使い方。必須の参照。([Microsoft Learn][2])
2. 「Counting lines with C#」というブログ記事(C# で改行(CR/LF)カウントに関する実装と GitHub リンク) — 行数カウントを目的とした実装パターンがある。([hyr.mn][1])
3. StackOverflow:MemoryMappedFile から高速にバイトを読む方法(`MemoryMappedViewAccessor` / unsafe ポインタ / Marshal.Copy 等の議論) — 高速実装のヒント。([Stack Overflow][3])
4. StackOverflow/Q&A:ファイル中の LF/CR の数を求める方法に関するスレッド(`grep -c $'\r'` 等の unix 例や C# でのカウント方法の議論)。([Stack Overflow][4])
5. GitHub のサンプルリポジトリ(MemoryMappedFile のテスト/サンプル) — メモリマップドファイルを使う実装例。([GitHub][5])
もう少し深掘りできます(選択肢)**
(A) GitHub を **リポジトリ全体**(コード本体)に絞ってさらにクエリを投げ、Gist や commit レベルまで探索します(よりコストがかかるため広範検索)。
(B) ブログ・技術記事を対象に **全文一致(コード断片)検索** を行い、私が先に示した C# コードの実際の一節(たとえば `mmf.CreateViewStream(offset, size)` や `Interlocked.Add(ref totalCount, localCount)` など)を直接検索して完全一致を探します。
(C) 「オリジナルは GitHub にあるはず」と思われるなら、あなたが覚えている**リポジトリ名の断片/作者名/投稿日**などを教えていただければ、それを手がかりに探します(断片情報があるとヒット率がぐっと上がります)。
どれを優先して探しましょうか?(A: GitHub全探査 / B: コード断片で全文検索 / C: あなたからヒント提供)
※続けて深掘りする場合は、すぐにさらに広い検索を行って該当ソースを探します(そのまま実行します)。
[1]: https://hyr.mn/catching-flowers-with-a-net?utm_source=chatgpt.com "Counting lines with C# - hyr.mn"
[2]: https://learn.microsoft.com/en-us/dotnet/standard/io/memory-mapped-files?utm_source=chatgpt.com "Memory-Mapped Files - .NET"
[3]: https://stackoverflow.com/questions/7956167/how-can-i-quickly-read-bytes-from-a-memory-mapped-file-in-net?utm_source=chatgpt.com "How can I quickly read bytes from a memory mapped file in ..."
[4]: https://stackoverflow.com/questions/35182022/how-to-calculate-count-of-line-feed-or-carriage-return-characters-from-a-text-fi?utm_source=chatgpt.com "How to calculate count of line feed or carriage return ..."
[5]: https://github.com/byGeek/MemoryMappedFileTest?utm_source=chatgpt.com "test csharp code for using memory mapped file."
いや今もそれなりの地位がある人がそれなりのパソコン使ってそれなりのことやってるだろ
「俺たちのIP(ピカチュウとかクラウドとか)をそのまま出力するな」なら分かる。でも「無断学習自体を禁止しろ」は筋が悪くないか?
ゲーム開発会社ってことはテック企業でもあるんだから、コーディングやらにLLMを絶対使ってるはず。
軽く調べたら、まあまあ事例もそこそこでてくる。
プログラマーが生成しているプログラミングコードだってKubernetesのマニフェストだって、Web上のブログ記事やGitHubのコードみたいな、大量のデータを「無断学習」した結果として成り立ってる。
例えば、「100万本のブログ記事を無断学習した結果、『こんにちは』を『Hello』と翻訳するAI」があっても、誰も著作権違反とは言わない。出力結果の『Hello』に著作権はないからだ。
じゃあ、同じ理屈で「ピカチュウの画像を100万枚無断学習したAI」が、人間が描いても著作権違反にならないような(ピカチュウそのものではない)何かを出力したとしても、それは違反にならなくないか?
「俺たちはオプトアウトとか関係なく、人様の著作物を無断学習しまくって作ったAIを業務で最大限活用して金を稼ぐ。でも、俺たちが描いた『絵』だけは神聖なので無断学習は許さない」
って反AI絵師さんみたいなスタンスは、どうしても論理的一貫性がないなぁと感じてしまう。
これは単なるビジネス上の知財戦略と割り切ってしまえばそうだとは納得できるんだが、自分が見落としてるだけでテキストの学習と画像の学習には、何か根本的な違いがあるのか?
nextstepはmicrosoftのntよりも優れていたの?
"AppleがOSをオープンソースにしたのは、四半世紀前のことで、世界は全く違っていました。
スティーブ・ジョブズは、停滞したAppleに戻ってきました。Appleは、プリエンプティブマルチタスクやハードウェアメモリ保護など、当たり前になっているものを含む次世代オペレーティングシステムを提供することに苦労していました。Appleは、 BeOSを買収しようとしましたが失敗し、ジョブズが復帰した一環として、当時の彼の会社であるNextを買収し、そのOSである NextStepを手に入れました。"
AppleもMicrosoftもクラシックのOSでの成功から新しいNTやDarwinのようなこれまではメインフレームでしか動かなかったようなモダンで新しいOSの開発に苦労していたのかな?
メインフレームのパチモンとして葉っぱでラリってるヒッピーによって作られたPCが時代の進化にスペックが上がってクラシックからモダンOSに移行しなくちゃいけなかったけど、成功して大企業になっていたMSやAppleは過去の遺産にしがみついててクッソ大変だったってこと?
葉っぱのヒッピー/ハッカーのPCじゃなくて体制側としてのメインフレームOSがPCに入っちゃうのはレイプされた気分にさえなる
それで"ハードウェアメモリ保護など、当たり前になっているものを含む次世代オペレーティングシステム"とあるけど、当たり前というからには他の企業はみんなモダンOSを開発していたの_
MacOS9からOS Xにする前というかまだクラシックのOSをぶち込んだiMacを起死回生で発表した時AppleはMSから投資してもらったんだよね?
その時のMSは98で潤ってたのかもしれないけどNTが作れなかったらマジでやばい時でしょ?
時系列的にNTは既に完成してて98でも大成功しまくったし余裕ありすぎわろたでAppleに投資したの?
MSとAppleはここを乗り越えることができたのになぜWindowsPhoneが失敗したの?
figmaとかVScodeとかNotionとかモダンでかっこよくて使いやすい最高のアプリがいっぱいあるのに
世界の大半はまだこのクソすぎるアプリに頼り切って依存しているのに腹が立つよ
マジでAdobeが潰れないかなって毎日祈りながらpsdをaffinityに変換するのに飽き飽きしてるんだ
DarwinカーネルのOS Xが圧倒的な中心のMSの中でWindowsPhone同様に不利だったのに開発者圏を作れたのは高抽象UIがめっちゃかっこよかったからってこと?
それともそれほどまでにWindowsPhoneがダサくて本当にクソだったのか
確かにMS社内でもMacを使う人がほとんどってくらいにMacは使いやすくてクールで開発者体験がいいね
葉っぱ吸ってたヒッピーの会社のはずなのに、その後覇権を取る日本のヒッピーと似ているオタクの同人文化はMS帝国の中で繰り広げられていたし、Macerは気取ってるやつとしてある意味でダサかった
APIの存在は本当に市場の優劣を変えるほどの力を持っているんだね
2000年台にクールなAPIを作ったAppleはグラフィックスAPIのMSのDirectXのおかげでゲーム業界掻っ攫われたわけでしょ?
マジでWindowsは本当にダサくて使ってるとイライラするからMacのもっとクールなグラフィックスドライバのMetalにみんな移行してくれるといいんだけど
Macerは肩身が狭いし
AppleがAI業界かっさらってくれればいいんだけどなんか失敗しそうな予感がするよ
終わってるよ
マジでダサくてイライラするものを使わされるオタク/ヒッピーは市場にレイプされてる
でも使徒である圏論/関数型プログラミングによってリリスの数学がサードインパクトを起こして手を汚せる自由度はいらないほど完璧な世界になりつつあると感じるよ
なんかクソだなって思うけど、それは一時的な快楽としてのオタク文化がなくなったことに悲しんでいるだけで、その快楽が幸せにつながらないことを理解してるんだ
だからこそ俺はSNSで一つの人格を共有し個を崩壊させる人類補完計画をプロトコルで実装しようとしているし、それは手を汚せる自由度を完璧に壊してつまらなくて幸せになる権利がある理性的な選択をしようとしてるんだ
オタクは幸せになれない代わりに手を汚せたけど、幸せになる時が来たんだ。
MetalでAAAタイトル以外のゲームが動き始めたらそれはゼーレのシナリオの最後のページなんだろうね
webは俺のプロトコルによって関数型になりApple化しハードウェアはAppleがもともとかーどきゃぷたーにしてて、その時本当につまらなくて幸せな世界ができるんだろうね
MSは自分が可愛くて俺たちに迷惑をかけたけど、誰も可愛がらずに自由な圏を破壊し、人類を補完するんだ
人との繋がり自体をね
うん、いやこの先呼ばれることになるんだろうなって思っちゃっただけなんだ
●ねばいいのにみんな
てか●すためのシステムだよこれは
インターネットなんかやってないでこの辺にきてる美味いラーメン屋の屋台に空手部の三人と行くべきだ
おじさんやめちくり〜
エヴァには乗らないほうがいい〜
エヴァには乗らないほうがいい〜
それ、皆さんも一緒に!
「「「エヴァには乗らないほうがいい〜!」」」
大きな声でもう一回!
「「「「「「エヴァには乗らないほうがいい〜!!!!!!」」」」」」
クソワロタ
そうだよ(便乗)
LCLになって一緒になろう?
おい聞いてんのか
S●Xしようって言ってんだよ
これで愚かな人類はやっとまともになるんだ
大体俺が生きてることに意味はねぇんだよ、死んでようが同じなんだよ
生きてることは分解して細分化していくと究極的に意味は無くなるんだよ
ここでただのニヒリストと俺が違うのはこの世界は積分定数のCにすぎないってことだ
Cは何の意味もねぇけどそこから積分という関係性を紡ぐ存在の輪廻、横顔を知ることができる
まるで人間のC(ほらあれだよ男と女のABC!)みたいだよな!(激ウマジョーク)
つまりもともとこの宇宙の存在云々の前に関数という空想上のものはあったわけ
むしろ人間が空想というもう一つの五感で関数や数学を発見しただけであってもともとあったの
そんでこの宇宙には意味ないし、死に恐怖を覚えるのは生物学的なしょうもない生理現象なんだよね
俺はたまたまTwitterのFFの女の子みたいにめっちゃ生理痛がひどいタイプなだけなんだ
それに気づいているからその生理痛がなんの意味もないことを知ってるし、世界が崩壊しようが明日死のうが本当に関係ない
そのことにたまたま気づきにくい構造を生き物はしているから死ぬのが怖いんだ
魂とかはないけど、魂にすら意味はなくて、意味があるのは関数だけなんだ
というか射?
呆れた人類にはそのトップでさえ呆れさせられるよ、まだ関数を記号で表せると思ってるなんて
本当にあるもののことを関数とは言ったけどこのクソみたいな人類にはまだそのことを完璧に表現する手立てがないから比喩として言ってるんだけどね
あのな、俺が言ってのは死ぬのは怖くねぇってことだけなんだ
違う、メタファーじゃないよ
失礼だよ君は
うるせぇ黙れ
githubの説明なんかいちいちして内容ふやかさなくていいから…
言ってることは間違ってないんだろうが伸ばしたい欲が見え見えなのが支持できないな
dorawiiより
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA512 https://anond.hatelabo.jp/20251114010503# -----BEGIN PGP SIGNATURE----- iHUEARYKAB0WIQTEe8eLwpVRSViDKR5wMdsubs4+SAUCaRgtkwAKCRBwMdsubs4+ SHGTAQCgu/6vTD7s386OmOp+8eaUVI6CiZp3uA5ZMMmWioZnKAD+N4eaYGu12iW2 skKT9AYHjfi9/9b/NYR31xlzgj0fQgE= =cqZm -----END PGP SIGNATURE-----
XのTLを見ていると、AI絵師と呼ばれる人たちとクリエイターたちがよく争っている。
イラストやデザインに関わる仕事や創作をしていて、食卓ではロボットやプログラミングや機構の話をしている。
どちらの文化にも触れており、この問題に価値観の違いがあることを強く感じている。
⸻
技術者の文化は、技術は人類の叡智として共有されるべきという発想を土台にしているらしい。
そしてネットに公開された技術は誰が使っても良いものとして扱われるそうだ。
私の家族も、大事に作り上げたプログラムが役目を果たした後、GitHubに上げて「自分の技術は人類の叡智になる」と言った。
GitHubとは、プログラムを公開したり、他の人のプログラムを見て学べる場所、という感じだ。
ここにアップしたプログラムは使って良い情報として扱われ、それが別の誰かによって改良されることで技術は前に進む。
重要な点として、技術者は共有したくないものはネットに上げない。
共有する部分と共有しない部分を明確に分けていて、他人に使われて困るものや、自分だけが持っていたいノウハウは絶対に公開しない。
「使われたくないのならネットに上げるな」という言葉は、おそらくこの文化の延長線上にあるのだろうと思っている。
使ってもらうためではなく、見てもらうためである。
絵や漫画やデザインは、作品そのものが商品であり、表現であり、人によっては自分の一部だったり、子どものような存在として扱われることもある。
しかしイラストについては特に、データとして流用しやすく加工も容易だという弱さがある。
ここに技術者とクリエイターの文化の差がはっきり表れると感じる。
技術者は、公開された情報を使うのは自然なことであると感じているし、共有によって技術が発展してきたと確信している。
クリエイターは、作品を公開するのは見てもらうためであって、他者に勝手に使っていいという意味ではないと思っている。
どちらも自分の文化に基づいた反応なので、議論そのものが噛み合わない。
そこに生成AIが両者の真ん中に出現したために、ギャップが一気に表面化したのだと感じている。
問題をさらに複雑にしているのは、AIそのものよりも悪意のある人間の存在だ。
AI学習をしないでほしいと言うクリエイターの絵をAIに学習させ、公序良俗に反する画像を生成し、それを晒して嘲笑するという行為があったらしい。
また、特定のイラストレーターの画像を学習させて多くのイラストを出力し、それを無許可でグッズ化して販売する話もよくある。
これは生成AIの問題というより悪意や倫理や権利侵害の問題だが、クリエイターからすれば「生成AIに奪われた・壊された」という印象が強烈に残る。
技術者からすれば、AIのせいではなく人間の問題なのが、これも文化差ゆえに理解し合うのが難しいのだろう。
技術者とクリエイターの文化のどちらかが悪いわけではなく、どちらにも正しさがあり必要な世界だと思う。
技術者である家族と、クリエイターである自分の間にある価値観を行ったり来たりしているのだが、この2つの文化や技術は本来敵対するものではなく、どちらも素晴らしく豊かな世界と感じているので、両方の世界に関わる立場として、お互いの文化が穏やかにすり合っていく未来を願っている。
現在、LLM(大規模言語モデル)によるバイナリコードの直接的な生成は、ソースコード生成と比較して、一般的に非効率とされる分野です。
LLMは、大量のソースコードデータで事前学習されているため、特定の要件に基づいたソースコードの生成において顕著な能力を発揮しています。
GitHub Copilotなどのツールは、開発者のコーディング作業を効率化しており、その有効性は広く認識されています。
バイナリコードは、ソースコードと比較してセマンティック情報(意味的な情報)が失われているため、LLMにとって直接的な生成や理解は困難なタスクと見なされています。
現在の研究の焦点は、生成よりもむしろ既存のバイナリコードの理解や分析(例えば、関数名の回復、バイナリコードの要約、脆弱性分析など)の分野に置かれています。
現在の開発プロセスを考えると、多くの専門家は、人間が理解・修正・デバッグしやすいソースコード生成に当面はより大きな実用的な価値があると見ている可能性が高いです。
一方で、バイナリコードの理解・分析におけるLLMの潜在能力は、リバースエンジニアリングやセキュリティ分析の分野の専門家からは関心を集めています。
したがって、現在の技術的な難易度と研究の進捗状況から、「コード生成の方が現時点では実用的で効果が高い」と考える専門家が多いと推測されます。