はてなキーワード: クローラーとは
Blueskyにアップロードしたデータは、GoogleやOpenAIやBaiduや様々な会社のAI学習に利用されている可能性が高いよって話。
検索エンジンやAIのクローラー、ボットによるデータの収集や学習を拒否する方法としてrobots.txtを使うのが一般的で、AI学習データ収集ロボットもそれに従っています。
AI開発会社はそれぞれbotの名前や、どのようにrobots.txtを設定したらデータ収集をしないかを公開しています。
User-Agent: *
Allow: /
https://bsky.social/robots.txt
実際にはサーバー負荷対策のため、ある程度の速度制限がありますがコンテンツの取得に制限はありません。
# Every bot that might possibly read and respect this file
# ========================================================
User-agent: *
Disallow: /
一部の検索エンジンには限定してデータ収集を許可をしています。(詳細は長いので省略。自分で確認してください)
Blueskyは他社AIボットによるデータ収集を許可しています。
BlueskyにアップロードしたデータはOpenAIやGoogleやBaiduなど様々な会社のAIロボットにデータを収集され、AI学習開発に利用される可能性が高いです。
もしも自分がAI学習に反対の立場なら、どのAIに使われるか不明なBlueskyの方が不安だと思うんだけど。
世の中はそうなってなさそうで不思議。
AI使ってますか?Xで翻訳ボタン押すと海外のポストでも日本語で読めるの便利ですよね。
機械学習から連綿と続いた先にある生成AIの隆盛、大変エモいものがあります。
自分はまだニューラルネットワークと呼ばれていたころからこの分野で細々と研究をしており、趣味は主に写真です。絵はたしなむ程度。
今の反AI運動は、誰に対して何を反対しているのか良くわからなくなってしまっているので、正しく反対するのが良いと思っています。
結論から、なぜそうなるのか、どうしたら良いのかと整理しておきます。
(Xの利用規約がいつ変更され、どのように利用されるかについては、他の方の記事に詳しいため略します)
たいていの場合、人間が利用可否を判断できる程度には高解像度な写真と、ストックフォト社のロゴ、撮影者の名前、管理IDが入っています。
もちろん商業印刷に使える高解像度は購入後にしか手にすることはできません。ただサンプル画像ですが、機械学習用途では十分です。
ロゴなどを取り除くのは難しくありませんし、学習用途では十分なイメージサイズがあり、機械学習に十分使えます。
しかし、実際にはそういった事例は見聞きしません。(個人で学習されている方もほぼいないでしょう)
なぜならば、もしも利用が発覚した場合に使用料を請求されるからです。
同様に、無償の用途であっても、例えば軍用機や戦車など、IDやサインを写真に入れる方は少なくありません。
これは、端的にはパクられた時に自分の写真だと主張する為です。
現行法下では、いわゆる"無断学習"を止めることはできません。
機械的に大量の学習が行われるのが問題であるという論建ても見聞きしますが、あまり良い筋論とは思えません。
なぜならば、少ない学習量で良い結果を出すというのは、機械学習的にはかなり昔から熱心に研究されているテーマだからです。
(例えばコンピュータ将棋に新風を吹き込んだBonanzaは、たった6万局の棋譜を学習させることで評価関数を作成しています)
実用的にも、事前に学習させたモデルを準備しておき、少ないサンプル画像(数枚~数百枚)で、不良品検査に使えるモデルを作成する、などは熱心に行われています。
現状でも、対象となる絵を人間が模写して、模写側を学習させるだけで、十分に元画像に近似した画像を出力できます。
人間が目で見て判別できる程度のノイズやウォーターマークは、前述の通り除去にさほど手間はかかりません。
Xを利用する以上、利用規約に同意しなければ使えないので、これについて学習を防ぐことはできません。(非公開ポストについては学習されませんが、これもXの利用規約変更が無いことが前提です)
例えばpixivは機械的な画像収集がガイドラインで禁止されています。また、画風を模倣した作品の投稿についても一定の制限のもとで禁止されています。
対価を取る旨の明記とは、例えばpixivFANBOXのメンバー限定コンテンツを、無断で転載されてしまった場合、損害を負ったと外部に対して明確に説明が出来ます。
これらを行ったうえで、故意に学習され、似た作風の生成AI画像を公開されるという嫌がらせを受けた場合は、上記の旨を前提として、嫌がらせであると都度対応する必要があります。
これは知らなかった、うっかりしていたでは起こりえない状態にしたうえで、きちんと嫌がらせに向き合うということです。
生成AI画像をそもそも見たくない、というものは、現行では防ぎようが無く、どちらかというとロビー活動に近いものになります。
こいつは画像生成AIで絵を出力している!というのは、指摘として正しいか否かは別として、あまり意味をなしません。
ただ、自分の趣味である写真でも、いわゆる加工をどこまで許容するかは人やコンテストによって異なる為、そういった住み分けの話になってくると思っています。
例えば、ある画家が自分の画風を学習させた生成AI画像を出力して販売したとしても、それを咎める理由は思い当たりません。
現状でもまだ過渡期であり、人間の目で判別不能な画像を出力するようになるのは、時間の問題です。(既に人間が書いた絵であっても生成AI絵だと誤認される事例は数多くあり、指摘できる人間の数は減っていきます)
どちらかと言えば、作画過程のタイムラプス動画に価値を見出すような、違った付加価値の話になってくると思います。
生成AI画像技術を禁止する、学習を禁止するなどは、現行法下ではできません。
法改正もしくは法解釈の変更が必要なためロビー活動を行うしかありません。
しかし、自分の絵を商用利用を禁止し、それを許容するプラットフォームで発表することはできます。
Xでは非公開ポストにしない限り、機械学習に利用されることを防ぐことはできません。利用規約で既に利用が可能になっているからです。
露悪的に言えば、Xを利用するのに学習されたくないのは虫が良い、と言えます。ただし、Xに対して一定の金額を払うことで対象から除外してもらうように働きかけることはできるかもしれません。
ウォーターマークやサイン、ノイズを機械学習を防ぐ目的に使う効果はとても薄いです。ロゴやウォーターマークの除去もテーマとしては昔からあるものであり、難易度はそれほど難しくありません。
ただし、意図して除去していることは明確になるので(Xには規約で学習されてしまうが)X以外の例えば悪意ある第三者に学習された場合に、悪意ある行動だ、と指摘することが出来ます。
この場合、対価を取って公開している場合、損害が明確になるので、アクションを取りやすくなります。
X社に学習されるのは諦めて、小さくても良いのでトリミングで取り除かれない位置にサインを入れてポストするのが最もベターです。ウォーターマークである必要はありません。
(取り除かれて転載された場合、タイムスタンプを基に悪意ある転載だと指摘できるため。逆に言えば別に大きくいれてもさして違いは無いので自分の好みで入れれば良い)
また、自分の画風のAIモデルを開発中である、これの対価はAI陣営には買えないくらいとても高い、とプロフィールに書くだけでも十分抑止になります。
生成AIに反対する為に、自分でAIモデルを作り高額で販売するつもりである、と表明すれば良いからです。
嫌がらせで自分の画風を真似たモデルが作られて販売もしくはそれを使った出力画像が出た際に、自分は損害を負ったと主張できます。
また、第三者のゲームのスクリーンショットに勝手に透かしやサインを入れるのは止めましょう。適切なガイドラインのもとで適切に利用するのが最も大切です。
既に法律でも、利用規約でも、生成AIや機械学習側がリードしている状態です。
Xが学習するというのを妨げるのは、プラットフォームを利用する側としてはどちらかと言えば非難される側になってしまいます。(規約にあり、利用しており、それでいて相手を妨害する為)
イラスト界隈で活動して6年目になる俺が、反AIがここまで隆盛した理由を自分なりに整理してみた。
これは生成AIが出る前から思っていたことだが、とにかく特権意識が強い。
主にフォロワー・いいね数を基準として、人気がある方が偉いという価値観の下で生きているから、
人気のある絵師がそうでない絵師のキャラクターや構図をパクるのはお咎めなしだが、
逆をやると即学級会からの良くて追放、悪くて活動停止まで追い込まれてた。
俺は面倒に巻き込まれたくなくてそれとなくフォロワーが多い方に追従してたけど、
「イラストを描ける自分は偉い・優れている」と思ってないとこんな傲慢な振る舞いはできないと思うんだけど、
今回の騒動はそれを露わにしただけなんだと思う。元々、絵師以外はバカにして当然みたいな空気もあったし。
今、無断学習が「因習」って呼ばれてるのはかなり正確な表現で、
実際に絵師界隈は村文化というか、悪い田舎の性質を凝縮したようになっている。
他人の一挙手一投足に注目して、村の掟に従わない人間がいたらすぐに吊るす。
村の外のルールなんてものは関係なくて、自分たちの決めたルールが絶対。
こんなんだから外部の人間に理解されるわけはないし、なんなら界隈内の一部の人間からも忌避されていた。
外から見たらおかしいのは一目瞭然だが、どうも絵師様は違うらしい。
正直、これが一番問題だと思う。これがなければ前の二つは成立しないか、してもすぐ瓦解するんじゃないかな。
とにかく他人の意見を鵜呑みにするからバカみたいなカースト制度にも従うし、
これがおかしいと気づける人間は界隈からいなくなるから、自然と「そういう」人間だけが残る。
誰かが「AIは悪だ!」と叫んだのに追従して"無断学習"などという存在しない概念を生み出し、
自分の絵が学習されたら死んでしまうくらいの勢いでAIを弾圧している。
現状の生成AIに全く問題がないなんてことはないが、奴らは具体的な問題点を論じるわけでもなく、
ただ判を押したように「AIは悪だ!AIを規制しろ!」としか言わない。
今流行っているウォーターマークとかglazeとかも、見てる側からしたらただのノイズでしかないから消してほしい。
村の教えではAIを滅することができることになっているかもしれないが、実際はそんなことないんだ。ただ絵をぐちゃぐちゃにしているだけなんだ。
SNSを移動したら学習されないなんてことはないんだ。どこに行ってもクローラーがいるし、何なら外部のクローラーを弾いてるXは親切なくらいだ。
思考を放棄して被害妄想に憑りつかれるままに大暴れするさまは、滑稽を通り越して憐れでさえある。
結局のところ、反AIをやっているのは絵師様(笑)しかおらず、
そうでない人は生成AIを快く思っていなくても妥当な落としどころを探るための建設的な議論を進めようとしているだろう。
実際、俺の周囲にも何人かそういうスタンスの人はいる。そういう人は(少なくとも俺の周囲は)自分で調べて自分で考えることができている。
画像を生成するAIによる無断学習や利用を防ぐために、以下のような対抗手段を講じることが可能です。
1.透かし(ウォーターマーク)の埋め込み:
画像に目に見えるまたは見えない透かしを入れることで、無断利用や生成AIの学習に対して抑止効果を期待できます。特に、目に見えない形で画像データに暗号的な透かしを埋め込む「デジタル透かし」技術が有効です。
画像データに著作権情報や「AIによる無断学習を禁止する」といったメタデータを埋め込み、ウェブサイトには robots.txt ファイルで画像クローラーのアクセスをブロックする設定を追加します。これにより、クローリングや収集の抑制が期待できます。
ステガノグラフィを用いて、画像に気づかれにくい形で識別情報を隠すこともできます。これにより、画像の流出経路や利用先を追跡でき、無断利用の発見に役立てることができます。
4.法的な警告表示や利用ポリシーの明示:
ウェブサイトや画像の配布先に、AIによる無断利用や学習を禁止する旨の法的警告や利用ポリシーを明示することも有効です。利用条件をはっきりと示すことで、AI企業や研究者が慎重になる可能性が高まります。
AIが利用しにくいように、画像に人間には気づきにくいパターンやノイズを挿入する技術もあります。たとえば、AIにはノイズとして認識されるが、人間には問題なく見える小さな変形やカラーパターンを追加することで、AIによるデータ学習が困難になる場合があります。
生成AIの学習を混乱させるための手段には、以下のような方法が考えられます。
1.ノイズや歪みの追加:
画像に目立たない程度のノイズや歪みを加えることで、アノテーションモデルが境界や特徴を正確に認識しにくくする手法です。たとえば、ピクセルレベルでランダムなノイズを追加する、わずかに画像をぼかす、あるいは境界線付近に小さな変化を加えるといった手法が有効です。
アノテーション処理は、対象物の輪郭や特徴を正確に捉えることが重要です。そのため、背景や対象物の輪郭にわずかな不規則性を加えることで、アノテーションツールが対象物の境界を正確に判断しにくくすることができます。たとえば、背景に模様や偽の輪郭を挿入する方法です。
画像に人間には視認しづらい形でテキストやラベルを埋め込むと、AIのアノテーションプロセスが混乱する場合があります。これにより、AIが意図しない領域を注視することがあり、誤認識を誘発します。
4.色や明るさのランダム変化:
画像の色や明るさを部分的に変化させ、一定のパターンを持たないようにすることもアノテーション処理の混乱を招く一手です。これは、オブジェクトの検出や認識が色や明暗の差異に依存している場合に有効です。
5.擬似的なオブジェクトの追加:
画像内に小さな擬似的なオブジェクトや模様を追加することで、AIがそれらを誤って主要なオブジェクトと認識し、アノテーション精度が低下する可能性があります。特に、背景に似たオブジェクトを散りばめることで、AIはどの部分が対象なのか判断しにくくなります。
AIの認識を誤らせるために用いられる「アドバーサリアル(敵対的)な例」を使う方法もあります。特定のピクセルパターンや色の配列を配置することで、AIのアノテーションが意図的に誤作動するよう誘導できます。この技術は深層学習モデルに対して特に効果があります。
画像全体にわずかなカモフラージュパターンを重ねることで、AIの認識を混乱させる方法です。この手法では、人間が見た場合には問題なく認識できるものの、AIが対象を捉える際に誤って検出するようなパターンを画像に追加します。
・思考実験として、danbooruなどアノテーションの元データとして使われているサイトのタグが荒られたら画像生成AIのモデル作成にダメージはありますか?
思考実験として、Danbooruといったアノテーション元データのタグが荒らされた場合、画像生成AIのモデル作成に与える影響は以下の通りです。
Danbooruは、イラストや画像に対して詳細なタグが付与されており、これらのタグ情報は画像生成AIの学習にとって非常に重要です。タグが荒らされることで、画像とタグの対応関係が崩れ、モデルが正確な特徴を捉えにくくなるため、生成精度が低下します。
例えば、特定のキャラクターやテーマに関連するタグが荒らされ、誤った内容のタグが付与されると、モデルはその誤った情報を学習し、キャラクターの特徴や設定が再現されにくくなる可能性があります。
タグが荒らされると、モデルの訓練にノイズデータが増えるため、学習効率が悪化します。たとえば、「黒髪」のタグが誤って「金髪」などに変更された場合、モデルは同じ画像に対して異なる特徴を学習することになり、結果として生成画像の一貫性が失われることが考えられます。
また、同じ画像に異なるタグが付与されることで、モデルが過学習や誤学習を引き起こし、生成された画像が本来の意図からかけ離れたものになる可能性もあります。
Danbooruでは、特定のキャラクターやアートスタイルを識別するタグが多く存在します。これらが荒らされると、特定のキャラクターやスタイルのデータが混乱し、モデルが正確にキャラクターの特徴を把握できなくなるため、ユーザーが期待する生成結果が得られにくくなります。
例えば、あるキャラクターのタグが「髪型」「服装」「色彩」などで荒らされると、そのキャラクターの再現が曖昧になり、モデルが正しいビジュアルを生成できなくなることがあります。
タグが荒らされると、データセット全体の信頼性が低下します。信頼性の低いデータをもとに学習したモデルは、特定の条件で異常な出力を生成することが多くなり、モデル全体の品質が低下します。これは、生成AIが学習中に「どの情報を信頼すべきか」を判断できなくなるため、生成結果が不安定になったり、多様性が失われたりすることが考えられます。
AIモデルを利用するユーザーは、タグを通じて希望する画像を生成したり、条件に合った画像を探します。タグが荒らされると、AIモデルの検索・フィルタリング機能の精度も低下し、生成プロンプトが期待通りに機能しなくなる可能性があります。たとえば、「風景」タグが荒らされ、異なるジャンルの画像が混入するようになると、風景画像を生成したいユーザーの要求が満たされにくくなります。
Danbooruなどのタグが大規模に荒らされた場合、生成AIモデルの精度低下や一貫性の欠如が発生しやすくなり、特にキャラクターや特定のスタイルに依存する画像生成モデルに大きなダメージを与える可能性が高いです。
すでに学習済みのモデルを使って汚染されたデータのクレンジングや異常値検出を行うなど対策される可能性がありますが、それらを阻害する手段はありますか?
無断での学習を妨害し、学習コストを増加させるために、上記の方法を阻害する手法には以下のようなアイデアがあります。これらの手法は、意図的にデータセットの品質や一貫性を崩すことで、学習モデルの精度を低下させ、データクレンジングや異常値検出のプロセスを複雑化することが目的です。
意図的に誤ったタグや無関係なタグを画像データに付与し、データセットの信頼性を低下させます。これにより、転移学習やラベルノイズ検出が困難になり、正確な特徴量を学習するコストが増加します。
例えば、キャラクター画像に全く無関係なタグ(「動物」や「風景」など)を追加することで、モデルがどのタグが信頼できるか判別しにくくなり、誤ったラベルがノイズとして学習されるリスクが増えます。
2. 特徴量をぼかす/微妙な変更を加える
特徴量ベースのクレンジングや類似度分析に影響を与えるため、画像の特徴がわずかに異なるように加工を施します。具体的には、色調を微妙に変える、ランダムなピクセルの位置でノイズを追加する、または特定の部位を意図的にぼかすことで、モデルが抽出する特徴量の安定性を低下させます。
この方法により、同じキャラクターやスタイルであっても類似度分析が困難になり、正確なクレンジングが行いにくくなるため、データ処理のコストが増加します。
特徴が異なるバリエーションや擬似的な異常データを大量に追加することで、異常検出アルゴリズムの信頼性を下げます。たとえば、キャラクターのデザインや背景を少しずつ変えた画像を意図的に作成することで、異常値検出が頻繁に誤検出されるようにします。
こうしたデータが混在することで、オートエンコーダーやアンサンブルモデルを使った異常検出が混乱し、正確な異常サンプルの抽出が困難になります。
4. 高頻度で微小なラベル変更を行う
学習済みモデルの転移学習やラベルノイズ検出を阻害するために、同じ画像に対してラベルを定期的に変える手法です。微小な変更を行うことで、モデルは正しいラベルを安定的に学習することが難しくなり、モデルの信頼性が低下します。
例えば、ラベル「黒髪」を「暗めの髪」や「濃い色の髪」などに頻繁に切り替えることで、学習に不確実性を持ち込むことが可能です。
データセット内で非常に類似した画像を複数の異なるタグで登録することで、モデルの学習を混乱させます。特定のキャラクター画像を少しずつ変化させて複数のタグを付けると、モデルは「どのタグがどの特徴に対応しているのか」を判別しにくくなり、データセットのクレンジングが複雑化します。
特に、タグの一貫性が失われるため、類似度分析やアンサンブルモデルによる異常検出の効果を低下させることが期待できます。
AIモデルが認識を混乱させるように、アドバーサリアルノイズ(敵対的な例)を追加します。人間にはほとんど気づかれないレベルのノイズを画像に追加し、モデルが特定の特徴を正確に認識できないようにすることができます。
このノイズにより、モデルの特徴量ベースの学習が混乱し、意図した通りに学習できないため、クレンジングの精度も低下し、データ処理の手間が増加します。
特定のルールではなくランダムにタグをつけたり、特定のカテゴリ間でランダムにラベルを入れ替える方法です。これにより、ラベルと画像の関連性が薄れ、アノテーションの一貫性が失われます。この乱数による偽ラベルの付与は、ラベルノイズ検出やアノマリー検出において、真のラベルを見極めるコストを大幅に増加させます。
まとめ
これらの手法は、AIの学習やクレンジングを意図的に妨害し、無断学習にかかるコストを増加させるために有効です。特に、「微小な変更」や「アドバーサリアルノイズの付与」といった手法は、見た目の品質に影響を与えずにモデルにノイズを持ち込むため、非常に効果的です。
なんでもかんでもhello worldと表示させるプログラムで入門させようとするのやめろ
こっちはウェブアプリ(クローラー等)をどうすれば自鯖以外で常時稼働させられるか知りたいのに、hello worldと表示できました、じゃその方法で一度実行したら継続して稼働するのか分からないじゃん。
google app engineやxserverでのjavaの実行の記事が軒並みそういう内容だから途方に暮れてる
・robots.txtなどでWebクローラーに避けてもらう
・パスワード付きページなので条件が揃わないと外部からアクセスできないようにする
・画像全体に "ウォーターマーク” を掛けてそのまま利用できないようにする
・画像全体を変色させる加工を施して学習素材として利用させにくくする (GlazeやNightshadeなど)
・スクレイピング対象から避けやすくするため長辺を256px未満にする←New!
上2つのように「自由には触れさせない」作戦はまあいいとして、それ以外は多かれ少なかれ画像を劣化させる方向にばかり頭を使っている印象。
仮にそれで機械学習の対象から外されたとしても、自らの子と言っても過言じゃないイラストの「劣化版」を出して憚らない、ってのは端から見ていて辛い。
=====
そう言えば、コピープロテクトのせいで正規ユーザーが被害を被る、って話は昔からあったね。
CDのリッピングは容易で法的にもセーフだけど、そのせいでCCCDとかいう特級呪物が産まれたし。
ただ、正規ユーザーが被害を受けない限りにおいては、コピープロテクトなどの防衛策で予見される金銭的損害を講じるのは正当だと思う。画像の素材集や映画などにウォーターマークが乗ってたりするのはこのパターン。
でも、無償公開分……収益は考慮しない趣味絵のようなものにまでウォーターマークを適用するのは (正規ユーザーも被害を受けるので) よろしくない。
逆に、Skebはなぜ (依頼した人に渡す分じゃなくて) ネット公開する分の画像にウォーターマークやGlazeなどを施さないのか。処理コストを嫌がっているのか、中の人がその手の技術を好きじゃないのか。
反AIが無学(高卒オタクマン)な上に人の忠告を聞かないせいで、実在しない問題、恐怖を内輪で膨らませてた例が最近無茶苦茶多いので備忘録的にリスト。
実際は、1000枚に522回分(1枚には0.522回分)と書いてあったのを、英語も読めないのに機械翻訳(AI…😂)で無理矢理引用して誤読。
そもそもスマホの電池容量は約20Whほど。522回分では10kWhになる。電気代で言えば卸値でも100円はする。1枚にそんなにかかっていたら商売が成り立たないとも気づかない頭の悪さ(一部は「だからこそ誰かが金を出してる陰謀なんだ」とか訳のわからないことまで言い出す始末)。
英語力、計算力、金銭感覚のなさ、そして無意識にAI翻訳を頼るという馬鹿に馬鹿を重ねる失態。
普通の英語力があれば解るが、名詞の複数形にsomeがつく場合とそうでない場合では大分訳し方が違う。
「もともとクリエイティブと呼べないほどの仕事もあった」という程度の言葉を「すべてのクリエイターに対する挑戦」のようにねじ曲げ拡散するのは政治的な行いなのか、単なる狂気なのか。
そもそも「学習対策」は無作為のクローラー対策のためにネットにアップする画像に施すものであり、copainterなどの自分で下絵をアップロードするi2iサービスには何の効果もない(というより、もはや何を狙っているのかも不明)のに(詳細は→ https://anond.hatelabo.jp/20240626081537)、イラストに猫の画像を埋め込んで「上手く生成できない画像はこうだ」とか、現在進行形で盛り上がってる。
あいつらの脳内ではこの自分勝手な被害妄想?(というより、ry)で意味不明な発狂を起こしていることすら「AIのせいでクリエイターが先の見えない対策に追われている」と変換されているのがなお凄い。
その「対策」に何の先も見えないのは、AIが凄いからじゃなくて、お前らが自分で何をやっているのかが解ってないからだw
AIを怖がるにしても、せめて最低限の仕組みぐらいは理解してから、仕組み的にありえることを怖がれw
別にいいけどそもそもクローラーとかそんな大した仕事ではないし
普通は一から作るというのは大規模なサービスを一から書き直すような時に使うわけよ
いちいちスクラッチとかフルスクラッチとかいう話ではないんだよね
何人月?って話で
いやフレームワークも使わないで素のPythonでファイルサーバーにファイルをあげるクローラーをマイクロサービスって言う人君しかいないよ
真昼間に書いてんのも君だし
もう分断を煽るのはやめませんか
現在混乱を招いている要因は、おそらく以下の二つ
AI利用に向けて改正されたとされる著作権法30条の4は AIならなんでも許されるというわけではない。以下のように条件がついている。
著作物は,次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には,その必要と認められる限度において,いずれの方法によるかを問わず,利用することができる。ただし,当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は,この限りでない。
この辺りの解釈について紛糾している様子。
同30条の 4 は平成30年当時、事業者や研究者によるAI利用を想定していた。現在では一般市民にAIが広く普及し状況が変わってきたことから、同条の適応範囲について再整理を図るという趣旨で公開されたのが「AIと著作権に関する考え方について(素案)」
そして素案に対するパブリックコメントを募集した、というのが現在の流れ。
たぶん、CLIPのこと。テキストと画像の翻訳を行う。犬の画像を見て「犬」と識別することができる。
ネット上のあらゆる画像とテキストを学習することで作られた。OpenAIによって公開。画像生成だけではなくいろんなところに使われている。
画像生成AIはテキストエンコーダ(CLIP)と画像生成器の組み合わせでできている。stable diffusion等は拡散モデルを使っている。
1. イラストを用意する
学習を繰り返しノイズを増やしていくと最後はただのノイズから画像を出力する 連想ゲーム絵師が誕生する。連想ゲーム絵師は連想しかできないので自分が描いたものが何かわからない。犬を描いてといっても車を描いてくる。なので CLIPが誘導したりダメ出ししたりする。
どこかのイラストサイトかデータベースを使っているはず。「著作権的に安全な〜」みたいな触れ込みのやつはどこかのデータベースを購入して使っているんだと思う。
Pixivの主張は別におかしくない。このあたりは「AIと著作権に関する考え方について(素案)p7」(エ)において解説されている。"robot.txt"への記述によりAI学習を行うクローラーのアクセスを制限しているにも関わらず、勝手に学習に使うことは「データベースの著作物の潜在的販路を阻害する行為」として著作権違反になる(Pixivが将来的に本当に販売するかどうかは置いておく)
追加学習(LoRA)のこと。
既存のモデルに数枚のイラストを追加学習させることで絵柄を模倣(ファインチューニング)する。
特定の絵師さんのイラストを勝手に使う者がいるようでトラブルになっている。
絵柄に著作権はない。学習の際に行われる複製が著作権侵害にあたるかどうかが争点になっている。
著作権法30条の4 より
この辺りは「AIと著作権に関する考え方について(素案)」及びパブコメの返答に現状の解釈が示されているので興味のある方はどうぞ。
(p6. 特定のクリエイターの著作物のみを用いてファインチューニングを行う場合〜を参照)
※ここははっきりとは断定していないので自分で読んだ方が良いと思う。
(私の読解:)
程度問題ぽい。よくある画風なら問題にならないけれどはっきりと特定絵師さんとわかる感じだとダメそうですね
(私の読解終わり)
別にプロフィールなんて「トイレから出たら手を洗ってください」でも「フォローする際には五体投地してください」でも好きに書いてよいだろう。
それが法律に記されているかどうかは関係ない。ただのお願いだ。
「AI学習禁止」と書くなと騒いでいる人は何を考えているのかよくわからん。
「AIと著作権に関する考え方について(素案)」にも再三出てくるがAI学習を技術的に回避することは禁止していない。30条の4は権利の制限であって、イラストを差し出せという強制ではない。
見ればわかりますが個人よりも一般企業による意見が多く、返答とあわせてとても読み応えのあるものです。
このファイルを読んで個人の頭の悪そうな意見だけ抜粋してくるのは非常に違和感があります。
分散型SNSに搭載されている削除ボタンは基本的には「自分のいるサーバーからは消せるけど、他のサーバーにはあくまでもお願いしかできない」仕様なので繋がっているサーバーの管理者や設定次第では永遠に消したい投稿が残り続ける。
第三者が悪意のあるなしに関わらず無断で個人情報を拡散した場合や、自分が間違えて個人情報を投稿してしまった時など、比較的簡単に情報が海外のサーバーにも渡ってしまい日本国内の法律では対応しきれなくなる。
大抵の場合は消してもらえるとは思うが、最悪の場合、日本国内のサーバーからは消せても外国のサーバーには残っており、その国には関連法がないため法に訴えて消してもらうこともできず、日本国内からは簡単に閲覧が可能...という状況も想定される。
長々と語っているが、要はサーバー管理者は悪意がなくても犯罪に加担してしまう可能性があるということと、情報へのアクセスのしやすさが違う。
既に誹謗中傷界隈(?)の人間が「言論の自由だ!Xアカウントが凍結された!検閲だ!」と分散型SNSに移動してるのをちょくちょく見るのが不穏。
基本的にサーバーの運営にはお金がいるのでサーバー管理者はマネタイズに追われるが、Xは広告のみでもあの有様だし、現に資金繰りがうまくいかず閉鎖したサーバーも見てきたし、そのうち(サーバー代関係なく、モラルのない人が)金儲けにと違法薬物の広告などを出し始めるのも想像に難くない。
ご存知の通り、日本はポルノに関する規制が異常にゆるい。児童ポルノに関してもそう。
故に、感覚の麻痺しきった日本では普通だと思われる児童ポルノ系の絵柄が多く投稿されるサーバーやアカウントはは諸外国のサーバーからは切断や凍結されることが多く、代表で言えばPawooがそれ。
場合によってはキャッシュが残っているだけで捕まる国もあるので当たり前なのだが、これを逆手に取り、いつぞやのPixivのように児童ポルノや児童売春に関する投稿を大量にされたら、どんなに本人が平和にやっていてもサーバー管理者がお縄になったり諸外国にあるサーバーから連合を切られたり、その上日本人そのものへの風評被害になりかねない。
まあ、日本のキショさチキンレースをやってる表現の自由戦士達は自分も含むみんなの首をじわじわ絞めるのでこんな攻撃をするまでもなく日本のサーバーは切られるんだろうけど.....
日本のIPから諸外国のサーバーへの大量投稿、なんてのがあったらなおヤバいかも。
自分がいるサーバー管理者が生成AI反対派でブロックする技術を導入してくれたとしても、クローラーがいるサーバーに制限がなければ恐らくなんの意味もない。(今後どうにかできる技術が出てくるかもしれないが、恐らくイタチごっこだと思われる)
絵描きさん、VTuberさん、コスプレイヤーさんなんかはAIに使われると大変だと思うのでご留意されたし。
まあ後述の通り、AIに利用されたくなければ全てのSNSで警戒は必要なのだが、やはり自分が悪用する側だとして想像してみると分散型SNSの収集の簡単さにはやはり惹かれるものがある。
完全にはできない。削除と同じであくまでもAIに「使わないでください」とお願いができるだけであって完全な拒否は不可能(これはSNSに限らずインターネット全般)
これは一長一短なのだが、どの分散型SNSもRSS配信を使えがちなのでアカウントを持っていなくても投稿内容を監視できて相手にバレずにネトストがしやすい。
俺はしがないプログラマー。
githubで50スターぐらいのしょぼいコードを置いているが、そんなプロジェクトには何の力も入れていない。プロジェクトと呼ぶのもおこがましいぐらいだ。
仕事ではとあるコンテンツの検索エンジンを作っているが、情報検索、推薦システム、クローラー、そういうのを開発するのもだいぶ慣れたのでなにか新しいことをやりたいなと思っているところだ。
リーナストーバルズが言っていたが、「一つのプロジェクトを30年継続するような、そういう人がこの世界には必要だ」らしい。Linuxという価値あるプロジェクトを持つ人はやはりいうことが違う。
しかし、Linuxレベルの価値のある何かを30年...それ俺にもできるんだろうか?
しかし社会からの需要があり、その需要が30年も続くようなものを、果たして俺程度が作れるのか。
そもそも需要というのはどこから生まれてくるのだろう、と思うことがある。
それは人に対する社会的信用であったり、あるいは偶然的に宣伝がうまく行ったということもある。
俺は日頃から「社会」が俺を評価していないと思うことが多い。そんな状態で、社会のためになる何かを作ることなど可能なのか。
「社会」が、俺のような人間を「弱者男性」といって差別・虐待している状態で、俺は本当に社会のために貢献したいと思えるのだろうか。
一体、弱者男性が作ったどんなプロジェクトであれば人々がサポートしようと思えるのか。
全てが虚しい。
うるさい目覚ましで朝起きる。眠すぎる。二度寝したい。
しかし仕事があるので、こたつの上に置いているPCを起動させ、リモートで出社する。
メール一覧を確認した後、今日のタスクを確認し、今日やろうとしていることを上司に伝える。
ここがポイントなのだが、タスクが完了する日数は多めに見積もっておくとよい。2日で終わるタスクは5日かかると言う。
急ぎのタスクなど俺の会社にはない。急いでたくさんこなしても、給料は上がらない。
そう言いつつ、タスクはできる限り早く終わらせる。
例えば見積もりが5日で、終わらせたのが2日であるなら、3日はサボれるということだ。
あと、できるだけ自動化しておく。クローラーもファイルや統計の生成も、バッチ的に実行するスクリプトも、そういうものはひたすら自動化する。
ではサボっている時に何をしているか。オナニーするのも良いし、コンビニでおやつを買ってくるのも良い。
あるいはオンラインゲームをするとか、増田をやるとか、とにかくやりたいことをダラダラとやっていればよい。
仕事をしていないことを監視する人は誰もいない。結局、やるべき仕事はやっているのだから、俺が間違っているということはない。
そうして仕事の時間が終わったら、テキトーに挨拶して抜ける。100%定時で退社するべきだというのが俺の論だ。急ぎの仕事もないのに、残業代を貰うわけにはいかない。
さて、一日の仕事が終わった。そして俺はオンラインゲームの続きをする。
こういう人生を歩む弱者男性の俺からすると、なぜ世間の人たちがあんなに頑張れるのか、不思議に思ってしまうのだ。