AIイラスト始め方の網羅的案内 2024年版 / だいたい未経験者向け
前書き
🤔これは何
RIZさんという一見AIイラストレーターを装った風来のシレン廃人にそそのかされて作ったちちぷいチャレンジが多数の愉快犯たちにおもちゃにされた結果書かないといけなくなった記事です。
Stable DiffusionやMidjourney、Nijijourney、NovelAIの使い方を詳しく解説した文書は数あれど、ふだんパソコンを使わない一般の人向けまで踏み込んで網羅している解説記事って案外ないかもな?と思ったのもきっかけではある!
書く前からわかってたんだけどボリュームがヤバいので稚拙な表現や抜け漏れ多数だ。公開後もちょくちょく手を加える可能性大だから、もし更新が気になるようであれば筆者のX, Blueskyアカウントをフォローするなり、気が向いた時にこのnoteに戻ってきてくれよな!!
しばらく前提条件を書いておくので、とっとと中身を読みたい人は飛ばしちゃってください。(noteの制約で新しいタブ・ウィンドウが開くはずごめん)
🧐お前は誰
生成AIが一般人の手に届くようになってからひたすら遊んでいる趣味の者。生成AIサービスの中の人でもないし、エンジニアでもない
とにかく界隈が面白いので試せるものを片っ端から試し、情報を追いかけ続けている。薄く広い経験と知識はあるほうだと思う
😎記事の方針
「AIイラストはじめてみたい!でもどこから手を付けていいかわからないよ!」という完全未経験者、または「1-2種類の選択肢をずっと使ってるから他は知らない!他の雰囲気を知っておきたい」と考える経験者、が対象
環境や温度感から逆算するとどんな選択肢があるのか?をなるべく簡潔に伝える。誰もが知ってる有名どころだけでなく、知名度があるとは言えないが一芸に秀でているようなものも選定
黎明期だけに素性が怪しかったりモラルに欠ける振る舞いが目立つ製品・サービスも多い。明らかに人気があっても、この場で取り上げないようにしたものもあるよ
網羅的に紹介するが、詳しい説明には踏み込まない。はっきり言ってどの沼も深すぎる。興味が深まったら自分で試行錯誤するなり、いろんな人がめっちゃステキな解説をnoteやブログやYouTubeに置いてるから探すといいぞ
すべて自分自身で触ったうえで紹介してる。習熟度に応じて説明に濃淡があるけど許して。そしてなるべく俯瞰してるつもりだけど究極的には全部主観や!
🧑🎓分類の方針
そもそも全体像をどうやって説明しようかなぁ……と悩んだ結果として、
各製品・サービスの根幹技術である画像生成AIモデルの種類
求められるパソコン習熟度や最初の一枚を生成するまでのハードルの高さ
の2軸に焦点を当てることにした。詳しくない人の最初の一歩を踏み出すきっかけになって欲しい、という思いと、この界隈が日進月歩どころか時進日歩かよってノリでとにかく変化が激しいので、なるべく普遍的な要因に焦点を当てたいと思ったのだ。
「各製品・サービスの根幹である画像生成AIモデルの種類」は
DALL-E, Firefly, Stable Diffusion, Midjourney, Ideogram
を扱うことにする。ちなみに、それぞれのモデルも日々進化していてバージョンが新しくなると性能もあがるけども、Stable Diffusionに限っては数世代前にあたるSD1.5と呼ばれるモデルが今でも一番人気な可能性が高い、みたいなねじれ現象もある。
「求められるパソコン習熟度や最初の一枚を生成するまでのハードルの高さ」はこんな感じに定義した
パソコン不要、心を決めてから最初の一枚の生成まで数分~数十分、無料から使える
パソコン不要、心を決めてから最初の一枚の生成まで数十分~数時間、有料
パソコンないと利用体験的にちょっとハードル高め、心を決めてから最初の一枚の生成まで数分~数十分
高性能なパソコン必須、心を決めてから最初の一枚の生成まで数時間~数日
では行ってみよう!
1. 画像生成AIモデルの種類紹介
「AIイラストを作成する」と一言でいっても、実はいろんな選択肢があるのだ。日本からアクセスしやすい各種手段に対してなるべく俯瞰的に分類すると、きっとこんな感じになるぞ
日本のAIイラスト界隈で主流となっているもの以外に、世界的な目線での注目や投資マネーの動きも加味して選定してみた。普段からAIイラスト生成にいそしんでいる人でもあまり聞いたことがない名前、も並んでいるのではなかろうか。以下ちょっとだけ解説。
DALL-E by OpenAI
誰もが知るChatGPTの開発元であるOpenAI社によるモデル。ChatGPTやMicrosoft Copilotで採用されていることから、世界でもっとも使われている画像生成モデルのひとつなのは間違いない。運営組織形態はやたら複雑だと知られているが、営利団体としてのOpenAIにMicrosoftが出資し少なくない割合の株式を所有しているとされている。
Firefly by Adobe
やはり誰もが知るAdobeが開発し、Adobe ExpressやAdobe Fireflyを通じて提供されている。Photoshopに搭載され世界中のクリエイターに利用されまくっている「生成塗りつぶし(Generative fill)」機能の裏側も同モデルによるものとされる。
Stable Diffusion by Stability AI
「AIの民主化」を掲げるStability AI社によって開発されオープンソース化されたことで知られているモデル。世界中、数多の開発者や企業によって活用され、画像生成分野に革命をもたらし続けている。ベンチャーキャピタル等から多額の資金調達をしていて、近頃は売り上げ拡大のプレッシャーにさらされているという噂が絶えない。
Midjourney by Midjourney
モデルと同名のMidjourney社によって開発されているモデル。財務的には創業者の自己資金のみで運営され、チーム規模もごく少数とのこと。商業活動をするプロクリエイターの支持を多数集め、既に黒字体制にあると噂されている。
Ideogram by Ideogram
モデルと同名のIdeogram社によって開発されているモデル。著名ベンチャーキャピタルから多額の資金調達をしている。完全に無名の存在だったが、ある日公開されたIdeogram ver. 0.1の品質がDALL-EやMidjourneyのそれに迫るものであったため瞬く間に世界的な注目を集めた。
画像生成AIモデルの地域別人気傾向の違い
紹介したモデルたちの直近3か月のGoogleトレンドも紹介しておくぞ。人気に地域差が大きくて、おもしろくない?
日本
Stable Diffusion >>> NovelAI > Midjourney >>> Adobe Firefly > Ideogram
アメリカ
Midjourney > Stable Diffusion >>> Adobe Firefly > NovelAI > Ideogram
全世界
Midjourney > Stable Diffusion > Adobe Firefly >>> Ideogram >NovelAI
ここからは具体的な製品・サービスを紹介していく!
2. 求められるパソコン習熟度や最初の一枚を生成するまでのハードルの高さ別、製品・サービス紹介
2-1. パソコンがなくても、ややこしいこと考えなくても、日本語だけで出力できる。お手軽最強!
画像生成をするにはハイスペックのパソコンが必要?と思われがちなフシがあるけれども、実はそれは全く正しくない。ブラウザが動くパソコンがあるだけで高品質な画像生成ができるし、何ならパソコンがなくてもスマホやタブレットだけで相当に質の高いものを作れるようになっているのだ
Microsoft Copilot / Copilot Designer
画像生成モデル:DALL-E
価格:無料~
生成枚数:制限あり
プラットフォーム:ウェブ, iPhoneアプリ, Androidアプリ
言語:日本語のみで扱える
商用利用:不可能
出力表現制限:とても強い
運営:アメリカ法人
ウェブ版
モバイルアプリ版
最初に紹介するのは意外かもしれないけどMicrosoftが提供しているCopilot。
必要なのは誰でも無料で作れるMicrosoftアカウントだけ。有料プランも用意されているが完全無料でかなりのことができる。PCのウェブブラウザ、に加えてiPhoneアプリもAndroidスマホもある。更に指示文の解釈や翻訳をOpenAIの誇る言語モデルのGPTが担当、画像生成も同じくOpenAIの最新DALL-Eが動いているだけあって、特別な工夫をしなくても高品質な画像を生成してくれる。日本語の指示も完全に通るぞ。
生成AI時代になって破竹の快進撃を続ける進撃のMicrosoftによる意味不明なばら撒き政策と言っていい。先入観で触れたことがない人がいたら、真っ先に試してみてほしい。
創作のお供、という意味では弱点もある。検索サービスのように全ての性別年代国籍主義信条誰でも使うことを想定しているため、センシティブな表現(性的・暴力的・政治的、等)は基本的にブロックされる。第三者の権利を侵害する恐れのある版権物も、厳しめの対応をとっているぞ。
また、この製品はちょっと前まではBingやBing Creatorと呼ばれていたのが急に名前が変わったり、Microsoft Copilot Proという有料プランが「いろいろ準備不足だなぁ」と思わされるやや中途半端な状態で公開されたり、あわただしい。過去の解説はもうあてにならないことも多いから、気をつけてな!
他の人たちが作ったCopilot / Copilot Designer製のイラストは画像投稿サイトにたくさんあるぞ。全然テイストの違う画像も作れるから、ぜひ眺めてみて欲しい
ChatGPT
画像生成モデル:DALL-E
価格:有料(画像を生成するには有料契約が必須)
生成枚数:制限あり(40回/3時間)
プラットフォーム:ウェブ, iPhoneアプリ, Androidアプリ
言語:日本語のみで扱える
商用利用:可能
出力表現制限:とても強い
運営:アメリカ法人
一般人にまで生成AIの実力を知らしめ今日のブームの火付け役となったと言っても過言ではないChatGPTは、言語モデルのGPTだけでなく画像生成モデルのDALL-Eでも世界最高峰の実力を誇っている。
画像生成方法はMicrosoftのCopilotと同じだが、実装のされかたと製品ポリシーに違いがあるので出力の傾向は異なる。ChatGPTによって出力される画像は商用利用も可能なライセンスだ。一方で、無料で使うことはできない。利用にはChatGPT Plus契約が必要になるぞ。
センシティブな表現(性的・暴力的・政治的、等)や第三者の権利を侵害する恐れのある版権物に対する対応も厳しめだ。
個人的にはプロンプト製造機としても重宝してたりする。勝手にいい感じに拡張してくれる指示文の質がとても良いので、ChatGPTのDALL-Eに雑な指示文を放り込み、生成された画像についてくるプロンプトを他の画像生成サービスに流し込んだりしてるぞ。
Adobe Express / Firefly
画像生成モデル:Firefly Image
価格:無料~
生成枚数:制限あり(課金で解決可能)
プラットフォーム:ウェブ, iPhoneアプリ(β), Androidアプリ(β)
言語:日本語のみで扱える
商用利用:可能
出力表現制限:とても強い
運営:アメリカ法人
不思議とイラスト生成をたしなんでいる人は全然言及しない・あまり使っていない印象があるが、AI活用に関して先進的な取り組みを続けているAdobeからも画像を生成する製品が提供されている。
Adobe製品機能群のうち軽量なものをあつめ無料で利用可能にしているAdobe Expressと、画像生成に特化したAdobe Fireflyだ。
Adobe Express
Adobe Expressは普段Adobeに接点がない、課金するつもりがない利用者に触ってもらうためのツール群、な位置づけ。生成後の編集機能が比較的充実していて、各種テンプレートを使って印刷につなげたりSNSへの映える投稿をサポートしてくれる。
一方で生成される画像のクオリティに関しては古いモデルを使ってるかな?と想像したくなるような品質ではある。
本命はどちらかというと画像生成AIモデル名も冠されているAdobe Fireflyの方だろう。
Adobe Firefly
現時点の最新モデル、Firefly Image 2は、DALL-E 3やMidjourney V6に比べると多少表現力が劣る印象はあるが、Photoshopをはじめとするプロクリエイターに選ばれ続けている製品を手掛けている同社だけあって、「素材として使いこなす」「ワークフローの一部に画像生成を組み込む」設計思想にもとづく実装はお見事。
Fireflyはサブスク課金が前提だ。画像生成には生成クレジットを消費。なくなったら補充を待つか、追加課金が必要。
例によってセンシティブな表現(性的・暴力的・政治的、等)や第三者の権利を侵害する恐れのある版権物に対する対応は厳しい。
普段からプロ向けのクリエイティブツール使ってる人からすると当たり前に見えるかもしれないが、画像編集機能に統合されここまで整理整頓されたUIを持つ製品は現状他には存在しない(たぶん)。
AIイラストくん
画像生成モデル:Stable Diffusion
価格:無料~
生成枚数:制限あり。最上位プランのみ無制限
プラットフォーム:LINE
言語:日本語のみで扱える
商用利用:可能
出力表現制限:とても強い
運営:日本法人
誰でも使えるLINEで友だち登録してトーク画面からボタンを何度か押して日本語で話しかけるだけで画像を生成できる!のが圧倒的な敷居の低さだ。
無料で試せる回数は1日あたり3回と少ないが、Stable Diffusion系モデル画像生成の最初の一歩として最有力な選択肢のひとつだと思う。
モデルはSD1.5系と思われる。出力される画像の品質が安定して高く、推定今でも世界でもっとも多くの人に利用されているバージョンだ。美女・美少女を生成するのが上手い、と言い換えてもいい。
一方で、さすがに新世代のモデルに比べると指示文の理解力はそれなり。これまで紹介した他の選択肢と比べると、お願いした内容とチョットチガウ画像が生成される割合は高めではある。SD1.5が解釈できる指示文を与えるのだ!
リートン
画像生成モデル:Stable Diffusion
価格:無料
生成枚数:無制限
プラットフォーム:ウェブ
言語:日本語のみで扱える
商用利用:可能
出力表現制限:とても強い
運営:韓国法人
画像生成の文脈で紹介しているが、どちらかというとLLMポータルとしての性能がいい意味でぶっ壊れている。「無料で使えるChatGPT」の位置づけで実力のわりに過小評価されてるサービス最上位勢、というか個人的ぶっちぎりナンバーワン。
なぜかよくわからないけどウェブ検索機能がついたGPT-4が無料で誰でも使えて性能もかなりよい。依頼内容によっては本家より優れた回答をすることも珍しくない。
いまは募集締められてるが運よく申し込めてた人はなぜかGPT-4 Turboが使いたい放題。実質ChatGPT Plusな性能が完全に無料で使える上に明示された回数制限もない。そもそも有料プランが用意されていない
意味が解らない。どうやって稼ぐつもりなんだ。
画像生成に話を戻そう。リートンはChatGPTとは異なり、DALL-EではなくStable Diffusion系のSDXLと呼ばれるモデルを使っている。このことから、出力される画像の傾向は大幅に異なっているぞ。
記事執筆時点では二つのモデルが利用可能。日本語をそのまま理解し、かつ日本特有の概念に強いと発表されていた「Japanese SDXL」とそのベースモデルとなった「SDXL」だ。
ただし、素のSDXLは得意な絵柄とそうでないものの品質の差が半端なく大きいのだ。いい感じのアウトプットを得る難易度は高めだと思う。
Japanese SDXL
SDXL
日本語が通りそうな見た目をしているが、英語でないと安定しない雰囲気を醸し出していたぞ。
Ideogram
画像生成モデル:Ideogram独自モデル
価格:無料~
生成枚数:制限あり
プラットフォーム:ウェブ
言語:英語。一部日本語利用可能(日本語入力+マジックプロンプト利用時)
商用利用:可能
出力表現制限:やや強め
運営:アメリカ法人
このセクションの最後は、画像生成サービスとして実力のわりに過小評価されすぎてるサービス最上位勢としてIdeogramを紹介したい。
英語での利用が必須という弱点はあるが、補って余りある性能を有している。
Ideogram独自モデルを研究開発している。フォトリアルなど欧米で好まれる絵柄が中心ではあるが、出力の品質が極めて高い
表現の制限はやや強め。とはいえ他のビッグテックに比べれば許される範囲が広く、例えば風刺を効かせた表現などしっかり出力できる。創作のお供として頼れる場面が多い
一貫して優れた利用体験。GoogleまたはAppleアカウント連携で登録・利用開始できる簡便さ。他人のすぐれた作品をすぐ参照し生成情報を確認再利用したり「Remix」ボタン一つで簡単に改変できる低い学習コスト。ゼロから作る場合も入力のシンプルさと出力のリッチさが同居した素晴らしいUI
いままで試したことがなかった人はぜひ触ってみて欲しい。本当に素晴らしいサービスなんだ。
さらに、この記事を書くほんの10日前にモデルのメジャーバージョンアップがあって、ついに1.0に達した。性能も申し分ない。特に複雑な指示文の理解・再現力と文字出力能力では暫定世界No. 1の実力と言っても過言ではない。
「マジックプロンプト」というシンプルなテキスト入力をなんかいい感じに盛ってくれる機能も追加された。この機能経由だと日本語でも通るぞ。
現状、無料会員は1日に25回の画像生成ができる。画像や生成情報は完全に公開され、誰にでも見られる状態になることは注意が必要だぞ。有料の最上位プランに登録すれば生成画像は非公開にできるし生成枚数は完全無制限(Unlimited)だ。
2-2. 使いこなしに知識や経験が求められる、その分、習熟すればするほど差を付けられる!パソコンのスペックはいらないぞ
ここからは、間口にちょっと難はあるが性能はピカイチ、な製品サービスを紹介しよう。このセクションの製品・サービスも高性能なPCは不要だ!
Midjourney
画像生成モデル:Midjourney独自モデル
価格:有料
生成枚数:制限あり
プラットフォーム:Discord, ウェブ(α)
言語:英語
商用利用:可能
出力表現制限:とても強い
運営:アメリカ法人
Midjourney(およびNijijourney)はくせ者だ。ビッグテックが背後にいないのに性能は常に界隈トップレベル、「単に綺麗な画像」を超えた物語を感じさせるエモい出力傾向、推定黒字経営という(界隈で唯一といってよいほど?)好調なビジネス状況、利用者は多く、それゆえに調べれば情報は大量に見つかり誰でも気軽にはじめられ……るかと思いきや多くの一般日本人にとっていくつかの障壁がある。
基本英語のみ
有料プランのみ
Discordというプラットフォームの利用が必須。主にゲームコミュニティで広く使われているチャットツールで、SlackやTeamsのようなもの。界隈の外側にいるとどう使っていいか確実に戸惑う
画像生成のためにDiscordで "/" を押してから指示文を打ち込む、細かい指示は "--ar 4:3" など独自の識別子を文字で入力する必要がある、など直感的とはいいづらい
公式のDiscordサーバーに入れば世界中の無数の人たちが常に画像を生成している様を覗くことができ学ぶことができる。一方で、それは同時に(上級プランの場合を除き)自分の生成した画像もすべて公開されてしまう、ということでもある
利用手順
Discordチャンネルに入り(または自分のプライベートサーバーなどにMidjourney botを招待し)
"/imagine" コマンドと指示文を打ち込む
画像が4枚生成されるので、そこから1枚選んだりちょっと雰囲気の違う画像に変化させたりする
高度な使い方をするには、基本的にこんな感じで指示文とパラメーターを文字で重ねていく必要がある。
けれども、このとっつきにくさを乗り越えた先の喜びもまた大きい。超高品質な画像が続々でてくるのは、たまらないぞ
Discord以外から画像生成ができるような普通のウェブサービスの開発も進んでいるが、記事執筆時点ではまだアルファ版で一般利用者には解放されていない。早く使いたいぜ……とスクリーンショットを撮りに行ったら、弊アカウントはアルファ版対象になってた!!!昨日までは対象外だったからうれしい。
Discordでワークフローを確立していた人は移行のハードルがありそうだが、それ以外の人にとってはかなり操作しやすくなると思う。一般に解放されたら普及に弾みがつきそうだ。
Nijijourney
画像生成モデル:Nijijourney独自モデル
価格:有料
生成枚数:制限あり
プラットフォーム:Discord, iPhoneアプリ, Androidアプリ
言語:英語
商用利用:可能
出力表現制限:とても強い
運営:アメリカ法人
Nijijourneyは製品名というかブランド名で、生成サービスMidjourneyと同じくMidjourney社が提供している。画像の出力傾向が文字通り2次元のイラストやアニメ向けに調整されているのが特徴だ。とにかく高品質な画像を出力できる。
外側から得られる情報だと正直めちゃくちゃわかりづらいのだけど、Midjourneyに加入するとNijijourneyも自動的に使うことができる。上位のプランに入る必要も、追加の課金が求められることもないぞ。
メリットもデメリットもMidjourneyとほとんど同じだ。NijijourneyにはiPhone/Androidアプリがある、という違いはある。画像生成の操作性・コマンドに若干の違いもあったりもするが、深くは立ち入らない。必要を感じた時点で調べてくれ!
Nijijourneyの最新V6モデルでは日本語指示文が通るし簡単な言葉であれば表示もできる
NovelAI
画像生成モデル:Stable Diffusion 派生独自モデル
価格:有料
生成枚数:制限あり
プラットフォーム:ウェブ
言語:日本語のみで扱える
商用利用:可能
出力表現制限:自己責任でよろしく
運営:アメリカ法人
NovelAIはその名前が示す通りもともとはAIの力を借りて小説を書くことが主目的のサービス。ゴールは今でもぶれていなくて、会員登録したあとに最初に誘導されるのは「テキスト生成」お試し機能だ。
しかしながら、小説を書いたら表紙絵や挿絵を付けたい。文字を書けても絵を描くことが難しい人たちが簡単に画像生成できるようにしよう!というコンセプトで作られた画像生成機能が、その性能の高さから称賛を浴び、すっかり目玉機能になった、という経緯があるようだ。
そして最近公開されたNovelAI Diffusion Anime V3はその性能の高さをとにかく大絶賛されている。
また、UIがこなれていて小気味いい、Random Prompts機能でとりあえず何かを作ってみるまでの最初の一歩が楽、生成される画像の質が一定以上、と素晴らしい。
お金を払わなければ利用することはできないが、毎月一定額を支払うサブスク方式以外にも生成に必要となるAnlasを少額で買い切り入手することもできるから、自分に合うか比較的お手軽に試すこともできるぞ。
2-3. 画像生成サービス!というよりは、画像共有サービスに画像生成機能もついてる!やっぱりパソコンのスペックはいらないぞ
画像生成AIが一般化してから、必然として画像投稿サービスがいくつも立ち上がった。画像生成AI界隈の特徴として、(全てではないものの)生成された画像の作り方・プロンプトはかなり気軽に共有される傾向にある。投稿サイトもニーズに答えて画像の生成情報を表示するようになる……となると他人が作ったいい感じの作品、気に入った作品を自分でも作ってみたいと思うのは自然の理だ。
またStable Diffusionはオープンソースなエコシステムで支えられていることから、画像生成機能をウェブサイトに実装することに金銭的な負担はなく(注)、大きな技術的障壁もない。各サイトは各々の個性を付与しつつ画像生成機能を実装することが一般化したぞ。
chichi-pui
画像生成モデル:Stable Diffusion
価格:無料~
生成枚数:制限あり
プラットフォーム:ウェブ
言語:日本語(画像生成指示文は英語)
商用利用:可能
出力表現制限:やや強め
運営:日本法人
chichi-pui(ちちぷい)はAI画像投稿サイトとして国内最大手の一角。画像生成機能は、
初心者が迷わず使えるようにかなり潔いUIが採用されている
選択できる画像生成モデルは少数精鋭の5種類で、いずれもSD1.5バージョンをもとにしてchichi-puiが独自のチューニングを施したもののようだ。美女・美少女を生成するのが上手いであろう
という特徴がある。
アワートAI
画像生成モデル:Stable Diffusion, DALL-E
価格:無料~
生成枚数:制限あり
プラットフォーム:ウェブ
言語:日本語のみで扱える
商用利用:モデルによる(大半は可能)
出力表現制限:やや強め
運営:日本法人
アワートAIはAI画像投稿サイトとして国内最大手の一角。画像生成機能は
文字からの生成に加えて画像から生成する手段(image to image, i2i)も提供されている
指示文を日本語で入力しても自動で翻訳してくれる
モデルの種類が豊富。Stable Diffusionのなかでも歴史が長く質がこなれているSD1.5系だけで30種類くらいあり、より新しい世代のSDXLモデルも選択できる。コストは重いがDALL-Eまで使うことができる!
という特徴がある。
Aipictors
画像生成モデル:Stable Diffusion
価格:無料~
生成枚数:制限あり
プラットフォーム:ウェブ
言語:日本語(画像生成は英語)
商用利用:モデルによる(大半は可能)
出力表現制限:やや強め
運営:日本法人
Aipictorsも、AI画像投稿サイトとして国内最大手の一角。画像生成機能は、
初心者が迷わず使えるようにかなり潔いUIが採用されている
モデルの種類が豊富。得意表現に応じて分類されたSD1.5、SDXLで50種類が用意されている
LoRAも多数ビルトインされている。絵柄を調整したり、特徴的な目の表現を選んだりできる
という特徴がある。
Civitai
画像生成モデル:Stable Diffusion
価格:無料~
生成枚数:制限なし(いずれ制限されると思われる)
プラットフォーム:ウェブ
言語:英語
商用利用:モデルによる
出力表現制限:自己責任でよろしく
運営:アメリカ法人
画像共有サービスに画像生成機能もついてる!という説明をしているセクションに置いたが、Civitaiだけはちょっと性質が違う。もっと広範な機能と役割を果たしていて、特に「Stable Diffusionモデルの共有サイト」としての貢献は随一。Stable Diffusionエコシステムを支える最大の功績者のひとつ、と言って過言ではなかろう。
が、この場ではいったん画像生成機能の説明だけにとどめるぞ。Civitaiの画像生成機能の特徴は、なんといっても
(現状はなぜか)生成回数が無制限
Civitaiにホストされていてライセンスが許諾されているモデル(数えきれないほど多い)を選び放題
ベースモデルだけではなく、元々のモデルが備えていない特徴を加えるEmbeddingやLoRAといった概念も適用可能
といったところ。Civitaiの本質は世界中で制作されるモデルの保管所&そこで必要になる各種機能の実現と運用であることから、画像生成機能はわかりやすいとは言いにくい。この後紹介するStable Diffusionのローカル環境を理解していれば使いこなせるため、もしCivitaiでがっつり画像生成したい場合はStable Diffusion WebUIについて詳しくなることをおススメする。
2-4. ハイスペックなPC、特にVRAMを大量に積んだGPUが欲しい。性能は高ければ高い方がよい!やっぱローカルPC環境が最強じゃ!
冒頭に述べた「画像生成をするにはハイスペックのパソコンが必要?と思われがちなフシ」が適用されるのは、実はここからだ。
これまで紹介してきた製品・サービスはすべてウェブサービス・クラウドサービスと言うべきもので、いわばネットの「あちら側」「データセンター」が計算資源を賄ってくれ、画像生成というタスクを実行してくれていた。
一方、Google検索でも日本で極端に大人気だったStable Diffusionは、ローカルPCで実行することができる。
Stable Diffusion
そしてそのためのフロントエンドがいくつも提案されている、というのが現状の整理だ。
以下、そんなフロントエンド・パッケージを紹介していく……のだが、このあたりに関してはありがたいことに先人の偉大な文献があるので、詳細は丸投げしてしまおう。どっちも読みごたえ満載過ぎるけど、本気で導入を検討するなら真っ先に読む価値があるぞ。
Stable Diffusionで生成された作品はとにかく無数にある
この後は、個人的におすすめする利用必須・触っといて損はない、な連中を紹介がてら並べておくに留めるぞ。
Stability Matrix
Stability Matrixは、Stable DiffusionをローカルPCで動かせるようにする様々なフロントエンドを一括してインストール、管理できるパッケージマネージャー。Git, Python, PyTorch, CUDA, コマンドラインプロンプト, etc… みたいな呪文や黒画面と格闘する悪夢を消し去ってくれた神ツールだ。完全無料で使えるが月額数百円からのプランで開発者を支援するとちょっと早めに新機能が備わる開発版を使うことができる。
Stable Diffusion WebUI
Stable Diffusionがここまで世界的な人気を博しているのはモデルをオープンソースで公開したStability AIの英断(狂気)が源泉ではあるが、パソコンに詳しいくらいの一般人でも扱えるフロントエンドであるStable Diffusion WebUIが早期から提供されていたこともまた無視できない要因だ。しかもStability AI提供ではなく推定個人によるオープンソースなパーソナルプロジェクトだったのだから驚きだ。超人的な速度と仕事量で開発し続けるAutomatic1111氏に足を向けて眠れないAIイラストレーターの諸氏は多いのではなかろうか。
Stable Diffusion WebUI Forge
そんなAutomatic1111版Stable Diffusion WebUIとの互換性を保ちながら、コードの最適化や画像生成プロセスの見直したりを入れるなどして高速化し、誰もが標準で扱いたいであろういくつかの拡張機能をビルトインし利用体験を調整した派生版がStable Diffusion WebUI Forgeだ。Illyasviel氏はControlnetの開発者としても知られ、Automatic1111氏同様この分野の発展に多大なる寄与をしているスター開発者と言える。
Fooocus
Stable Diffusionの比較的最近のバージョンであるSDXLは公開後にコミュニティから歓迎されたものの、要求されるVRAMスペックが高いなど利用のハードルが高めであった。そんな悩みを多くの人々が抱えていた時期に公開されたFooocusは初期UIを極めてシンプルに保ち初心者でも直感的に扱えるようにしつつ要求スペックを大幅に低減させるなど利用体験面での貢献も顕著で、筆者を含む多くの画像生成愛好家に歓迎された。Forgeと同じくIllyasviel氏の手によるものだ。
ComfyUI
ComfyUIは、Stable Diffusion WebUIをさらに超える超早ペースで新しいモデルや機能に対して対応してきた実績がある、エコシステムを支える立役者だ。各種プロセスも効率的で、起動時間が短く少ないVRAM容量でも画像生成ができ、生成速度も速い。
ノードベースのUIはやや独特。ほかのWebUIと比べ全く違う設計思想をしているため、併用している人はあまり多くない印象があるぞ。自分も正直あまり使いこなせてはいない。(ただし後述するInferenceを通じてComfyUIを使うことは最近劇的に増えた。)
comfyanonymous氏の画像生成AI界に対する貢献度もまた、計り知れない。
Stability Matrix, Inference
パッケージマネージャーだよ!と紹介したStability Matrixではあるのだがとあるタイミングから独自のフロントエンドも同梱するようになった。
これがまたシンプルかつ機能的なUIで超軽量かつ各種設定をProjectファイルとして容易に保存し分けられて、超便利な代物。
バックエンドにComfyUIを使っているが、ノードベースのUIは採用せずStable Diffusion WebUIのように固定された見た目を持つのがまた捗る。これからも継続的な開発が見込めそうで、実に頼もしい。
Invoke AI
ここまでStable Diffusion系のパッケージは個人規模の開発者によって支えられているものばかりだったが、Invoke AIは企業が開発・展開している珍しい例だ。
チームでStable Diffusionの資産を共有しつつ、複数の利用者が同時多発的に快適に利用できるようにする、という目的に対して効果的なアプローチがとられていて、特にUIが洗練されていて気持ち良い。
個人的にもすっかりファンになって一時期頻繁に利用していたのだけど、メジャーバージョンアップに伴って一部互換性が失われてしまったこと、起動にとにかく時間がかかるのとでちょっと利用頻度が落ちてしまってはいる。が、これからの進化も楽しみにしている。
終わりに
いろいろと書いてきたけど、これで所期の目的は果たせたのかなあ。
最後に言いたいことがあるとするならば、
生成AI技術面白すぎて時間が足らん!誰か早くなんとかして!!
ってことかもしれない。
スペシャルサンクス 1
この記事を書く羽目になったきっかけを作ってくれたRIZ a.k.a. NoYGP/YGPuzzleGTANTさんありがとう。
RTA in Japanを走るRIZさんの雄姿を楽しみに待ってます。
スペシャルサンクス 2
毎日笑いと感動を与えてくれるDiscordサーバー「🗽動物園🗽」にいるぶるぺん園長と愉快な仲間(うごもつ)たちいつもありがとう。おかげで退屈する暇がないよ
もし興味を持ってサーバーに入る時はここからどうぞ!何が起こっててもヒかないでね(無理)