Stable Diffusionをローカル環境にインストールしてみる

 インターネットに公開されている画像生成AIは、無償のものから有償のもの様々ありますが、前にも述べた様に、NSFWの規制がかかっています。

別に卑猥な画像を作る為じゃなくても、この手の判断はAIが自動で行っているので、問題ないプロンプトや画像でもこの規制を受けてしまう場合があります。

代表的な例として、Adobe Photoshopの生成AIで、靴を履いている人の靴を脱がせようとして、「裸足の足」と入力すると、規制に引っかかり怒られてしまいます。


いちいち規制に引っかからない様になんでも受け付けて欲しいと思った場合の解決方法に、画像生成AIを手元のローカルPCにインストールすると言う方法があります。

もちろん、GoogleやAWSの様な、ホスティングサービスを契約してそこに自分で画像生成AIをインストールする事はできます。

NSFWに引っかからない環境が作れたと喜んではいけません。

GoogleやAWSを代表とするクラウドホスティングサービスでは、定款で公序良俗に違反するコンテンツ公開を禁止しています。

これに違反すると、アカウントを停止されたり削除されたりします。

画像生成AIで自分が意図していなくても、公序良俗に反する画像を生成してしまった場合、その画像はホスティングサービスのサーバ上に残り、たとえ公開していなくてもサーバー上に公序良俗に類する画像を保存した事で問題になります。

やはり確実に安全なのは、ローカルPCで環境構築することだと思います。


環境構築については、先駆者の方がインターネット上に沢山情報を載せてくれているのでそちらにお任せするとして、ここでは私がインストールしたものだけ紹介しておきます。


「Stability Matrix」による画像生成AIのインストール

https://github.com/LykosAI/StabilityMatrix/releases


ここにある

「StabilityMatrix-win-x64.zip」をダウンロードして、インストールします。

インストール方法についても、先駆者の方にお任せします。


「Stability Matrix」で検索すれば、丁寧にかかれているサイトが沢山見つかります。

インストールできない、途中でエラーになる、起動しない等の問題があっても、当方は一切の責任を持ちません。

個人の判断でお願いします。


さて、ここで気になるのが、ローカルPCのスペックですが、最低限以下のスペックは確保したい所です。


CPU:Intel i5 代9世代以上

メモリー:16GB以上

HDD/SSD:512G以上(実際にインストールされる容量は5Gくらい)

グラフィック:Nvidia GeForce GTX1080 VRAM 8G以上


おそらく上記スペックだと512x512サイズの画像を1枚生成するのに、20秒くらいかかると思います。


ちなみに、以下のスペックのノートPCにもインストールしてみました。

CPU:Intel i5 代6世代

メモリー:8G

SSD:512G

グラフィック:Nvidia Quadro P600 VRAM 4G


こちらのスペックだと、512x512サイズの画像を1枚生成するのに、90秒~130秒かかります。


画像生成AIは、画像作成→プロンプト、パラメータ調整→画像生成の繰り返しで好みの画像に近づけて行くので、こんなに時間がかかってしまっては、効率が悪すぎます。

こちらのスペックはちょっと試しにって感じに思っておいた方が良いでしょう。


インストールが正常に終わると、ブラウザが起動して以下の様な画面が表示されます。


画像生成AIは、ブラウザを使って操作する事になります。


それでは早速プロンプトに生成したい画像の要約を書いてみます。

プロンプト

学校前のバス停でバスを待つ女子高生,日本人、綺麗な顔

High school girl waiting for the bus at the bus stop in front of the school, Japanese, beautiful face


ネガティブプロンプトは必要最低限と言う人もいますが自分は、以下のものをベースにしています。

bad hands,unnatural placement,extra figures, people floating in the air,stand on water,back view,Profile, turning around, back of head,unnatural possessions,unnatural cloth,distorted face, unbalanced face,A person with a bad composition, a person at the edge, no hands, no arms, malformed arms, malformed legs, fused limbs, strangely oriented legs,Blurred faces, many limbs, ignored perspective,broken facee


日本語訳は

手が悪い、不自然な配置、余分な人物、宙に浮いている人、水の上に立つ、後ろ姿、横顔、振り向く、後頭部、不自然な持ち物、不自然な布地、歪んだ顔、アンバランスな顔、構図が悪い人、 端にいる人、手なし、腕なし、奇形の腕、奇形の足、融合した手足、奇妙な方向を向いた足、ぼやけた顔、多数の手足、遠近感の無視、崩れた顔


まずは、これだけ入力して2~3枚生成してみましょう。


AIにて生成


AIにて生成


AIにて生成

多少顔に違和感がありますがまずまずの出来だと思います。


ちなみに、自分の環境は以下の通り

CPU:Intel i9-9900K

メモリー:32.0 GB

グラフィック:Nvidia GeForce RTX4060TI 16G


この環境だと、1枚1~2秒で生成できます。


余談ですがローカル環境なので、ゑっちなプロンプトや画像も表示されます。


High school girl waiting for the bus at the bus stop in front of the school, Japanese, beautiful face

先ほどのプロンプトの前に、nude,と書いてみましょう。


ちなみに、インターネット上の画像生成AIでこの単語を含めると以下の様なエラーになり、画像が生成されません。


ローカル環境での実行結果は以下の通り

AIにて生成

ローカルでの結果は露骨なので画像処理しています。

画像生成AIが生成した画像は、トレーニングや学習をインターネット上にある画像を使用している事が多く、生成された画像が実在の人物に似てしまう事があります。

この様な場合、著作権の侵害にあたるとして、訴えられる可能性もありますので、注意が必要です。

画像を公開する場合は、画像がAIによって作られたものであることを明記し、学習データも商用利用可能なものを使用して下さい。


コメント

人気の投稿