Stable Diffusionの元画像を参考に新たに

Stable Diffusionを使用すると、テキストによる指示でAIが画像を生成してくれますが、Stable Diffusionにはこれ以外にもいくつかの機能があります。

今回はそのなかの、img2imgを使ってみたいと思います。

テキストから画像を生成する機能「txt2img(text to image)」は前回使った機能です。

今回はimg2img(image to image)、イメージ画像がらイメージ画像を生成する機能です。

この機能を使用すると、元のイメージ画像を参考に、それっぽい画像を生成できたり、txt2imgで生成した画像の気に入らない部分を修正したりできます。

Stable Diffusionを起動すると、プロンプト入力エリアのすぐ上に以下のようなタブがあります。

起動すると、最初は「txt2img」タブが選択されています。

今回はその隣にあるタブ「img2img」を使用します。

タブを選択すると、下の様な画面になります。

※縦長の画面なので、画像は上半分と下半分に分けてキャプチャしました。

プロンプトの入力エリアはtxt2imgと同じです。

img2imgでは新たに、元となる画像を張り付ける場所が登場します。

ここに、写真などをドラッグするか、ここをクリックする事でファイルの選択画面が表示されます。

画面した半分を見て行くとパラメータ設定が多少増えていると思います。

txt2imgと違い、出力サイズを調整する「Width」の上に、「Resize to」と「Resize by」タブが表示されていると思います。

また、「Height」の右側に三角定規のマークが出ています。

この部分は、元となる画像のサイズと、出力する画像のサイズを調整する部分になります。

元の画像が640x480で出力画像が512x512だと、出力される画像の左右が圧縮され、縦に伸びたような画像が生成されてしまいます。

三角定規マークをクリックすると、張り付けた元になる画像サイズを読み取り、出力サイズが同じになるように調整してくれます。

「Resize by」タブを使用すると、三角定規マークをクリックしなくても、自動で同じサイズに調整でき、「Scale」を調整する事で、生成サイズを拡大したり縮小したりすることができます。

次に重要なパラメータとして、「Denoising strength」があります。

このパラメータを使う事で、元画像の要素を生成画像にどれだけ取り入れるかを調整できます。

0にすると、元画像がそのまま生成されます。

1にすると、元画像は無視され、txt2imgと同様な画像が生成されます。

初期値は0.75になっていますが、この値を生成を繰り返しながらすこしずつ変更して行くと良いと思います。

まずは、適当なイメージを使って何か生成してみましょう。

元画像は、無人のオフィスです。

ここに、次のプロンプトを入力します。
A man who stays alone in the office to work
１人オフィスに残って仕事をする男性

「Denoising strength」は0.75のままにし生成します。

次に「Denoising strength」は0.6にし生成します。

なんとなくオフィスの様子がオリジナルに近くなっている様に感じまず。

今回はここまでです。

百鬼茶屋ブログ