こんにちは、本日は今話題の画像生成AI「Stable Diffusion」についてご紹介します!
Stable Diffusionは、テキストから画像を作る画像生成モデルです。
イギリスのスタートアップ企業であるStability AI を中心に、CompVis、Runway、LAION などと共同で研究・開発され、2022年8月に Stability AI から Stable Diffusion v1 として一般公開されました。
画像生成AIにはStable Diffusionの他にも
- DALL・E2(ChatGPTと同じくOpenAIが開発)
- Midjourney(discord上で使用できるツール)
- Leonald AI
など色々ありますが、Stable Diffusionには他の画像生成AIにはない特徴がいくつかあり、画像生成AI界で一線を画す存在なので本日はその特徴をまとめていきたいと思います。
オープンソースなので無料で使用できる
Stable Diffusionは、オープンソースで公開されており、誰でも無料で使用することができます。
オープンソースとは、プログラムのソースコードを公開して誰でも自由に利用や改変や再配布ができるようにすることです。
オープンソース化されているのでStable Diffusionには、以下のようなメリットがあります。
商用利用が可能
Stable Diffusionは、商用利用もOKとしています。
つまり、Stable Diffusionを使って生成した画像を自分の作品やサービスに組み込んだり、販売したりすることができます。
これは、他の画像生成AIでは課金しない限り制限されている場合が多いです。
カスタマイズや新サービスの開発が可能
Stable Diffusionはオープンソースなので、誰でもソースコードを改変することができます。
そのため自分の絵柄やスタイルを学習させることもできますし、Stable Diffusionをベースにした新しい画像生成AIやサービスを作って販売することも可能となります。
圧倒的に高品質
2つ目の特徴として、他の画像生成AIに比べて品質が高いということが挙げられます。
Stable Diffusionは、Diffusion Modelという新しい学習方法を採用しているため、他の画像生成AIと比べて、より高品質でリアルな画像を生成することができます。
実際に筆者も他の画像生成AIを色々試してみたことがあるのですが、圧倒的に生成した画像のクオリティが高く、しかも無料で使用できるので今ではStable Diffusion一択で使用しています。(Dalle.E2のトークンに課金してしまったのが嘆かわしい…)
さまざまな学習モデルを使用できる
Stable Diffusionの大きな特徴の一つに、さまざまな学習モデルを使用できることが挙げられます。
先ほど書いたようにStable Diffusionは、オープンソースで公開されているので、学習用のデータセットを一般の人でも作成することができ、特定の画像を生成するのに特化したモデルが多数ネット上に存在します。
例えば「アニメ風の女性キャラクターを生成するのに特化したモデル」や「動物や鳥などの生き物を生成するのに特化したモデル」などが存在します。
OpenAIのDALL・E2で人間を生成するとかなりいびつな画像が生成されることが少なくないのですが、Stable Diffusionには人間の生成に特化したモデルがいくつも存在するため、以下のように実際の人間と判別できないほどのクオリティの画像を生成することができるのです。
まとめ
- Stable Diffusionはイギリスのスタートアップ、Stability AIが中心となり開発された画像生成AIで、テキストから画像を生成できる。
- オープンソースで公開されているため誰でも無料で使用可能であり、商用利用も許可されている。
- Stable Diffusionのソースコードは改変可能なため、カスタマイズや新たな画像生成AIやサービスの開発も可能。
- Diffusion Modelという新しい学習方法を採用しているため、他の画像生成AIと比べて生成する画像の品質が高い。
- 「アニメ風の女性キャラクター」や「動物や鳥などの生き物」など、特定の画像を生成するためのモデルがネット上に掲載されており、それらを使用できる。