Stable diffusionの画質が荒い(クオリティが低い)時の対処法を紹介
AIによる画像生成と言えば、Stable Diffusionというアプリは定番中の定番でしょう。
しかし、最近「Stable diffusionでなぜか画質の高い画像が生成できません。」といった声もお聞きします。確かに、画質がぼやけたり、色がおかしかったりすると、なんとも使い勝手が悪くて、悔しい気持ちになりますね。
今回の記事では、Stable Diffusionで生成した画像の画質が荒いというときに考えられる対処法を紹介します。
(1)Stable Diffusionとは
Stable Diffusion(ステーブルディフュージョン)とは、22年8月にオープンソース形式で公開した画像生成AI。
英スタートアップのStability AI社が開発したが、全世界にソースコードが無償公開されたことで多くの登録ユーザーを抱えています。
Stable Diffusionで作られる画像は、システムに搭載された「潜在拡散モデル」というアルゴリズムによって生成されています。
ユーザーは作成したい画像のイメージ(例えば、アマゾンのジャングル、高層ビルが建ち並ぶ都会、など)を単語で区切って入力することで、簡単にリアルな画像からアニメ風の画像まで作成できます。
このような単語は「プロンプト(prompt)」と呼ばれて、画像生成の大部分が「プロンプト」に依存しています。実際にやってみたら、「英文作成が得意なユーザー」はより正確で高品質な画像を生み出せるということがわかります。
Stable Diffusionは、人物の生成が得意で、特に顔の表情や髪の質感などのクオリティが高く、多くのプロンプトが揃っています。さらには商用利用することも可能です。
(2)Stable Diffusionの画質が荒い(クオリティが低い)時の対処法
ここから、Stable Diffusionで生成後に、画像の画質が劣化した時に対処する方法を紹介します。
1. 専門のアップスケーリングツールを使う
現在のところ、画像を簡単に高画質化できるAIツールは多数存在しています。
これらのツールは、機械学習やディープラーニングの技術を活用して、画像の解像度を向上させたり、鮮明度やディテールを改善したりすることが可能です。
代表的なツールとしては、Topazの「Gigapixel AI」、Digiartyの「Aiarty Image Enhancer」、またはAdobeの「Photoshop」などがあります。それぞれのツールには独自のアルゴリズムや機能があり、利用目的や使用状況に応じて選択できます。
今回は、AIで生成した画像の画質を上げるに特化した「Aiarty Image Enhancer」を一番おすすめです。
画質が損なわれた低解像度の画像を、最大4倍または8K相当の高画質に変換できます。AIで生成した画像だけではなく、風景などの画像、人物画像やアニメ画像などにも、勿論使用できます。
- ソフトを起動すると、このような画面になります。
- Stable Diffusionで生成した画像を選択してソフトに追加します。
- すると、画像の高画質化処理が自動で開始されます。
- デフォルトでは、「ぼやけを除く ⇒ ノイズを除去 ⇒ 圧縮による劣化を低減 ⇒ 2倍アップスケール」っていう順番に作業するようです。
- 完了したら、画面中央に画像の高画質化前(左)と高画質化後(右)が並びます。
- これ以上画質を向上させるために、画面右端に「AIモデル」と「アップスケール(拡大サイズ)」を調整することができます。
- 編集後のファイルを書き出したい場合には、右下の「RUN」からファイルをエクスポートします。
このようにして、AIで画像を高画質化することができます。
2. 標準や拡張機能を使う(Hires.fix / MultiDiffusion / Tiled Diffusionなど)
Stable Diffusionで高解像度化・高画質化するには、標準機能や拡張機能を利用する方法もあります。
このような機能は、以下3つのものがあげられます。
- ➊.Hires.fix
- ➋.MultiDiffusion
- ➌.Tiled Diffusion
- Hires.fix
- 構図の破綻を抑えつつ高解像度の画像を生成するためのオプション機能です。Stable Diffusionは元々256 x 256や512 x 512などの画像でしか学習されていないので、それ以上のサイズで生成しようとすると、構図の破綻や画質の劣化が起きることがあります。
- MultiDiffusion
- 低VRAM容量でも高解像度の画像を生成できる、img2imgで使用可能な拡張機能です。img2imgで画像生成する際にも使用できるアップスケーラで、元の画像の構図やタッチを保ったまま画像サイズを拡大、高精細化することができます。個人的には一番綺麗にアップスケールができて使いやすく好き。
- Tiled Diffusion
- 少ないVRAM容量でもイラストを高解像度化・高画質化にアップスケールできる拡張機能です。画像全体のサイズを1度に大きくするのではなく、タイルのように分割して1枚1枚高解像度化・高画質化することで、VRAM使用量を減らすことができるのが大きな魅力です。
3. VAEを使用する
Stable Diffusionの「VAE(ブイエーイー)」とはVariational Auto-Encoderの略で、画像生成モデルに属する補助ツールの一種です。
Stable DiffusionにVAEを導入すると、画像を鮮明にする効果があります。
具体的に、「VAE」を使うことで、色褪せた感じ・暗い感じや全体的にぼやけた印象が改善され、彩度などが明るくなり高品質に仕上げることができます。同じプロンプトでも、使わなかった場合と比べるとクオリティが劇的に変わるので必須で使用した方がいいです。
下記画像をご覧ください。VAEなしで生成した画像は全体にモヤがかかっているのに対して、VAEありで生成した画像は全体がハッキリしているのが分かると思います。
VAE は、CivitAIやHugging Faceのサイトからダウンロードして導入すると使用することが出来ます。
4. LoRAモデルを使用する
Stable Diffusionで利用するLoRAとは、Low Rank Adaptationの略称で、Stable Diffusionでcheckpointと呼ばれるモデルファイルに対して追加学習を行い、差分を記録したファイルを意味します。
いわば、元のモデルファイルに対して微調整を行う機能で、服装や人物、背景などのデティールを正確に表現をできます。
従来の追加学習では計算量が多いために高スペックなパソコンが必要でしたが、Loraの登場により、手軽に追加学習できるようになりました。
LoRAを活用することで、元のモデルでは表現できなかった繊細な画風やスタイルが表現できるようになります。
例えば、布の質感や光の反射の表現が自然になったり、ある有名な画家のスタイルを模倣した画像を作ることができたりします。
しかも、これまでにない速さで、オリジナリティあふれた高品質作品を低コストで大量に生み出すことができます。
5. プロンプトを上手に作る
Stable Diffusionには、細かなカスタムオプションが搭載されていますが、画像生成の大部分が「プロンプト」に依存しています。
適切なプロンプトが与えられることで、生成される画像の方向性や詳細に関する情報がモデルに正確に伝わり、生成される画像の品質が向上する可能性があります。
また、ぼやけさせないための対処法として品質、解像度に関わる呪文をプロンプトに入れる方法があります。
以下の呪文では高品質にさせてくれる効果があり、ぼやけにくくなったりする場合があるので追加して試してみてください。
- ・masterpiece
- ・best quality
- ・ultra-detailed
- ・8k
- ・high resolution
ネガティブプロンプトにも品質や解像度に関する呪文を入れることでさらに改善が見込めます。
以下の呪文では、低品質な画像生成を省く効果があるので是非入れてみてください。
- ・worst quality
- ・low quality
- ・normal quality
- ・lowres
- ・blurry
6. Restore facesにチェックを入れる
Stable Diffusionで画像生成AIでは、人間の顔の微細なディテールを完全に捉えることが出来ないことがあり、ゆがんだりすることがあります。人物を描くと顔が崩れがちです。
そういう場合は、それを抑えるための機能「 Restore faces 」にチェックを入れるだけで問題が解消されることがあります。
Restore facesは、画像の顔の歪みや不自然な部分を修正するための機能です。
ただ、学習モデルによっては、機能が正しく動作しないことがあるようです。例えば、全身像のような引きの絵で顔が小さめでぐずぐずに壊れている場合は補正が効きません。
また、イラスト系の画像生成では逆効果になってしまうこともあり、実写系の画像生成のみに使える機能となっています。
7. 他のパラメータの調整
Stable Diffusionが提供する各パラメータを適切に調整することで、美しい高品質な画像を生成することが可能です。
ここでは、「Denoising strength」の設定を例にして説明します。
Denoising strengthというのは、Stable Diffusionのimg2imgで静止画を生成する際に、元画像からの変化度合いを設定する数値です。基本的に、数値が小さいほど元画像に忠実に、大きいほど元画像とは異なる画像を生成します。
- ハイレゾ時に、
- 上げると描画精度が上がるが、代わりに奇形が生まれやすいです。
- 下げると奇形は減って安定するけど、輪郭線がボケるなど画質は落ちます。
- 推奨は0.3〜0.6
- 0.7以上にするとだいたい奇形になります。
他に、Seed、サンプラー、Step数、CFG値、embeddings、RoHA、AddNetx2026; x2026;など様々なパラメータも利用可能です。
これらのパラメータは、生成される画像の特定の側面や性質を制御するために重要です。
たとえば、Seedはランダム性を操作し、同じ条件下での画像生成の再現性を確保します。
サンプラーは、生成される画像の色彩や構造などの特徴を調整します。
Step数は、生成プロセスの収束速度や生成される画像の鮮明度に影響を与えます。
CFG値やembeddingsは、生成される画像の内容やコンテキストを指定します。
RoHAやAddNetは、生成される画像の表現能力や詳細さを制御します。
これらのパラメータを適切に調整することで、特定の目的や要件に合った高品質な画像を生成することが可能となります。
(3)まとめ
以上でStable Diffusionの画質が荒い時の対処法について解説しました。
一番効果の高いのは、「Aiarty Image Enhancer」という専門のアップスケールツールを使うとはっきりと写るようになってくるのでおすすめの方法になっています。
画像を生成する際に、画質劣化や低品質を抑えるために、高解像度化・高画質化を目指す標準や拡張機能を利用したり、VAEやLoRAモデルを活用したりすることが重要です。また、適切なプロンプトを使用したり、各パラメータを調整したりすることも効果的です。
これらの方法を組み合わせることで、Stable Diffusionを用いて高品質な画像を生成することが可能となります。
この記事を書いた人:小林浅
好きな仕事を追い求めるうちにweb業界へと流れ着く。AI(人工知能)に関する技術や、製品・サービスなどの紹介記事を提供しています。