【Stable Diffusion】生成時間を高速化する設定(RTX40xx向け)

RTX40xxシリーズを使用して画像生成しているのに思ったよりも速度が出ない。
ベンチマークテストとか見ると他の人はもっと速度が出ているのに、
そんな時は追加設定を行うことで速度を上げることができるかもしれません。
追加設定方法を書いていきます。

cuDNN最新化

デフォルトで入るcuDNNはバージョンが古いため、RTX40xxシリーズにあっていない可能性があります。
最新のものを入れてみましょう。

cuDNN最新版導入

下記サイトよりダウンロードできます。メンバー登録が必要です。

https://developer.nvidia.com/rdp/cudnn-download

「Download cuDNN v8.9.0 (April 11th, 2023), for CUDA 11.x」をクリックし、(日付とバージョンは確認時点の記載です。最新のものをクリックしてください)
「Local Installer for Windows (Zip)」をクリックしZipファイルをダウンロード。
解凍します。
解凍したフォルダのbinフォルダを開きます。

stable-diffusion-webui\venv\Lib\site-packages\torch\lib
oldという名前のフォルダを開き、以下ファイルをoldフォルダへ移します。何かあった時に戻せるようにするためです。
cudnn_adv_infer64_8.dll
cudnn_adv_train64_8.dll
cudnn_cnn_infer64_8.dll
cudnn_cnn_infer64_8.dll
cudnn_cnn_train64_8.dll
cudnn_ops_infer64_8.dll
cudnn64_8.dll

解凍したフォルダのbinフォルダにある7つのファイルをstable-diffusion-webui\venv\Lib\site-packages\torch\libへ移します。

比較結果

実際に使うような以下設定で画像生成してみました。使用グラボはRTX4070tiです。

(masterpiece:1.2), (high quality:1.2), (ultra detailed:1.2), (detailed background:1.2),
1 Girl,
Negative prompt: (worst quality, low quality:1.4), EasyNegative,
Steps: 30, Sampler: DPM++ SDE Karras, CFG scale: 7, Seed: 1584909836, Size: 800×600, Model hash: 19c1008761, Model: breakdro_A959, Denoising strength: 0.7, Clip skip: 2, Hires upscale: 1.5, Hires steps: 15, Hires upscaler: ESRGAN_4x

最新化前

5:27

最新化後

2:50

10枚作成するのに327秒かかっていたのが170秒で終わりました。
1.9倍の性能アップ!

RTX40xxシリーズを使用している人はぜひやってみてください!