Stable Diffusion WebUIで無料で口パク動画を作成する方法!
こんにちは、画像生成AIのプロンプトを研究している じょじお(@jojio‗illust)です。
前回の記事で、AI画像に原稿を読ませるD-IDというサービスを紹介しました。
今回の記事では、完全無料で利用することができるSadTalkerというサービスを紹介します。
▲AI画像の大量ファイルをプロンプトと一緒に簡単に整理する方法はこちら。
Stable Diffusionのプロンプトエンジニアリングの基本について理解したい方には、初心者向けのプロンプトガイドを作りましたのでそちらを見てください!
SadTalkerとは?
SadTalkerは、上のような画像と音声を合成して、リップシンク動画を作れるオープンソースのソフトウェアです。
前回、同様のツールとしてD-ID社のcreative-reality-studioを紹介しました。
Creative Reality studioは、有料ソフトでしたので、無料で使えるものがないかなぁと探したところ見つけたのがSadtalker です。
ちょうどStable Diffusion WebUIの拡張機能が先日提供されたばかりのようです。Stable Diffusion WebUIユーザーは、かんたんな初期セットアップだけで使用することができます(と、いっても結構エラーがでました・・・)。
SadTalkerをStable Diffusion WebUIで使うためのステップ
下記の4ステップが必要です。
- WebUI拡張機能:SadTalkerをインストール。
- SadTalkerのモデルをダウンロードして設置
- Webui-user.batの編集
- ffmpegのインストール
ドキュメントどおりにやってもエラー出まくりで、めちゃくちゃ大変でした・・・。
リリースされたばかりなので、修正の勢いにドキュメント更新が追い付いてないのかもしれないです。
デモ版を試したい人はこちら
HaggingFaceでデモ版を利用できます。おためしで使いたい方は下記から使用してみてください。
https://huggingface.co/spaces/vinthony/SadTalker
①SadTalker WebUI拡張機能版のインストール
1. Webuiに拡張機能のインストール
下記のURLから拡張機能をインストールします。
https://github.com/Winfredy/SadTalker
インストールしたらWebUIをリロードします。
▲WebUI拡張機能のインストール方法が分からない方はこちらの記事も参考にしてください。
②SadTalkerのモデルのダウンロード
次にSadtalker のモデルファイルをダウンロードします。
▲フォルダもファイルもすべて選択してから、画面上部のダウンロードボタン(②)をクリックしてダウンロードしましょう。
▲こういう注意msgが出た場合は、無視してください。
▲ダウンロードしたファイルを下記のフォルダに保存します。「checkpoints」フォルダは自分で新規作成します(上図参照)。
(あなたがSD WebUIをインストールしたフォルダ)\stable-diffusion-webui\extensions\SadTalker\checkpoints\
③WebUI-user.batの編集
次にWebUI-user.batを編集します。(いつもWebUI起動時にダブルクリックするファイル)
▲WebUI-user.batを右クリックして「編集」をクリックして、下記の形式でモデルファイルの場所を記述します。
set SADTALKER_CHECKPOINTS=C:\stable-diffusion-webui\extensions\SadTalker\checkpoints
記述したら保存して閉じます。
上は私の環境の場合の例です。ご自分の環境に合わせて記述してください。
④FFMpegのインストール方法
FFMpegって何?
FFMPEGは、オープンソースの音声変換・動画や音声のストリーム・録音などができるソフトウェアです。
音声ファイルと動画ファイルをマージしたり、動画から音声だけ抜き出したりすることができるらしい。
SadTalkerは、このソフトウェアを内部で使っています。
ffmpegのダウンロード
FFMPEG(クリックするとダウンロードが始まります。)
上記から最新のffmpeg(7z)をダウンロードする。
ffmpegは、7zで圧縮されているので、ダウンロード後に解凍が必要です。
Windowsのデフォルトの機能では7zを解凍できないので、7zipというフリーソフトを使おう。
7zipのダウンロード・インストール
▲上記のリンクから7zipのダウンロードページにアクセスして、最新の64ビット向けのexeファイルをDLしよう。
ダウンロードしたらダブルクリックしてインストールします。
ffmpegを解凍(展開)
▲7zipをインストールしたら、先ほどDLしたffmpegを選択して右クリックメニューを開きます。すると「7zip」というメニューが追加されているので、「7zip>ここに展開」をクリック。
▲展開(解凍)するとffmpegがフォルダアイコンになりました。
解凍したffmpegをÇドライブに移動して名前を変更する。
▲解凍したffmpegフォルダをC:\に移動します。
▲移動したら、フォルダ名が長くて分かりづらいのでシンプルに「ffmpeg」という名前に変更しましょう。
ffmpegの実行ファイルのパスを環境変数に設定します。
環境変数にffmpegのパスを追加します。
「環境変数って何?よくわからん!」って人は下記のとおり実行します。
▲C:\Windows\System32の中にある「cmd.exe」で右クリック>管理者として実行
▲コマンドプロンプトが開くので下記のコマンドを入力してエンターキーを押す。
setx /m PATH "C:\ffmpeg\bin;%PATH%"
以上で、ffmpegのインストールと、ffmpegのパスを環境変数に追加することができました。
環境変数の適用には再起動が必要なので再起動しましょう。
SadTalkerを使ってみよう。
早速使ってみましょう!
使い方はとても簡単です。下記の3つのステップだけです。
- 画像をアップロード(Stable Diffusion WebUIで生成した画像をそのまま使うこともできます。)
- 音声ファイルをアップロード
- 実行ボタンをクリック!
音声ファイルは自分で用意しなければいけません。手っ取り早く動作確認するだけでしたら、自分の声をスマホで録音して使うのが最も簡単だと思います。
リアルさを追求するなら、日本一ナチュラルな音声読み上げソフトVoicepeakがおすすめです。
おすすめの文字読み上げソフト【VOICEPEAK 商用可能 6ナレーターセット|ダウンロード版】
音声読み上げアプリは、voicepeakがおすすめです。現時点で日本語を一番自然に読むことができるソフトだと思います。
▲Amazonは値下げされていることが多いです。
動作モード
- Remove head motion (works better with preprocess
full
):チェックを入れると頭を動かさない。 - Face enhancement:チェックを入れると、gfpganやRestoreFormerを使い顔復元ネットワークで生成した顔を強調する。
動画ファイルの生成時間は?
実行ボタンを押してから動画ファイルが生成されるまで少し時間がかかります。
私の環境(VRAM12GB)で20秒の動画で3~5分程度かかりました。
動画ファイルの出力場所は?
生成した動画は、デフォルトでは下記のフォルダに自動保存されます。
あなたがWebUIをインストールした場所\stable-diffusion-webui\outputs\SadTalker
SadTalkerがエラーがでて使えない。
‘ffmpeg’ は、内部コマンドまたは外部コマンド、操作可能なプログラムまたはバッチ ファイルとして認識されていません。
‘ffmpeg’ は、内部コマンドまたは外部コマンド、操作可能なプログラムまたはバッチ ファイルとして認識されていません。
このエラーが出る場合、ffmpegがPCにインストールされていないか、PCにインストールされていても見つけられない場所にあります。
ffmpegのインストール手順をもう一度確認してください。
TypeError: exceptions must derive from BaseException
画像が悪いときにでる。例えばネコや擬人化キャラクターなどには対応していないので、そういった画像をアップロードするとこのエラーがでます。
他の画像を試してみてください。
参考
- Run SadTalker as a Stable Diffusion WebUI Extension.
- https://www.geeksforgeeks.org – How to Install FFmpeg on Windows?
- Frequency Asked Question
- ffmpegのエラー
- https://github.com/Winfredy/SadTalkerhttps://github.com/Winfredy/SadTalker
Sadtalkerはライセンスは?商用利用できる?
Sadtalkerは、Githubのオープンソースソフトウェアで最も多く使われているMITライセンスが適用されています。
つまり、Sadtalkerは商用利用できるようです。使用条件は下記です。
このソフトウェアを誰でも無償で無制限に扱って良い。ただし、著作権表示および本許諾表示をソフトウェアのすべての複製または重要な部分に記載しなければならない。
ウィキペディア MIT License
ライセンス全文
まとめ
以上、SadTalkerをWebUIで利用する方法について紹介します。
今回情報が少なくこともあって、色々とてこずりました。
もし、利用についてトラブルがあればコメント欄から気軽に連絡ください。
コメント