WebUIで動画生成!!!【text-to-video】

2023 3/23

2023年3月22日 2023年3月23日

こんにちは、画像生成AIでひたすら猫のイラストを生成しているじょじお（＠jojio‗illust）です。

Stable DeffusionのWebUI上で利用できる、テキストから動画を生成できるツールが話題になっていたので試してみました。

あわせて読みたい

【Eagle】画像生成AIの大量の画像を管理するベストな方法大流行中の画像生成AI楽しいですよね。しかし、楽しみながら作成したAI画像が増え続けて、整理に頭を悩ませていませんか？今回の記事では、そんな課題を解決するコン…

▲AI画像の大量ファイルをプロンプトと一緒に簡単に整理する方法はこちら。

あわせて読みたい

画像生成AIのプロンプトで使える素材・マテリアルに関連する英単語100個こんにちは、画像生成AIでひたすら猫のイラストを生成しているじょじお（＠jojio‗illust）です。この記事では、MidjourneyやStable diffusionなどの画像生成AIで使え…

▲素材に関連する英単語100個以上まとめました。

あわせて読みたい

【画像生成AI】Midjourneyでプロンプトによく使う言葉まとめこんにちは。AI画像生成を楽しんでいるじょじお（@jojio_illust）です。この記事は、筆者が画像生成AIのプロンプトによく使うワードをまとめている記事です。主にMidj…

▲すべてのプロンプト関連記事はこちらにまとめています。

あわせて読みたい

【Midjourney】Discordに自分だけのサーバーを作成して作業を効率化しよう。こんにちは。画像生成AIを楽しんでいるJOJIO/じょじお（@jojio_illust）です。皆さん、Midjourney楽しんでいますでしょうか？この記事では、Discordに自分専用のサー…

▲Midjourneyユーザー向け。専用Discordサーバーを作って画像生成作業を効率化する方法。

「modelscope」text2video

筆者がModelscopeで作った動画

ModelScopeというテキストから動画を生成できるツールがTwitterで話題になっていました。

上のような動画をテキスト入力だけで簡単に作れるツールのようです。この動画は、実際にテキストだけで私が作った動画ですｗ

そして先日、Stable Deffusion WebUI上で利用できる拡張機能をどなたかが作ってくれたようなのでそちらを試してみました。

参考

modelscope

「modelscope」text2videoのインストール方法

前提条件

Stable diffusionをWebUIをインストール済みであること
PCのディスクの空き容量が10GB程度必要。

WebUIをインストールしていない方は下記にインストール方法を紹介しています。

あわせて読みたい

【超初心者向け】Stable Diffusionのインストール方法（Automatic1111）こんにちは、画像生成AIでひたすら猫のイラストを生成しているじょじお（＠jojio‗illust）です。この記事はStable Diffusionを自分のPCでWebUIで利用するための手順に…

ModelScope拡張機能のインストール

じょじお

早速インストールしてみます。
インストールはWebUI上から行います。

▲WebUIを起動したら、「Extensions」タブをクリックして、「Install from URL」をクリック。

下記のURLを入力して、Installをクリックします。

拡張機能のリポジトリURL
https://github.com/deforum-art/sd-webui-modelscope-text2video.git

インストールは数秒で終わるはずです。

▲インストールしたらWebUIをリロードします。リロードはWebUIの一番の下の「Reload UI」から。

▲リロードすると「ModelScope text2video」というタブが追加されています。

じょじお

モデルが必要なため、まだ利用することはできません。モデルファイルが必要なのでダウンロードしにいきましょう。

モデルのダウンロード

ModelScope text2videoの実行のために下記の4つの必要なファイルがあります。これらは自分で準備しなければなりません。これを準備していきます。

必要なファイル構成

（あなたWebUIをインストールした場所）\stable-diffusion-webui\outputs\img2img-images\text2video-modelscope\t2v
- VQGAN_autoencoder.pth
- configuration.json
- open_clip_pytorch_model.bin
- text2video_pytorch_model.pth

下記のHugging FaceのURLへアクセスします。

modelscope-damo-text-to-video-synthesis
https://huggingface.co/damo-vilab/modelscope-damo-text-to-video-synthesis/tree/main

▲まずは上の図の3つのファイルをダウンロードして下記の場所に保存します。

（あなたWebUIをインストールした場所）\stable-diffusion-webui\models\ModelScope\t2v

▲ModelScopeフォルダと、t2vフォルダは、自分で新たに作成する必要があります。

設定ファイルの設置（configuration.json）

最後にモデルを設置した場所に設定ファイルを作成します。

▲stable-diffusion-webui\models\ModelScope\t2vの中に空のテキストファイルを作成して「configuration.json」という名前に変更します。拡張子を変更することでテキストファイルをJSONファイルに変更します。

PCの設定によっては、ファイルの拡張子を変更できません。そういう時は、Windows11であれば「エクスプローラー＞表示＞表示＞ファイル名拡張子のチェックをオン」の手順で拡張子を表示できます。

▲Hugging Faceの「Configuration.json」をクリックして開きます。

▲Configuration.jsonの中身をコピーします。コピーしたら、先ほど作成した空っぽのConfiguration.jsonに張り付けて保存して閉じます。

以上でインストールは終わりです。

最終的に下記の4つのファイルを格納しました。

「modelscope」text2videoのWebUIの操作方法

じょじお

早速使ってみましょう！
動画生成は「Modelscope text2video」タブから行います。

▲Modelscope text2videoタブに移動したら、画像生成と同じように、プロンプトとネガティブプロンプトを入力して「Generate」ボタンを押すだけです。

今回使用したプロンプトはこちら。

masterpiece, best quality, graffiti pikachu, skating , street

text, watermark, copyright, blurry, EasyNegative

じょじお

動画が生成されているかどうかはWebUI上ではわからないので、常駐しているコマンドプロンプトのログを見ましょう。

じょじお

初回実行時だけ、必要なファイルのセットアップのために少しだけ時間がかかるみたいです。

じょじお

WebUI上で実行完了が確認できません（バグかな）
コマンドプロンプトを確認し、上の図のように緑の文字で「Done」と表示されれば生成完了です。

じょじお

ファイルは上の図の「Update the video」ボタンをおせばWebUI上で動画を見ることができます。

作成した動画の紹介

じょじお

いくつか作ってみたので紹介します。

Ouroboros cat#texttovideo #stablediffusion pic.twitter.com/Ik2B9XwZVI
— じょじお_AI（猫大好きおじさん）‗NFP公式アンバサダー (@jojio_illust) March 22, 2023

波乗りピカチュウ！！#text2video #stablediffusion pic.twitter.com/DCevSSASla
— じょじお_AI（猫大好きおじさん）‗NFP公式アンバサダー (@jojio_illust) March 22, 2023

Text-to-video#stablediffusion pic.twitter.com/Nty1kAfRYF
— じょじお_AI（猫大好きおじさん）‗NFP公式アンバサダー (@jojio_illust) March 22, 2023

パラメータとかエラーとか。

パラメータについて

基本的にはText-to-imageとパラメータは同じようです。Text-to-Videoならではの設定は、frames, fpsなどがあります。

FPS：数値を上げるほど滑らかになる。デフォルト15
フレーム：大きくすると生成時間が長くなります。

保存場所

生成した動画は下記のフォルダに保存されます。

(あなたがWebUIをインストールした場所)\stable-diffusion-webui\outputs\img2img-images\text2video-modelscope

エラー：No such file or directory

下記のエラーが出る場合は、「configuration.json」が正しく認識されていません。

Git commit: 1cf09f31 (Tue Mar 21 21:56:03 2023)
Starting text2video
Pipeline setup
Exception occured
[Errno 2] No such file or directory: ‘C:\stable-diffusion-webui\models/ModelScope/t2v/configuration.json’
ModelScope text2video extension for auto1111 webui

下記を確認しましょう。

jsonファイルがテキストファイルの拡張子になっていないか
jsonのファイル名が間違っていないか
保存場所が間違っていないか
フォルダ名が間違っていないか。

エラー：CUDA out of memory

フレーム数をマックスにしたら下記のエラーが出た。

CUDA out of memory. Tried to allocate 6.25 GiB (GPU 0; 12.00 GiB total capacity; 9.55 GiB already allocated; 308.06 MiB free; 9.70 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
エラー

VRAMが足りないらしい。フレーム数を下げるか、「max_split_size_mb」の設定を有効にすれば回避できる可能性もあるようです。

私はこの機能に関しては試していませんが、以前、「max_split_size_mb」の設定を変更したことがあります。変更方法はその記事をご覧ください。

あわせて読みたい

【エラー】Automatic1111で画像が生成できないときの対処方法こんにちは、画像生成AIでひたすら猫のイラストを生成しているじょじお（＠jojio‗illust）です。 Stable Diffusion WebUI Automatic1111を利用中に下記のエラーが出ま…

shutterstockという透かしが入る。

ネガティブプロンプトで、テキストを消す対策をしても、shutterstockの透かしが必ず入ってしまいました。

仕様かもしれません。わかり次第追記します。

使ってみた感想。

私のPC（RTX3060 VRAM16GB）では、256×256サイズの2秒の動画（フレーム数40）を生成するのに、2分30秒くらいかかります。もう少し早く生成できたらうれしいなぁと思っちゃいました。

また、大きいサイズの動画を生成しようとすると途中で止まってしまいます。画像生成よりもPCスペックが求められそうです。

NVDIA グラフィックボード一覧

ModelScopeの応用的な使い方として、生成した動画をimage-to-imageして、自分好みのスタイルに変化させている方がいました。

AI#modelscope の文章から動画を0から生成する #Text2video　出力動画（上）を使って
既存のSDのi2iに通してみる（下）テスト。
動きの連続性は今一つだが、許容範囲くらいにはなってくれているのではないか。 pic.twitter.com/Wmzqib02nh
— 852話(hakoniwa) (@8co28) March 20, 2023

Modelscope提供のモデルは、今現在流行している画像生成用2次元イラスト専用モデルと比較するとクオリティが劣ります。

i2iできたら、利用の幅も増えそうです。こちらも今度試してみたら記事にて紹介したいと思います。

まとめ

以上、Text-to-Videoについて紹介しました！

じょじお

最後まで読んでくださってありがとうございます！
この記事がお役に立てましたら、シェアボタンからシェアしていただけたら嬉しいです！

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

コメント一覧（2件）

memeko より:

2023年4月10日 8:44 AM

こんにちは！
colabでやったらクラッシュしちゃいました。
やっぱりスペックの高いPCじゃないとだめなんですかね！

返信
- jojio より:
  
  2023年4月15日 8:09 PM
  
  レスおそくなって、すいません・・・。
  結構スペック必要と思います。わたしも大きい動画作ろうすると止まっちゃいます。
  
  返信