【誰でも簡単】AIで画像を動画化。原稿を読ませてみました!(リップシンク)
こんにちは、画像生成AIのプロンプトを研究している じょじお(@jojio‗illust)です。
この記事ではAI画像を好きなテキストやレコード済み音声をしゃべらせることができるサービスを紹介します。
▲AI画像の大量ファイルをプロンプトと一緒に簡単に整理する方法はこちら。
Stable Diffusionのプロンプトエンジニアリングの基本について理解したい方には、初心者向けのプロンプトガイドを作りましたのでそちらを見てください!
AI画像に原稿を読ませる方法
こんにちは。
写真やイラストにテキストを読んでもらうサービスを紹介します。
紹介するサービスの名前は、Creative Reality™ Studioです。
このサービスは、AIのテクノロジーを使って、1枚の静止画を、文章を喋る動画にしてくれるサービスです。
上の動画は、実際に私が作った動画です。
表情や口元の動きが滑らかでリアルじゃないでしょうか。
どうでもいいけどマグロバスターってなに?
台本はChatGPTに考えてもらいました♪
Creative Reality Studioとは?
Creative Reality Studioは、D-ID社というイスラエスの会社が運営するサービスです。
一枚の静止画を用意するだけで、原稿をとても流暢に読んでくれます。
- 画像を渡すと動画にしてくれるサービス。
- できることは、「原稿を読ませる」か「音声ファイルに合わせて口パク」の2つ
- 写真やイラストやAI画像が使える。
- 写真の眼や口を、AIが自動で認識して、滑らかに動かしてくれる。
- 基本有料だけど、無料で数クレジットあそべる。
無料ユーザーでも、数クレジットだけお試しで使うことができるよ。
Creative Reality Studioを使うためのステップ
Creative Reality Studioは、下記の4つのステップだけで簡単に動画をつくれます。
5分あれば1本の動画をつくることができるでしょう。
- Creative Reality Studioにサインイン
- 画像のアップロード
- 原稿(テキスト)の設定
- 生成ボタンをクリック
Creative Reality Studioの使い方解説
実際に使ってみます!
⓪サインイン
Creative Reality™ Studioにアクセスします。下記のURLからジャンプできます。
https://studio.d-id.com/editor
▲動画生成にはサインインが必要です。アカウントを作りましょう。Googleなどのアカウント連携ができます。
①画像素材の追加
▲自分のアカウントでログインしたら左側メニューのCreate Videoをクリックします。
▲画面真ん中に画像素材の一覧があります。既存の素材をいくつか利用できます。
自前の画像を使う場合は、素材の左上にある「+Add」ボタンをクリックします。
ファイルダイアログが開くので、画像をアップロードしましょう。
画像アップロードができない。エラーが出る場合
▲画像によってはエラーが出てアップロードに失敗することがあります。
アップロード時に、喋らせることができるかどうかのチェックを行っているようで、喋らせることができない画像はアップロードできないようです。
失敗する画像の例としては、下記のようなものがあります。
- 人じゃないキャラクター・動物キャラ・擬人化キャラ
- デフォルメされたキャラクターの画像
- 全身が写っていて、顔が小さい画像
成功しやすい画像は下記のような例があります。
- シンプルな構図
- キャラクターが正面を向いている
- 人間のキャラクター
- ポートレイトスタイル(胸から上が大き目に映っている画像)
上記を満たしいてれば実写スタイルじゃない、アニメスタイルの画像でも画像でもアップロード可能です。
②原稿の設定(喋る文章とボイス設定)
▲画像のアップロードをしたら、原稿の設定です。右側のペインで行います。
▲原稿の設定を行います。
- AIに喋らせる内容のテキスト(文字数が多くなるほどクレジットを多く消費します。)
- 各種ボタンです。
- 左:音声再生ボタン
- 中:ブレークの挿入(文中に挿入すると数秒ポーズします。原稿の合間に間を置きたい場合に使える)
- 右:AIで文章の続きを書けます。
- 言語設定:日本語や英語などかなり多様な言語に対応しています。
- ボイス設定:男性や女性などのボイスを設定します。言語によって選べるボイスの数が違います。英語(米)が一番多いです。
- ボイススタイル設定:読み手の感情の込め方・読み方を設定します。ボイスによって対応していないものがあります。
③動画生成実行
▲画像と原稿を設定をしたら右上の「Create Video」をクリックします。
▲消費クレジットと推定動画時間が表示されます。問題なければ「Generate」をクリックします。
Creative Reality Studioで作成した動画の紹介
日本語をしゃべらせてみた(イラストスタイル)
▲イラスト風の画像(にじジャーニーv5 キュートスタイル)にしゃべらせてみた。
英語をしゃべらせてみた(実写スタイル)
▲実写風のイラスト(Midjourneyで生成)にしゃべらせてみたました。
英語・実写系の画像の方が流暢な気がします。
画像の作成方法は?
今回は、画像の作成にStable diffusion とMidjourneyとにじジャーニーを使いました。
使い方は下記を参考にしてください。
1本の動画でクレジットどれくらい減る?
クレジットの消費量はテキストの量によるようです。
わたしは219文字の文章で動画を生成したところ4クレジット消費しました。
短い文章でしたら1クレジットで作成することもできます。
消費クレジットが気になる方は、動画生成を確定する前の確認画面にクレジット消費量が表示されるので、そちらを確認すると良いでしょう。
自分の声や、録音済み音声も使える?
先ほどは原稿をAIに読んでもらいましたが、録音済みの音声を使うこともできます。
▲録音済み音声を使う場合は、画面右側のペインの「Audio」タブをクリックします。
- upload your voiceをクリックすれば音声ファイルをアップロードできます。
- Record voice audioをクリックすると、システム上でその場で音声を録音できるようです(エンタープレイズプランのみ)。
VOICEPEAK 商用可能 6ナレーターセット|ダウンロード版
機械で音声を読み上げたい場合は、Voicepeakがおすすめです。
▲Voicepeakは、今の時点で日本一日本語を自然に発音する音声読み上げソフトです。YouTuberが良く使用しています。
自分の写真も使える?
今回、AI画像を使って遊んでみましたが、自分のリアルな写真を使うことも可能です。
もちろん、当たり前ですが肖像権などの問題はクリア済みの写真に限ります。
無料で利用する口パク動画を作成するには?Sadtalker
あなたがもしStable Diffusion WebUIの動作環境があるなら、Sadtalkerというオープンソースのソフトウェアがあります。
精度はD-IDと同等かなぁと思います。そこまで差は感じません。
Sadtalkerの使い方は下記の記事を参考にしてください。
まとめ
以上、AI画像に原稿をしゃべってもらう方法について紹介しました。
最後まで読んでくださってありがとうございます!
この記事がお役に立てましたら、シェアボタンからシェアしていただけたらうれしいです!
コメント