GPT-4V活用: ChatGPTで画像からのAIプロンプト抽出ガイド

2023 10/05

2023年10月5日 2023年10月5日

こんにちは、画像生成AIのプロンプトを研究しているじょじお（＠jojio‗illust）です。

画像をベースにしたAIプロンプトの生成は、バージョンアップしたChatGPTの『GPT-4V』で可能になりました。本ガイドでは、この技術の実用的な方法を詳しく紹介します。一緒に新しいAIの世界を探求しませんか？

ChatGPT 「GPT-4V」とは？

GPT-4Vは、OpenAI社のChatGPTの最新版であるGPT-4にマルチモーダルなインターフェースが追加された最新バージョンのChatGPTのことを指します。

マルチモーダルとは複数種類の入出力データを取り扱うプログラムのことで、具体的には従来のテキストに加え、画像入力による画像解析機能や音声入出力機能が備わりました。これによってChatGPTには「声」と「目」が加わり、以前のテキストのみの時代より、よりフレキシブルなチャットを楽しむことができるようになりました。

GPT-4Vは、有料版であるChatGPT Plusユーザーのみが利用可能です。無料版ではマルチモーダルインターフェースは使えませんので、利用を希望する場合は課金を検討しましょう。

ChatGPT GPT-4Vの「画像解析」機能とは？

ChatGPTの画像解析機能とは、どのようなことができるのでしょうか。X（旧Twitter）では既に画像解析を使った様々なアイデアが投稿されていました。下記はその一部です。

Gpt-4v画像解析機能のアイデア

OCR（Optical Character Recognition）：画像内のテキストを抽出する。
カロリー計算：料理の写真から材料やカロリー情報を表示する
商品名特定：モデルが移った写真からブランド名・商品名を特定する
Webデザイン：アプリケーションのスクリーンショットを元に、アプリのレイアウトを再現したフロントエンドのプログラムソースコードを生成する

GPT-4Vの「画像解析」を使った画像生成AI用プロンプト生成方法とは？

画像解析機能を使えば、画像生成AI用プロンプトの作成の手助けになります。

過去には、ChatGPTをベースにした画像生成AI用のプロンプトの生成に、いくつかのプラグインが使用されていました。具体的には次の例があります。

SceneXplain: 画像URLを基にしたプロンプト生成
Photorealistic: 日本語テキストプロンプトをもとにした画像生成AI用プロンプトの作成

これらのプラグインを使用すると、AI画像用プロンプトのサポート受けることが可能となります。しかし、GPT-4Vの「画像解析」機能を用いることで、より直感的かつ効果的なプロンプトを対話形式で生成することが可能になりました。

じょじお

今回紹介する方法は、画像生成AI MidjourneyのDescribe機能と同じアプローチでプロンプトを生成します。

【Midjourney】 Describeコマンドでプロンプトを攻略しよう！

ChatGPT GPT-4Vの「画像解析」機能の基本的な使い方

では、実際にGPT-4Vの「画像解析」機能を使ってみましょう。まずは基本的な使い方を理解します。

画像解析機能はChatGPT Plusユーザーであれば、PC版・スマホアプリ版（Android/iPhone）のどちらでも利用可能です。

▲画像解析はGPT-4の機能となりますので、GPT-4を選択します（画像内①）。そして画面下のテキストボックスの左端に画像アイコン（画像内②）が表示されていることを確認してください。このアイコンをクリックすると解析対象となる画像をアップロードすることができます。画像は複数アップロード可能。

▲画像解析機能を初めて使う場合、このようなポップアップが表示される場合があります。

画像アイコンが表示されない場合、あなたはまだこの機能を利用できていないかもしれません。GPT4vは段階的にロールアウトを行っており、まだ、あなたの環境に適用されていないことが考えられます。もしそうであれば、全ユーザーへの機能展開をお待ちください。OpenAIによると、10月初旬にはすべてのユーザーに対して展開完了の予定です。

▲画像をアップロードしたら、その画像について何をしてほしいかをテキストで説明します。ここでは、まずは簡単に「この画像について説明してください。」という文章を入力して、筆者が事前に画像生成AI Midjourneyで生成した熊の画像を渡してみました。入力したらエンターキーを押すか、右下の実行ボタンを押して送信します。

▲すると、私の依頼に従って、画像を説明する内容のテキストが返ってきました。内容は次の通りです。

【出力結果】
画像には、森の中に立つ大きな茶色のクマが写っています。このクマは、手に白い空の看板または紙を持っていて、それをカメラの方に見せています。背景には木々や道路、そして少し離れた場所にある建物も見えます。クマは前方を向いており、その表情は静かで落ち着いているように見えます。看板や紙には文字やイラストは描かれていないため、何を伝えようとしているのかは分かりません。このような構図は、ユーザーが自由にメッセージやテキストを追加するための空白として利用できそうです。

出力内容を確認した結果、「森の中に立つ熊が白い看板を持っている」という記述は、画像の内容と完全に一致していました。さらに、この画像の使用目的まで明示されています。精度は高く、信頼性が確認できました。

画像をアップロードする
画像から取得したい情報をテキストで説明する

以上の2つのステップが画像解析の基本的な使い方です。

ただ、画像生成AIの経験者であればご理解いただけると思いますが、出力されたテキストは文章調であり、一般的に単語の羅列が主流となる画像生成AIのプロンプトとしては不適切です。

このため、依頼文を適切な形に修正する必要があります。次項で、その具体的なプロンプトの修正例を紹介します。

ChatGPTで画像生成AI用プロンプトを生成するためのプロンプト（コピペOK）

プロンプトを改良していきます。まず次のように画像生成AIのプロンプトの一般的なルールを洗い出してみました。

画像生成AIのプロンプトの一般的なルール

文章形式ではなく、単語形式で羅列する。
単語や熟語はカンマとスペースによって連結する。
英語で書く。
重要な言葉・関連性の高い言葉ほど先に記述する。
キャラクターの容姿・構図・カメラアングル・表現スタイル等について具体的な言葉を含める。

このルールを組み入れて、ChatGPTに投げる次のプロンプトを作ってみました。


この画像を基に、以下のパラメータを英語でImage to Textによって抽出してください。
この抽出結果は、画像生成AIの入力データ、つまりプロンプトとして、類似画像を生成するために使用します。
また、以下の情報以外に、画像に特筆すべき要素があれば補足してください。
該当する要素がない場合は空欄でお願いします。
例えば風景写真で人物描写が無い場合は、服装や髪型などは無視します。
複数該当がある場合はカンマと半角スペースで区切って羅列し、各項目は最大4個のデータ数にしてください。

ジャンル：例 Portrait、Landscape、abstract、still life、Documentaryなど
Photo or Other：例 photo, anime, manga, 3d rendered など 
被写体/行動/シチュエーション：例 a girl typing pc at desk など 
髪型：
服装：例 suit, casual wear
感情/表情：
表現手法：例: monocrome, sepia, watercolor など
背景要素・場所（なるべく短く）：例 plain white background, forest など
アートスタイル：
画質：例 high quality, 8k, high resolution, worst qualityなど
構図：例 Rule of Thirds, Center Framing など
フレーム内の配置: 例 man on center, on the slightly left など
ショットアングル： 例 high angle shot, Bird's Eye View  など
ショットサイズ： 例 medium shot, Extremely far など
ショットポジション： 例 front view, side view など
フォーカスメソッド：
ライティング：例 Natural lighting, High Key Lighting など
エフェクト：例 blur, motion-blur, flame effects など
ポストプロセス:写真に対して行われた後処理や編集の情報 など
カメラ種類： 例 Lomography, polaroid, Leika など
レンズ種類:
露出設定:シャッタースピード、アパーチャ、ISOの値 など
質感：画像内の物体や背景の表面の質感やパターン など
年代：画像の推定年代。例 1990s など
色調: 例 Warm Colors, earth color など
彩度:
明度/luminance:
気候/天気:
季節:
時刻: 例 Midday, Golden hour など
画像のコンセプト/テーマ:
使用技術：
Speech bubble/sound effect text：例 ”NICE!” in speech bubble など
類似する作風のアーティスト名・写真家・映画監督：
アスペクト比：例 --ar 2:3, --ar 16:9 など
画像生成AIプロンプト（上記の出力結果をカンマとスペースで連結）：
該当がなかったパラメータや、”None”、”Unkown”等については無視。Boldで出力、画像との関連が高い順に並べ替えを行う。重複する熟語は片方を無視する
画像生成AIプロンプトのトークン数：

このプロンプトを使って先ほどのMidjourneyのクマの画像を使ってもう一度画像解析を依頼してみます。

▲こんな感じで各項目に関連するワードを出力されます。一番下に、実際に画像生成AIにコピペして使えるプロンプトが生成されるので、これをコピーします。

Conceptual, photo, cat in robot suit, looking at screen, orange jumpsuit, curious, color, factory setting, Realistic, high quality, Center Framing, cat centered, eye level shot, medium shot, front view, Natural lighting, smooth, metallic, futuristic, humorous, Photo manipulation, Empty speech bubble

試しに、このプロンプトを画像生成AIで使ってみましょう。今回は先日DallE2からDallE3にアップグレードされ、こちら大幅にパワーアップしたBing Image Creatorで画像生成をします。

Bing Image Creatorの概要と使い方解説記事

▲Bing Image Creatorの画像生成結果です。①にプロンプトを入力、②のGenerateボタンで生成。

▲元画像との比較してみます。左がMidjourneyで生成した元画像、右が元画像からChatGPTでImg2Txtによって作ったプロンプトを使ってBing Image Creator（DallE3）で生成した画像です。

じょじお

概ね再現できていますね！

ChatGPTで生成したプロンプトで生成した画像

他にもいくつか同様の方法で画像を生成してみましたので紹介します。

▲左：Bing Image Creatorで生成した元画像、右：元画像からChatGPTでImg2Txtによって作ったプロンプトを使ってMidjourneyで生成した画像

Conceptual, photo, cat in robot suit, looking at screen, orange jumpsuit, curious, color, factory setting, Realistic, high quality, Center Framing, cat centered, eye level shot, medium shot, front view, Natural lighting, smooth, metallic, futuristic, humorous, Photo manipulation, Empty speech bubble

▲左：Midjourneyで生成した元画像、右：元画像からChatGPTでImg2Txtによって作ったプロンプトを使ってBing Image Creatorで生成した画像

Abstract Landscape, illustration, colorful waves and hills, color gradients, digital sky with bokeh, Modern, Minimalist, high quality, Layered Hills, Centered hills, Eye level, Full shot, front view, Soft, Ambient, Smooth gradients, Contemporary, Vibrant, Pastel colors, High, Bright, Soothing, Abstract Nature, Digital Art

▲左：Midjourneyで生成した元画像、右：元画像からChatGPTでImg2Txtによって作ったプロンプトを使ってBing Image Creatorで生成した画像

Portrait, illustration, woman working at computer, black, long, bun, white shirt, blue pants, focused, flat colors, plain pink background, modern, minimalistic, high quality, Center Framing, woman on center, Eye level, Medium shot, Side view, Soft lighting, Flat, Contemporary, Cool colors, Medium, Soft, Work from home, Digital illustration

▲左：Nijijourneyで生成した元画像、右：元画像からChatGPTでImg2Txtによって作ったプロンプトを使ってBing Image Creatorで生成した画像

Portrait, illustration, girl with various expressions, blonde, wavy, red sweater, varied, flat colors, plain beige background, modern, anime, high quality, Grid layout, girl centered, Eye level, Medium close-up, Front view, Soft lighting, Smooth, Contemporary, Pastel colors, Medium, Soft, Emotional range, Digital illustration
連結結果のトークン数：28

Stable Diffusionのプロンプトを作成できるChatGPTプロンプト

一応Stable Diffusion用のも作ってみました。Stable Diffusion特有の「Danbooruタグ」や「Stable Diffusion WebUI用の強調構文」に関するルールを加えています。

（下記のプロンプトは調整中のため、後ほど更新します。）


この画像を基に、以下のパラメータを英語でImage to Textによって抽出してください。
この抽出結果は、画像生成AIの入力データ、つまりプロンプトとして、類似画像を生成するために使用します。
また、以下の情報以外に、画像に特筆すべき要素があれば補足してください。
該当する要素がない場合は空欄でお願いします。
例えば風景写真で人物描写が無い場合は、服装や髪型などは無視します。
複数該当がある場合はカンマと半角スペースで区切って羅列し、各項目は最大4個のデータ数にしてください。
パラメータはDanbooruタグの命名ルールに従ってください。

ジャンル：例 Portrait、Landscape、abstract、still life、Documentaryなど
Photo or Other：例 photo, anime, manga, 3d rendered など 
被写体/行動/シチュエーション：例 a girl typing pc at desk など 
髪型：
服装：例 suit, casual wear
感情/表情：
表現手法：例: monocrome, sepia, watercolor など
背景要素・場所（なるべく短く）：例 plain white background, forest など
アートスタイル：
画質：例 high quality, 8k, high resolution, worst qualityなど
構図：例 Rule of Thirds, Center Framing など
フレーム内の配置: 例 man on center, on the slightly left など
ショットアングル： 例 high angle shot, Bird's Eye View  など
ショットサイズ： 例 medium shot, Extremely far など
ショットポジション： 例 front view, side view など
フォーカスメソッド：
ライティング：例 Natural lighting, High Key Lighting など
エフェクト：例 blur, motion-blur, flame effects など
ポストプロセス:写真に対して行われた後処理や編集の情報 など
カメラ種類： 例 Lomography, polaroid, Leika など
レンズ種類:
露出設定:シャッタースピード、アパーチャ、ISOの値 など
質感：画像内の物体や背景の表面の質感やパターン など
年代：画像の推定年代。例 1990s など
色調: 例 Warm Colors, earth color など
彩度:
明度/luminance:
気候/天気:
季節:
時刻: 例 Midday, Golden hour など
画像のコンセプト/テーマ:
使用技術：
Speech bubble/sound effect text：例 ”NICE!” in speech bubble など
類似する作風のアーティスト名・写真家・映画監督：
アスペクト比：例 --ar 2:3, --ar 16:9 など

画像生成AIプロンプト（上記の出力結果をカンマとスペースで連結）：下記のルールに従う。
‐ 該当がなかったパラメータや、”None”、”Unkown”等については無視。
- 画像との関連が高い順に並べ替えを行う。
‐ 重複する熟語は片方を無視する。
‐ 各パラメータは、画像との関連度を基にWeight値による調整を行う。Weight値のレンジは1.0～2.0とする。記述例：(photo:1.5)

画像生成AIプロンプトのトークン数：

対話形式でプロンプトのカスタマイズや修正が可能

このアプローチの素晴らしい点は、対話形式でプロンプトを構築できる点にあります。

出力されたプロンプトが思うような結果にならなかったときは、対話形式で改善依頼ができます。

例えば次のように言ってみます。

色に関するワードをすべて削除するよう修正して。
トークン数が40以内になるように関連度の低い項目を削除して。
プロンプトを使って画像生成したら立体的なイラストになってしまった。もう少し2Dのイメージに近いイラストになるようなワードを含めてプロンプトを調整してほしい。

これによって、改善されたプロンプトを出力してくれます。

プロンプトをカスタマイズするコツ。

今回紹介したプロンプトですが、各パラメータに示された「例. 〇〇」という記述が結構重要なポイントになっています。パラメータを追加するときは、このように具体例を2～3個示すと精度が上がります。

まとめ：ChatGPTで画像のデスクライブが可能

以上、ChatGPTの画像解析機能を用いて、画像生成AIのためのプロンプトの作成方法を紹介しました。よろしかったら画像生成の参考にしてください。

他の用途にも応用できそうなので、新しいアイディアが浮かんだら再度ご紹介いたします。ではまた。

■関連リンク

設定いらずのフルセットなStable Diffuson環境のクーポン券はこちら。

当ブログでは、クラウド上にフルセットで構築されたStable Diffusion環境を低コストで利用できる『生成AI GO』の開発元さんとのコラボにより、50％OFFの特別クーポンを提供中です。『生成AI GO』を利用すれば、エラーコードで悩むことなくStable Diffusionの「AI画像生成」、「AIアニメーション生成」といった最新技術を利用できます。この特別な機会をぜひご利用ください。

クーポンコード：w6NTSLkX

【割引】初月利用料金50％OFF
【適用範囲】全プラン適用
【利用回数】1顧客につき1回のみ
※ユーザー登録後14日間の無料期間がスタート致します。無料期間終了後、有料会員に移行した初月の利用料金が50％OFFの適用となります。

＼ AI美女も、AI動画も！／

「生成AI GO」を無料で試す

紹介記事はこちら