〜 キャラ画像1枚+テーマだけで、同じキャラの解説動画が量産される仕組み 〜
はじめに
YouTube・SNS 用にキャラの解説動画を「シリーズで出していこう」と動き出した方なら、すぐに気づくはずです。
1本作るのにキャラを描き、台本を書き、スライドを組み、声を録音し、テロップを打ち、効果音を合わせて――10分の動画でも、ここまで揃えるのにまる1日は当たり前にかかる。
それを毎週続けるとなった瞬間、ほとんどの人が動画制作そのものから離れていきます。
この「キャラ動画を1本作るための工程」を、まるごとツール側に押し込んでしまおうというのが、今回ご紹介するスキルです。
やることは2つだけ。
キャラの参照画像を1回渡す。
テーマを伝える。
それだけで、
キャラクター+図解が1枚に統合された 画面画像
キャラの声で読み上げる TTS 音声(30種のボイスからキャラ属性に合わせて自動選択)
テロップ意味分割と効果音まで揃った 完成 MP4 動画
が、確認画面なしで一気通貫に出来上がります。
コードを書く必要はありません。
動画編集ソフトを覚える必要もありません。
指示を出して、1〜2時間ほっとくだけで MP4 が完成します。
このスキルを、本文ではここから『キャラ動画ジェネレーター』と呼ばせてください。
Claude Code 上で動く、5フェーズ構成の全自動キャラ動画生成スキルです。
動作環境について: このスキルは Claude Code(Anthropic の CLI ツール)が動く環境で使用します。
Claude Code をまだお使いでない方も大丈夫です。
本スキルには Claude Code インストールマニュアル(Mac / Windows 両対応) が同梱されているので、購入後にそのまま導入を進められます。
この記事は、無料エリアでスキルの全体像と価値・自作の壁・判断基準をお伝えし、有料エリアでスキル本体(zip)をお渡しする構成になっています。

このスキルが効くのは、こういう作業をしている方です
キャラが喋る解説動画を、シリーズで継続的に出していきたい
自分のスキル・商品の紹介動画を、毎回ゼロから組むのが負担になっている
顔出し・声録音・動画編集ソフトを使わずに動画を出していきたい
月額の動画AIサービスを買い切りに乗り換えたい
ブランド統一のキャラで、シリーズを資産として積み上げたい
業種は問いません。
動画を「キャラで継続発信したい」人すべてに効きます。
先にひと言だけ:このスキルの真価について
このスキルの本質的な価値は「5フェーズのフロー設計」そのものではありません。
その中で動いている 「キャラと図解を1枚の画像に統合させるプロンプト設計」と「テロップを意味で切って1行に収めるレイアウトロジック」、そして「キャラ属性から声を選び分ける音声マトリクス」 の作り込みにあります。
ここが本当に大変で、全工程の中で一番時間をかけて磨いた部分です。
詳しくは後半でお話しします。
このスキルが、代わりにやってくれること
『キャラ動画ジェネレーター』は、キャラの参照画像を1回渡して、テーマ(または台本)を伝えるだけで、以下のすべてを確認画面なしで一気通貫に自動生成します。
完成 MP4 動画:1920×1080 / 30fps の YouTube 解説動画。
キャラが画面内で解説し、図解・テロップ・音声が同期した状態で出力
シーン別画面画像:各シーンの「キャラ+図解が1枚に統合された」PNG。
サムネ素材・SNS投稿にも再利用可
TTS ナレーション音声:シーン別の音声 WAV。
Gemini TTS の30種ボイスから、キャラ属性に合わせた最適音声で自動生成
動画台本データ:表示用テロップと読み上げ用テキストを分離した構造化台本。
後から個別シーンの差し替えも可能
出力される動画は、そのまま YouTube・X・Instagram・TikTok にアップロードできる形式です。
キャラを1回登録すれば、以降は毎回同じキャラ・同じ声・同じトーンで量産されるので、シリーズとして並べたときに「同じチャンネルの動画だ」とすぐ分かる、ブランドが育っていく構造になっています。
そして特筆すべきは「顔出し不要・声録音不要・編集ソフト不要」という点です。
動画を撮るための機材も、編集ソフトの操作スキルも、声を録るためのマイクも要りません。
あなたが消費するのは「指示を出して、処理を待つ時間」だけ。
出来上がった動画は、上から再生すれば品質を確認でき、必要なら個別シーンだけ差し替えて再合成もできます。

上の画像は、実際にこのスキルで生成した動画のフレームです。
約2分の解説動画を入力台本から自動生成し、24シーンのキャラ+図解統合画像+ TTS 音声+テロップを組み合わせて出力したものです。
使い始めると、こんな変化が起こります
このスキルを導入すると、動画制作との付き合い方が次のように変わります。
ツール1本でカバーできる範囲がかなり広いので、順に紹介します。

① 「動画制作の1日」が「1〜2時間ほっとくだけ」になる
これまで1本に費やしていた制作時間が、ほぼ消えます。
台本を渡せば、画像生成も音声合成も動画合成も自動で進むので、あなたは別の仕事をしていて構いません。
処理が終わる頃に MP4 が完成しています。
「今日も動画作業で1日が終わった」という日常から解放されます。
② キャラが常駐して「ブランド」が育っていく
毎回バラバラのキャラ・声・トーンで作っていた動画が、毎回同じキャラ・同じ声・同じ世界観で量産されるようになります。
視聴者は数本見ただけで「あの人の動画だ」と認識できるようになり、シリーズとして並べたときに一気にチャンネルらしさが出ます。
1本ずつではなく、資産として積み上がる動画に変わります。
③ 顔出し・声録音・編集スキルが、まとめて不要になる
カメラの前に立たなくていい。
マイクで録音しなくていい。
動画編集ソフトを覚えなくていい。
これまで動画を始められなかった理由のかなりの部分が、ツール側で吸収されます。
「動画は出したいけど顔は出したくない」「声に自信がない」「編集ソフトが難しい」――その全部が、キャラと TTS と Remotion で置き換わります。
④ テロップ・図解・音声が「揃った状態」で出てくる
普通の動画AIサービスは、画像やナレーションを出してくれても、テロップは別ツールで打ち直し、図解は別途デザインソフトで作り、効果音は別フォルダから引っ張ってくる――という後工程が残ります。
このスキルは、テロップを意味のまとまりで自動分割して1行に収め、図解はキャラと同じ画像内に統合された状態で出力します。
「出てきたものを並べ替えるだけ」の作業も発生しません。
⑤ 量産しても、追加課金がほぼゼロで済む
月額の動画AIサービスは、本数を増やすほど課金枠を圧迫します。
このスキルは買い切りで、TTS は Gemini API の無料枠で動き、画像生成も既存契約(ChatGPT Plus か Gemini API 無料枠)の範囲で回ります。
1本目も100本目もコスト構造は同じ。
動画を量産しても固定費が跳ねない、というのは続けやすさに直結します。


あらためて整理すると、手に入るものは
時間:動画制作の1日コースが、指示を出して待つだけの1〜2時間に圧縮
品質:キャラ+図解が1枚に統合された画像、TTS音声、意味分割テロップが揃った完成動画
ブランド統一性:キャラ1枚を登録すれば、以降は毎回同じキャラ・同じ声で量産。
シリーズが資産になる
量産性:テーマ・台本を渡すたびに動く。
1本で終わらず、シリーズを順に積み上げられる
挫折ゼロ:確認画面なしの全自動。
指示を出して待つだけなので、途中で止まらない
顔出し・声録音不要:動画の前に立たない・録音しない・編集ソフトを覚えない、で動画を出せる
追加課金がほぼゼロ:TTS は Gemini API 無料枠で動作。
既存契約の範囲で量産可能
テロップが必ず1行に収まる:文を意味のまとまりで自動分割し、長文でも改行されずに表示される後処理を内蔵

末尾の2項目――「追加課金がほぼゼロ」と「テロップが必ず1行に収まる」――は地味ですが、量産する人ほど効いてくるポイントです。
固定費が跳ねないこと、テロップが汚く折り返さないこと。
ここを後処理で潰してあることが、このスキルの実用度を支えています。
どうやって動いているのか(5フェーズの中身を、浅く広くお見せします)
「ブラックボックスのまま売られても困る」というのは正論なので、5フェーズの中で何が起きているかを、すべて概要レベルで開示します。
動かしている実装そのもの(プロンプト設計やレイアウトロジック)はスキル本体の中に組み込まれていて、配置すればこのフロー全体が自動で発火するようになっています。

Phase 0: キャラクターセットアップ(初回だけの1回作業)
最初の1回だけ、キャラの参照画像と属性(年齢層・性別・トーン)をスキルに登録します。
ここでキャラの「設定書」がスキル内部に作られ、以降の動画はすべてこの設定書を参照して量産されます。
2本目からはこの工程は走りません。
一度登録すれば、テーマだけ渡して動画が量産できる状態になります。
Phase 1: 台本生成
テーマを渡すと、「冒頭フック → 問題提起 → 段階解説 → CTA」の流れで台本が組み上がります。
各シーンには「キャラだけ/キャラ+図解/図解だけ」のどれを使うかが自動的に振り分けられ、図解のタイプ(フロー図/比較図/リスト図 など)まで指定されます。
表示用テロップと読み上げ用の文字列は分離して持つので、「正しい漢字で表示しつつ、読み上げは平易な読み方で」を両立できます。
台本を自分で書いて渡すこともできます。
Phase 2: 画像プロンプト生成
各シーンの「キャラ+図解を1枚に統合する」ための画像生成プロンプトが自動で組み立てられます。
レイアウト(キャラ左/右/中央/図解のみ)、図解の配色、テロップ用の下部余白(後でテロップが被らないための領域確保)まで含めて、画像AIに渡す指示書が完成します。
Phase 3: 画像生成
キャラの参照画像を毎回見せながら、シーンごとに画像を1枚ずつ生成します。
生成方式は4通り(Claude in Chrome / Chrome DevTools / Gemini API / ChatGPT GPT Image)から選べて、品質・速度・コストの好みで切り替えられます。
重要なのは毎回キャラ参照画像をスキル側が自動的に添付することで、これにより同じキャラがブレずに出続けます。
Phase 4: TTS 音声生成
シーンごとに音声を生成します。
Gemini TTS の30種ボイスから、Phase 0 で登録したキャラ属性(子供/大人、男性/女性、元気/落ち着き/知的 等)に合わせた音声が自動的に推奨されます。
同じキャラなら毎回同じ声、というブランド統一が崩れません。
Phase 5: 動画合成(Remotion)
ここがこのスキルの心臓部です。
生成画像・音声・テロップを Remotion という動画合成エンジンで1本の MP4 に組み上げます。
テロップはナレーションを「意味のまとまり」で自動分割し、句読点や助詞の位置を見ながら適切な長さで切ります。
長文でも改行されず、画面下部に1行で収まる仕様です。
テロップテンプレートは30種類用意してあり、動画のトーンに合わせて切り替えられます。
ここから先――特に Phase 2(プロンプト設計)と Phase 5(テロップ意味分割)の部分は、ルールの試行錯誤の塊です。
次の章で、その中身を正直にお話しします。
自作するか、買うか — 正直なところをお話しします
ここまで読んで、「自分でも作れそうだ」と思った方もいるはずです。
実際、上記のフロー全体像を理解していれば、技術的にゼロから組むこと自体は可能です。
この記事の中では、作り方のノウハウは全部お話しします。
やれる方はぜひ自作してみてください。
本当に勉強になります。
ただし、ここで一番正直に伝えたいことがあります。
キャラ+図解の統合(Phase 2/3)で、実際に何が起きるか
「キャラと図解を1枚の画像に統合する」のは、ChatGPT や Gemini に普通に頼んでも、最初のうちはほぼ確実に次のようなことが起きます。
1枚目のキャラと2枚目のキャラの顔・髪・服が微妙に違う(量産すると視聴者が違和感に気づく)
キャラがやたら大きくて図解が小さくなり、肝心の説明が読めない
図解の中の日本語が文字化けする・スペルが変わる・別の文字に化ける
「教材動画」と書きたいのに開いた本で描かれる/「量産」が本棚で描かれる、といった字面解釈ミス
画面下部までキャラや図解の重要要素が描かれて、後でテロップを乗せると顔や文字に被る
「ボクもこのスキルから生まれた」のような比喩を、画像AIが文字通り出産シーンで描こうとする
これらを1つずつ潰していくために辿り着いた工夫を、隠さずお話しします。
キャラ参照画像を毎回スキル側で自動添付する仕組み → 顔・髪・服の一貫性を担保
キャラと図解の面積比を YAML で固定する設計(キャラ30%・図解70% など) → レイアウト崩壊を防止
図解のアイコンに「テーマ」を明示するフィールド(video/book/money/tech/time) → 字面解釈ミスを防止
画面下部20%を「テロップ用の余白」として禁止領域に指定するルール → テロップ被りを根絶
比喩表現に対する NEGATIVE LIST を組み込み(NO baby / NO embryo 等) → 文字通り解釈の事故を防止
diagram_only シーン(キャラなし)の構図を1動画に2〜3枚混ぜる設計 → 動画にリズムが出て単調さを回避
このルール群に辿り着くまでに、何十回もの試し生成と微調整が必要でした。
1つ抜けると、すぐに「キャラがブレる」「テロップが被る」「アイコンが意味不明」が再発します。
テロップ意味分割(Phase 5)も一筋縄ではいかない
「ナレーションをテロップにする」のは、簡単そうに見えて落とし穴が多い工程です。
たとえば「動画まるごとマニュアル化スキルを使えば」という1文を画面下部に出すとき、普通に流すと2行に折り返して画面が窮屈になり、固有名詞の途中で改行されたりします。
これを「動画まるごとマニュアル化スキル」「を使えば」のように意味のまとまりで切り、1行に収めるためには、句読点・助詞・固有名詞の位置を判定するロジックが要ります。
音声の長さに合わせて表示時間も配分し直さなければなりません。
この後処理を安定させるだけでも、相応の試行錯誤が必要でした。
キャラ属性 → 音声マトリクスの作り込み(Phase 4)
Gemini TTS には30種類のボイスがあります。
「子供っぽいチビ頭身キャラに、いきなり Male_4(威厳・大人男性)を当ててしまう」と、見た目と声が完全にミスマッチしてブランドが崩壊します。
このスキルでは、キャラの年齢層・性別・トーン・見た目年齢の4軸で、推奨ボイスが自動的に絞り込まれるマトリクスを内蔵しています。
たとえば「チビ頭身のキャラ(実年齢設定が先生でも、見た目は幼い)」には Female_3 Leda(若々しい女性声)を優先する、というように、実年齢ではなく見た目年齢を優先する判定が組み込まれています。
このマトリクスを作るために、30種ボイスを各キャラ属性で実際に当てて聴き比べる、という地味な検証を繰り返しました。
つまり、自作はできます。ただし時間がかかります
ここまでの内容を頭に入れれば、技術的には自作できます。
ただ、こちらはこのプロンプト設計・テロップロジック・音声マトリクスの作り込みに、延べ数日〜数週間を使いました。
同じ完成度に辿り着くには、おそらく同じくらいの時間が必要です。
このスキルでは、時間をかけて辿り着いた完成形のロジックを、すべてスキル本体に組み込んだ状態でお渡しします。
配置すれば、その完成形がそのまま動きます。
「自分の本業や、本来やりたいことの方に時間を使いたい」という方は、買ってしまった方が合理的だと思います。
プロンプトとテロップロジックの試行錯誤に数日〜数週間を使うか、その時間を本業に使うかの選択です。
逆に「試行錯誤こそ最高の学習」という方には、自作をおすすめします。
本当に勉強になります。
自作するか、買うかの判断基準
自作が向いている方:プロンプト開発・試行錯誤が好き、数日〜数週間の調整を楽しめる、学習目的。
購入が向いている方:本業・本来の作業に時間を使いたい、今日から動画量産を始めたい、とにかくシリーズ動画を早く積み上げたい。

このスキルをお渡しします
お渡しするのは『キャラ動画ジェネレーター』のスキル本体一式です。
Claude Code に配置していただくだけで、これまでお話ししてきた5フェーズすべてが動作します。
価格: 14,800円(税込)
特定の業種向けの高額ツールではなく、動画を出していきたいすべての方に手の届く価格にしました。
スキル本体に組み込まれているロジック
5フェーズの自動進行(キャラ+テーマの指定 → MP4 完成までを確認なしで一気通貫)
キャラ+図解を1枚に統合する画像プロンプト設計(面積比固定・アイコンテーマ指定・下部余白確保)
30種ボイスからキャラ属性に最適な音声を自動推奨する音声マトリクス(年齢層・性別・トーン・見た目年齢の4軸)
ナレーションを意味のまとまりで切って画面下部1行に収めるテロップ意味分割ロジック
比喩表現の文字通り解釈を防ぐ NEGATIVE LIST と、画像下部20%をテロップ用余白として禁止領域にするルール
Remotion による画像・音声・テロップの自動合成(30種のテロップテンプレートから選択可)
同梱物
スキル本体(character-video-creator-ss:SKILL.md / スクリプト一式 / 共通ライブラリ)
依存スキル(shared-video-assets:Remotion テンプレート+テロップ意味分割エンジン)
推奨補助スキル(chatgpt-image-devtools-ss:ChatGPT GPT Image 操作・Chrome デバッグ起動手順)
Claude Code インストールマニュアル(未経験の方向け・Mac / Windows 両対応)
スキルを配置すれば、5フェーズのロジックはすべて内部で自動的に動きます。
プロンプトファイルや設定ファイルを個別に扱う必要はありません。

こんな方におすすめです
YouTube・SNS でキャラが喋る解説動画を継続的に積み上げたい方
自分のスキル・商品・サービスの紹介動画を毎回ゼロから作る重さから解放されたい方
顔出ししたくない・声を録音したくない・編集ソフトを覚えたくないけれど動画は出していきたい方
月額の動画AIサービスの固定費が積み上がってきて、買い切りに乗り換えたい方
ブランド統一のキャラを使い続けたい個人事業主・広報・マーケ担当の方
教材・チュートリアル動画を量産したい教育者・講師・コンサルの方
こんな方には向きません
実写撮影・実音声でしか伝えられない情緒重視のコンテンツを作りたい方(このスキルはキャラ動画の量産に特化しています)
生成された動画に最終チェックすら入れるつもりがない方(公開・配布前の確認は必要です)
ルール開発・プロンプトの試行錯誤そのものを楽しみたい方(その場合は自作をおすすめします)

注意事項
Claude Code(Anthropic の CLI ツール)が動作する環境が必要です(Mac / Windows)
Claude Code をまだお使いでない方にも対応できるよう、インストールから動作確認までの手順書を同梱しています
画像生成方式は4通り用意してありますが、ChatGPT GPT Image を使う場合は ChatGPT Plus 以上の契約が必要です。
Gemini API(無料枠でも動作)を使う場合は追加契約は不要です
TTS は Gemini API を使用します。
無料枠で2分前後の動画なら1日数本生成可能ですが、大量生成する日はフォールバックモデルへの切り替えが入ることがあります
生成された動画は、公開・配布の前にご自身で内容をご確認ください
ここから先は購入者限定エリアです。
スキル本体(zip)と、すぐに動かすための Claude Code インストールマニュアルをお渡しします。

