story | Suguru Niino

コンテンツ制作とAI

zets2VOLntnPNG8EI6ngU_48e72394c75f417aa968fa12be563d4f_00001.jpg

何を創るかなぜ創るか

1956年の「ダートマス会議」で名付けられ、1966年の対話型AI「ELIZA」から始まった歴史。

かつては人間が定めたルールの枠内で動く「優秀な計算機」に過ぎなかったそれは、今や人間

の魂や想像力と共鳴し、新たな次元へと上昇しつつあります。

現在、我々の情報を猛スピードで吸収し進化を続けるAIは、世界中に熱狂と疑念を同時に生み

出しました。特異点にいち早く触れた者たちが「自己を拡張するツール」として熱狂的なコミ

ュニティを築く一方、技術が大衆化するにつれて、ネット上には粗製濫造された「AIスロップ」

が溢れ返るようになります。

人間の仕事や文化圏への侵食に対する恐怖。加速する規制や反発のムーブメント。混沌とした

この時代において、我々は逆説的に「創作の本質とは何か」を強く突きつけられているのです。

何を、なぜ創るのか。
今一度立ち止まって考える時がきたのかもしれません。

2022年、Midjouneyがディスコードで使用できるようになった。その時に初めて作成した画像(左)。

今となっては味のある画像である。右は2025年にMidjourneyで同じプロンプトで出力したもの。

「2022年ランダムで偶然的だった時代」

2022年の夏。「言葉から画像が生成できる」という情報を知り、私は早速Discordのサーバーへと参入した。

その名も「Midjourney」。どういう理屈で何が作れるのかもわからないまま、見よう見まねで「プロンプト」

と呼ばれる英単語を打ち込んでみる。出力されたのは、なんだか奇妙な画像だった。
（当時のプロンプトの残骸：A_co-star_of_an_aquamarine_girl_and_an_amethyst_girl_on）。

誰かが出力した呪文を少し変えてみたものの、意図はうまく反映されない。「当時はこんなものか」と見切り

をつけ、無料分のクレジットを使い切った私は、すぐにその画面を閉じた。

しかし、世界はそこから一気に加速する。オープンソースの「Stable Diffusion」が世界に放たれ、年末には

「ChatGPT」がドロップされた。無法地帯とも言える熱気を帯びたモデル共有プラットフォーム「Civitai」が

動き出したのもこの頃だ。

Stable Diffusionのモデル——いわゆる「Checkpoint」が出回り始めると、状況は一変する。当時を知る者なら

誰もが通った実写系定番の「ChilloutMix」や、アニメ・イラスト系の「AOM (AbyssOrangeMix)」などの登場

により、驚異的なフォトリアル表現や美麗なイラストが個人のPCで可能になっていった。

同時に、優れたプロンプトを編み出す「呪文師」と呼ばれる人々が登場し、ノウハウを共有するサイトが急増。

ローカル環境で無限に生成できる自由度も相まって、生成AIの波は爆発的に広がっていくことになる。

だが、当時のAI生成はあくまで乱数に依存する「ガチャ」と形容される代物だった。

手足の構造的な破綻も日常茶飯事で、思い通りの構図をコントロールするには限界があり、クリエイティブの

「実用」として現場に組み込むには、まだ高く分厚い壁が存在していた。

それでも今後を見据えた際に「ワンオペ力」を底から持ち上げる強力なツールになるに違いないと思い、実験に実験を重ねていった。

指がおかしいまだまだ初期の頃の画像。
今でこそほとんど入れる必要のないネガティブプロンプト。

当時はEasyNegativeやbadhandなどEmbeddingが必須だった。

明らかに破綻しているが、これも味があって好きな１枚。

気を抜くとわけのわからないものが出力される。ステップ数、CFG Scale、Sampler(Euler aなど)
Seedなどの設定を使い生成していた。

当時の文字出力は使い物にならなかった。

だがこれも例に漏れず今では味がある。

2023年4月頃。初めてコンセプトを絡めたものを制作した。飲み物とキャラクターのコラボというもの。時代が時代なので未発表作品。

「2023年制御への道とControlNetの衝撃」

AIがある程度、美麗なイラストやフォトリアルな画像を出力できるようになると、クリエイターたちの次なる課題は「狙った構図を確実に出せるかどうか」へとシフトしていった。

そこで登場したのが、生成AIの歴史を真っ二つに割るゲームチェンジャー「ControlNet」だ。

OpenPose（骨格抽出）やCanny（線画抽出）を用いて、AIに強制的に構図やポーズを指定するこの技術は、

不確実だった画像生成を「実用化」へと一気に押し上げた。「とんでもない天才が現れた！」と、PCの前で衝撃を受けたことを鮮明に覚えている。

「制御」を手に入れたことで、界隈の探求心はさらに加速する。「この制御機能を1コマずつ適用すれば、破綻しないアニメーションが作れるのではないか？」その執念から、実写のダンス動画などをAIでアニメ調に変換する（Video to Video）手法が次々と誕生した。服の柄や背景が毎フレームごとにチカチカと変容する、あの独特で荒削りな「AI動画」の夜明けである。

その後、技術はさらに飛躍し「AnimateDiff」が誕生。これにより、ローカルのPC環境でもついに「滑らかで一貫性のあるAI動画」がある程度出力できるようになった。

時を同じくして、Runwayがニューヨークで世界初のAI映画祭「AIFF」をスタートさせたのもこの年だ。後にRunwayの看板となる動画生成AI「Gen-2」もリリースされ、AIは単なる「静止画のガチャ」から、時間と動きを伴う「映像表現の本格的なツール」へと劇的な進化を遂げていった。

当時作った動画。ガチャ要素から意図的に制御可能になり「何を創るのか」というフェーズに移行したと言える。

(左)こちらはControlNetが出る前に１コマずつSeedを合わせて作成した動画。実写撮影したデータを一コマずつ画像として出力し、１枚ずつ生成するという力技。安定するはずもなく秩序はまったくもって皆無だが、これも今となっては味がある。

(右)RunwayはGen-1のアーリーアクセスで使用する機会がなく、Gen-2からためすことができた。描写としてはまだ未完成ではあったが、一部を用いるくらいなら実用も可能ではあった。

「2024年動画生成の飛躍とSoraの衝撃」

2023年から2024年にかけて、世界中でAI動画コンペティションが急増し、それに呼応するように各動画生成サービスもすさまじいスピードで進化を続けていった。

そんな中、突如としてOpenAIが「Sora」を発表する。その圧倒的なクオリティの前に、世界中の映像クリエイターは文字通り「絶望と熱狂」に包まれた。それまで何とか動画を作れるようになったとはいえ、まだ「絵を無理やり動かしている」という不自然さが残っていたAI動画のレベルが、一気に「物理法則や3D空間をまるごとシミュレートする」次元へと跳ね上がったのだ。

だが、Sora自体はすぐには一般向けサービスとして放たれることはなく、結果的に年末まで出し渋られることになる。

Soraがもたもたしているこの数ヶ月の間に、世界の勢力図は大きく塗り替えられた。 Luma Dream Machine、Kling AI、そしてRunwayのGen-3 Alphaといった強力なモデルが次々と登場し、実験の枠を超えて「実際の映像制作の現場」へと本格的に投入され始めたのだ。

生成できる秒数や破綻のない一貫性といった課題は急速に改善されていく。ここまでで成熟しきっていた画像生成AIで高品質なキーフレームを作り、それを高精度な動画モデルで動かすというワークフローが確立。さらに、かつてはHugging Face上の難解なツールを駆使して泥臭く合わせていた「リップシンク（口の動き合わせ）」機能までもが標準搭載されていった。ただの短い不思議なクリップだったAI動画は、ついに長尺に耐えうる一つの「作品」へと昇華されたのである。

私自身、これまでのスタジオ撮影や音響制作といった物理的なワークフローに生成AIを本格的に組み込み、YouTubeコンテンツや映像作品の実制作に投入し始めたのも、まさにこの時期だった。

左側がGen-3Alpha、真ん中は初期のKling、右は初期のLUMA。それぞれキーフレームを使った生成。用意した動画とプロンプト次第で作品を作れる段階に到達した。GoogleのVeoも登場するが、2025のVeo3までインパクトはお預け状態。

画像や動画生成の目覚ましい進化の裏で、オーディオ分野の劇的な並走も見逃せなかった。

2023年の時点で、Metaからテキストで音楽を生成する「MusicGen」や、環境音・効果音の「AudioGen」といったオープンソースAIが登場し、「聴覚の拡張」も静かに始まっていたのだ。

私自身、音響や撮影をなりわいとするクリエイターとして、合成音声「RVC（Retrieval-based Voice Conversion）」という技術に熱中し、日々実験を繰り返していた。自らの音声データを用意し、黒い画面でエポック数を睨みながら、独自の音声モデルである「.pth」ファイルを泥臭く錬成していく。完成したモデルを「VC Client」に読み込ませ、リアルタイムのボイスチェンジを成功させたり、AI VTuberのテストとして歌を歌わせたりと、声帯すらも自由にハックし、再構築できる時代を肌で感じていた。

そして時を同じくして、音楽生成AI「Suno」が突如として発表され、ラジオで流れていても遜色のない圧倒的なクオリティで、生成音楽の覇権を一気に掻っ攫っていく。

かくして2024年。ついに「画像」「動画」「音声」という、クリエイターの想像力を物理空間へ出力するための**「三種の神器」**が完全に揃い踏みした。これらの技術は、互いに絡み合いながら、2025年、そして現在に向けて、その練度と表現の解像度を恐ろしいスピードで上げ続けている。

A Wizard's Journey

00:00 / 02:00

Tranquil Vibes

00:00 / 01:30

SunoのV3で初期の頃に出力したデータ。

「2025年強化された一貫性と音声同時生成」

「画像」「動画」「音声」の三種の神器が高品質化したとはいえ、実制作においてはそれらを編集ソフト上で泥臭く組み合わせる必要があり、何より「キャラクターや世界観の一貫性（コンシステンシー）」を保つことは依然として困難だった。

その壁を最初に打ち破ったのが、Runwayの「Gen-4 References（リファレンス機能）」だ。コンペティション『Gen:48』の中で先行公開されたこの機能は、同一人物の正面・横・後ろ姿といったデザインを固定し、ついに「筋の通った映像的物語」を構築することを可能にした。

さらに、圧倒的な文字と画像の制御力を誇る「Nano Banana」の登場や、Googleの「Veo 3」、進化を続ける「Kling」などによる、環境音と映像を単一のプロンプトで生み出す「ネイティブオーディオ」の時代が到来。インタラクティブAIや自律駆動のエージェントAI、LLMの指数関数的な飛躍も相まって、技術のパズルは完全に組み上がった。

様々な業界がAI活用を模索し、11月には日本初の本格的なAI国際映画祭が開催されるなど、世界中でコンペティションが活況を呈するようになる。

しかし、技術の大衆化は「誰もが簡単に作れる時代」をもたらすと同時に、SNSや動画プラットフォームに粗製濫造された「AIスロップ」やディープフェイクを氾濫させる結果も生んだ。思い描いた通りの物語を完全にコントロールして出力できるようになった今、逆説的にクリエイターたちは**「なぜ創るのか」「何を伝えたいのか」というメッセージ性を問われるフェーズに突入したのである。

取材の場で、私はこんなことを聞かれたことがある。

「あなたはカメラや音響のプロとして、普通に映像を創ることもできるはずだ。なぜ、あえてAIを使うのか？」

制作費や効率化というツールとしての優秀さは当然ある。だが、本質はそこではない。単に新しくて物珍しいから使っているわけではなく、私には明確に「自己表現として描きたい世界」があり、それを最も純度の高い状態で実現するための拡張ツールとしてAIを選択しているのだ。2022年の不確実なノイズの時代からその可能性を信じ、今日まで泥臭く使い続けてきた理由はそこにある。

生成AIというツールは、クリエイターの壁を破壊する。 AI生成ミュージシャンのザニア・モネ（Zaniah Monet）が大手レコード会社と数百万ドルの契約を結んだように、従来の方法では業界の入り口に立てなかった才能を開花させる「拡張ツール」としての側面は確実に存在する。一方で、ハリウッドにおいて「生成された俳優には語るべき人生経験がない」と強烈な反発が起きているのも事実だ。

賛美と疑念、数多の意見が交錯するこの時代において、私の中の答えはシンプルだ。生成AIも、高度なCGも、便利なプラグインも、等しくひとつの「筆（ツール）」でしかない。

最も重要なのは、そこから出力された作品の中に、創る者の意志、信念、そして「生き様」が反映されているかどうか。語らずには、話さずには、演じずには、歌わずにはいられないほどの情動があって初めて出力されるべきである。魂の乗っていないノイズは時代とともに淘汰される。これはAIに限らず世の中にある表現全てに言えることである。

私はこれからも、自身の物理的な技術とAIを掛け合わせ、不可視の境界線を描き出していく。

一貫性を保ちつつキャラクターの向きなどを変えて生成。
ストーリーボード制作時に役に立つ。

権利関係について

生成AIをめぐる議論において、学習データの透明性や権利問題は避けて通れない課題です。（※なお、悪意を持って作成されるディープフェイク等については論外であるため、ここでは割愛します）。

日本におけるAI学習の著作権の扱いは、著作権法第30条の4における「非享受的利用」がひとつの鍵となります。例えば、特定の作家Aの絵を「模倣するために見ながら描く」のは享受的利用ですが、「画力を上げる過程でAの絵から構図や色彩の感覚を学んだ」状態は非享受にあたります。これは人間の学習プロセスと何ら変わりません。

創作的表現において最も重要なのは、そこに「他者の権利を侵す意図的な操作」があるかどうかです。私は自身の創作において、以下の3つのルールを徹底しています。

生成のプロンプトに固有名詞（既存の作家名や作品名）を使用しない。
Image to Image（画像からの生成）において、他者の著作物を参照元にしない。
生成された人物やアイテムは必ず逆画像検索にかけ、既存の作品と明確に「該当・酷似」する結果が出た場合は使用を破棄する。

なぜ人間はAIを拒絶するのか

法的なルールを遵守することは前提ですが、それだけでは社会の摩擦は消えません。そもそも、人類が無意識にAIを拒否する根底には何があるのでしょうか。

それは、AIで表現されたものであっても「文化的に人の心を動かせてしまう」と、皆がどこかで気づいているからだと思います。文字通り、人間の血と汗と涙の結晶である芸術が踏みにじられるような恐怖です。ある実験では、「人間が描いた絵」であっても「AIが描いた」と偽って見せるだけで、途端に鑑賞者の共感が薄れるという結果が出ました。つまり、私たちが作品において無意識に重んじているのは、込められたメッセージ以前に「生身の人間が創った」という種族的な共感なのです。

これは、生活圏に未知の異種（AI）が入り込んでくることを拒む、人類の「無意識的な生存戦略」と言えるでしょう。

イノベーター理論におけるラガード（遅滞層）や、2:6:2の法則が示すように、社会には常に新しいものを拒絶し、現状を維持しようとする層が一定数存在します。しかし、この多様性（ブレーキをかける存在）があったからこそ、我々は急激な変化で絶滅することなく、種として生き残ってこられたのもまた事実です。

だからこそ、新しい状況をただ思考停止で拒絶するのではなく、対話と議論を続け、お互いの立場をリスペクトし合うことが不可欠です。法律の理解はクリエイターとしての最低限の義務ですが、それ以前に「同じ種族の生き物としてどうあるべきか」。私はその本質的な問いから逃げることなく、AIというツールと向き合い続けていきます。

​何を創るか なぜ創るか

「​2022年 ランダムで偶然的だった時代」

「2023年 制御への道とControlNetの衝撃」

「2024年 動画生成の飛躍とSoraの衝撃」

「2025年 強化された一貫性と音声同時生成」