メタバースとは? VRとの違いとサービス事例、将来性
動画制作テクニック
BLOGブログ
米国OpenAI社が開発したChatGPTが2022年11月に出現して以来、ビジネスのあり様に変革をもたらし続ける生成AI技術。去年から今年にかけて、画像生成、そして動画生成の技術が急速に発達し、映像などのクリエイティブ産業に革命が起きています。
今回は動画生成トレンドを俯瞰しながら、映像クリエイターがこの潮流にどう処する必要があるのか。具体的な手法も含めて紹介していきます。
AI業界でされている分野のひとつ、動画生成の技術。画期的なのは、既存の画像から動画を生成するだけなく、プロントと呼ばれるテキストを入力するだけで、ゼロから動画を生成できる点です。
去年の段階では、主にRunwayが提供している「Gen-2」がトップランナーとしてこの分野をリードしていましたが、今年になってから「Pika」(Pika Labs)など、同レベルの生成モデルが続々と市場参入。瞬く間に複数の企業による競合状態に入りました。
Gen-2
https://app.runwayml.com/video-tools/teams/suehiro368/dashboard
Pika
そうしたなか、業界を震撼させるモデルが2月に発表されました。OpenAIの動画生成モデル、「SORA」です。それまでのモデルは動画の精度や出力が十分ではありませんでした。生成される人物や動物などの形に違和感があったり、1度に生成される動画もわずか4秒前後だったり。プロのクリエイターがツールとして使うには今ひとつでした。
Sora
しかし、「SORA」は、1度に生成できる動画の時間が最大1分。さらに、プロンプトによっては非常に複雑な映像を違和感なく生成することができます。それまで少しずつ進歩を続けていた他のモデルを、圧倒するほどの完成度を見せつけたのです。
ただ、5月時点でリリースはされておらず、OpenAIは倫理的な問題などを慎重に検証しているようです。それでも、今年中には一般に提供され始めるとも噂されています。
また、Facebookなどを運営するMetaなどの大手IT企業も、独自モデルを開発中との発表もしており、実用的なレベルでのシェア争いが加速するのは間違い有りません。
Emu Video (Meta)
https://emu-video.metademolab.com/
LUMIERE (Google)
https://lumiere-video.github.io/
こうした技術の進歩は、クリエイターにとって一義的には大きなメリットをもたらします。短いPVや告知動画など簡単なコンテンツならば、撮影することなくPC1台で成果物を生み出すことができます。機材費や人件費など、なにかと高額な経費が掛かる映像制作のクリエイターにとっては、まさに”魔法の杖”です。
しかし、一方でクリエイター自身にとっての脅威になる可能性をはらんでいます。撮影などの業務が生成モデルで代替されるため、カメラマンや照明マンといった技術者の仕事が徐々に減ることが予想されるからです。
ビジネスでの実用化が進んだテキスト生成は、既に業界で無視できない問題になっています。世界の映像コンテンツの本場アメリカでは、全米脚本家協会がChatGPTなど大規模言語モデル(LLM)による脚本やプロットの生成に関して反対の姿勢を表明。スタジオなどの発注側とのルール交渉では、去年5月、ストライキに発展する要因の一つになりました。
このまま動画生成モデルの利用が拡大すれば、プロの撮影者、そして演出者側からも、生成AIに対する反発は拡大していくと思われます。しかし、世の中の潮流を止められないのは世の常。一人ひとりのクリエイターは、こうした潮流にどう対応していけばいいのでしょうか。
刻一刻と技術革新が進む動画生成の技術。しかし現在時点で、コンテンツの発想から完成まで担うことができるモデルは出現していません。
そういう状況のいま、クリエイターとしては、この技術に嫌悪を抱くのではなく、できるだけ新しいモデルを取り入れ、”自分のツール”としてうまく活用していくのが得策です。
動画生成に限らすAIによるコンテンツ制作ツールの進化も進んでいます。それらをうまく組み合わせば、制作プロセスの効率化を実現し、クリエイターが時間や労力を削減。余力を創造性のアップに振り向けることができます。また映像撮影の専門的な知識や技術がなくても、動画生成で高品質な動画素材を確保することも可能です。
ただ、動画生成モデルをツールとして活用するために、その能力の限界を知っておくことは欠かせません。
まず自分の要求を満たしそうな動画生成モデルを選定する作業が必要です。既に述べましたが、今年の動画生成AI業界の競争は激しくなります。絶えず新しいモデルの発表や既存モデルの機能改善が進んでいくでしょう。一つのモデルに固執することなく、日頃から業界の情報に気を配ることが求められます。
また生成モデルの情報を集めるだけでは十分ではなく、実際使ってみることです。生成動画モデルを使いこなすには、編集や撮影とは違ったノウハウが必要。たとえばプロンプトの入力の仕方です。リクエストをどんな文章でどのように入力すれば、期待通りの動画が得られるのか。プロンプト作成の手引はネットで多く掲載されているので、それを読むことから始めてもいいかもしれません。
さらに注意しておきたいのは、生成モデルによって得手不得手があるということです。あるモデルは動きのスムーズさが得意で、あるモデルは人物の表情が自然など。それぞれの長所短所を知っておけば、複数のモデルを使うことによって、目標とする動画に近づけることができるでしょう。ただ、それぞれの生成モデルで課金される場合が多いため、予算との相談は必要になりますが…
最後に気をつけておくことポイントがあります。それは、OpenAIも「Sora」のリリースに慎重になっている倫理問題。これに対する方針やポリシーは、生成モデルによってまちまちです。複数のモデルを使えば、自ずとこの部分の判断が難しくなります。ネット上で関連団体が作成している生成AIに関する倫理基準のガイドラインに目を通しておくと安全です。
一般法人 日本ディープラーニング協会 「生成AIの利用ガイドライン」について
https://www.jdla.org/document/#ai-guideline
文化庁 「AIと著作権」
https://www.bunka.go.jp/seisaku/chosakuken/pdf/93903601_01.pdf
動画生成モデルは、2024年3月現在、発展途上です。しかし、いつかは「全自動」の動画制作モデルが出現するはずです。そういった近未来に備え、クリエイターは今、何をしておけばいいのか。ここからは、5年先を想定して考えてみましょう。
ここでキーになるのは、「独自のクリエイティビティ」です。特に「独自」という部分が大切です。
よく言われることですが、AIは多量なデータを学習してテキストや画像を出力しているだけです。また、それを組み合わせ、繋げたりしています。つまり、積み上げられた膨大な「他人」の経験の平均値なのです。したがって「個人」が生み出すような独創性は非常に希薄になっていると言えるのです。
いくらAIが動画コンテンツまた映像作品を制作しても、それは「どこかで見たモノ」、もしくは「誰かが作ったモノ」になってしまう。AIの生成物がよく「どこか血が通っていない」と言われるのはこのためです。AGI(汎用人工知能)が出現するまでの話ですが…
もともとプロのクリエイターには独自のクリエイティビティが必要だと言われますが、これが更に重要度を増します。たとえ9割をAIで作り上げても、残りの1割の独自の発想と選択を噛ますことでその独自性、つまり価値が担保されるようになります。
そのプロセスを実際に訓練できる動画生成モデルが間もなく一般にリリースされるようです。そのモデルが「LTX Studio」(Lightricks社)。このモデルを組み込んだサービスは、単に動画を生成するだけなく、それを変更・改善、さらには動画の編集までコントロールすることができます。一度、触れてみる価値はあります。
LTX Studio
これまで以上に求められる独自性。それを支えるのは「感性」や「美意識」、「哲学」などの文系スキルです。これらはAI時代においても変わらぬ価値を持ち続けるはずです。自分のオリジナリティの源となる感性を養うために、クリエイターは絶えず優れた映画、文学、美術、音楽、デザインなどに接することが必要でしょう。
生成される動画と独自のクリエイティビティを組み合わせることで、まだ誰も見たことのないような魅力的なコンテンツを生み出す可能性は広がります。そのために、クリエイターは技術のトレンドを上手く捉え、さらなる独自性を追求することが求められるのです。
筑波大学芸術専門学群卒、UCLA Extension 映画テレビ学科修了。日本テレビ勤務後、渡米。フリーランス・ディレクター兼エディターとして、米インディー映画やテレビ制作に従事。一時、人工知能の開発会社で勤務。