Googleの動画生成AI「Lumiere」でできること・一般公開はいつ？

Googleのコンピュータ・サイエンス、インターネット技術を研究する部門である「Google Research」は、1月23日（現地時間）に動画生成AI「Lumiere（ルミエール）」を発表しました。

今回は、Lumiereでできること、特徴、一般公開はいつなのか等、気になる点について解説していきたいと思います。

Lumiereでできること
Lumiereの特徴は動画の一貫性
他の動画生成AIとの比較
一般公開はいつ？
世間の声
まとめ

Lumiereでできること

Googleの動画生成AI「Lumiere」でできることの概要を簡単にまとめます。

まず、以下の動画がGoogle Researchが公開したLumiereの紹介動画となっています。

Introducing Lumiere, a space-time diffusion research model for video generation that synthesizes videos portraying realistic, diverse & coherent motion. It was a collaboration between Google Research, @WeizmannScience, @TelAvivUni, & @TechnionLive. More → https://t.co/BHJYEUwAW7 pic.twitter.com/XTsnimT8uc

— Google AI (@GoogleAI) January 26, 2024

Text to Video（文字プロンプトから動画を生成）

「Text to Video」という機能では、テキストのプロンプトをもとに動画を作成することができます。

1⃣ From Image and Text to Video

→ Lumiere doesn't just create videos from textual prompts 👇 pic.twitter.com/952bP3taPl

— Masters of Work (@Mastersofwork) January 25, 2024

サンプルの中では、以下の2パターンで動画を生成しており、どちらもとてもリアルな映像となっています。

Astronaut on the planet Mars making a detour around his base
（基地周辺を迂回する火星の宇宙飛行士）

A dog driving a car wearing funny sunglasses
おもしろいサングラスをかけて車を運転する犬

サンプルを見る限り、どれも自然な映像となっており、人物や動物などだけでなく、AIが生成したようなイラストを動画にした際の動きも割と自然になっているのが他のAI動画生成ツールに比べて優れている点なのではないかと思います。

Image to Video(画像を映像に変換)

「Image to Video」という機能では、画像を映像に変換することができます。

FEATURE 3: Image and Text to Video

Lumiere can not only generate videos from text prompts, but also directly from a still image!

I can finally put my monkey NFT to use 😅 pic.twitter.com/eLX7KlQRmh

— Rowan Cheung (@rowancheung) January 25, 2024

STYLIZED GENERATION(画像のテイストを参照して動画生成)

「STYLIZED GENERATION」では、アップロードした画像と同じテイストで動画を作る機能となっています。

7. Stylized Generation

Lumiere empowers you to effortlessly generate videos in the desired style with just a single reference image. pic.twitter.com/sEaNHSsw6S

— Shivam Sharma (@shivamwrites_) January 27, 2024

たとえば、サンプルでは神秘的なキノコのイラストをもとに、馬が走る動画を生成しています。色遣いや、幻想的な雰囲気はそのままに、馬が走る動画が生成されています。

この機能は他の動画生成AIではあまり見られない、Lumiereの見どころの一つなのではないでしょうか。

また、動画素材として、同じテイストの動画素材を作りたい際に便利になりそうな機能だと思います。

Video Stylization(人物や物体のテイストを変える）

「Video Stylization」という機能では、「木製のブロック風に」「ペーパーアート風に」「レゴ風に」「お花みたいに」のように、対象の人物や動物、物体などののテイストを変えることができます。

7/ Video Stylization

With Lumiere, off-the-shelf text-based image editing methods can be used for consistent video editing. pic.twitter.com/bVJ5rF10VC

— Alamin (@iam_chonchol) January 26, 2024

Video Inpainting(動画の欠損を補完する機能)

Video Inpaintingは、動画が欠けている部分にAIが自動で追加してくれる機能です。

5. Video Inpainting

Lumiere allows you to modify anything in a video, which opens up many new possibilities. pic.twitter.com/TbHZNSsB7W

— Aadit Sheth (@aaditsh) January 26, 2024

CINEMAGRAPHS(画像の一部分を動画化)

CINEMAGRAPHSという機能では、選択した部分を動画化することができる機能です。

FEATURE 4: Cinemagraphs

Lumiere can not only create videos from text prompts but can also edit and animate specific portions of still images. pic.twitter.com/FYUuaWgkeA

— Rowan Cheung (@rowancheung) January 25, 2024

Video Editing(動画の編集)

「Video Editing」という機能では、動画の変更したい部分を範囲選択して、「ストライプのドレスに変えて」などとプロンプトを投げるだけで映像の中の人の服装を変更することが可能です。仕上がりもとても自然です。

FEATURE 1: Video Editing

Lumiere can edit any specific portion of a video with a simple mask and prompt.

It's always insane to see demos like this — the potential applications are endless. pic.twitter.com/XWwEGXrhMK

— Rowan Cheung (@rowancheung) January 25, 2024

Lumiereの特徴は動画の一貫性

Lumiereの最大の特徴は、動画の一貫性にあります。

「一貫性」というのは、動画生成AIで作成した動画において、人物の顔が途中で変化してしまったり、動きが不自然になったりすることをさします。

a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion — a pivotal challenge in video synthesis.

Lumiereは、ビデオ合成における重要な課題である、リアルで多様かつ首尾一貫した動きを描写するビデオを合成するために設計された、テキストからビデオへの拡散モデルです。
引用：https://lumiere-video.github.io/

Lumiereでは、「U-Net アーキテクチャ」というものを導入しており、従来のビデオモデル（ディフュージョンモデル）とは異なり、モデル内の単一パスを通じてビデオの時間的継続時間全体を一度に生成するため、一貫性のある動きの実現が可能となっています。

他の動画生成AIとの比較

以下は、Google Researchの論文内で公開されている、他の主要な動画生成AIとの比較結果です。

青がLumiere、オレンジが他の動画生成AIとなっています。

「Video Quality（ビデオの質）」「Text Alignment（テキストに対してどれだけ正確な動画を生成できるか）」「Image-to-Video（画像から動画への変換の質）」という3項目で比較をしていますが、どれもLumiereが優れた結果となっています。

あくまでGoogle Researchの調査結果ですので、実際に使ってみないとなんとも言えませんが、どの項目でも他の動画生成AIより優れており、Lumiereが質の高い動画生成AIであることを示しています。

一般公開はいつ？

Lumiereは、まだ一般公開されていません。

そして、一般公開をいつするのか以前に、一般公開するかどうか自体明らかにしていません。

ChatGPT GPT-4の画像生成・画像読み込み機能においても、機能の発表があってから一般公開されるまで数か月かかりました。ChatGPTのときには個人が写っている画像を学習してしまったり、個人情報、著作権などの問題でリリースまでに時間を要しました。

Lumiereにおいても同様で、個人情報や著作権などの問題に考慮する必要があります。また、生成コスト等も明らかにはなっていませんが一般公開するとなると制定する必要があります。おそらく、論文を発表した段階なので、一般ユーザーが使えるようになるのはまだしばらく時間がかかるのではないかと思います。

しかし、公開されれば従来の動画生成AIよりも、より高品質で、実際の映像に近い自然な動画を生成することができるようになるので、需要は大きいでしょう。

世間の声

Lumiereについて、世間の声を集めてみました。

Googleが動画生成AI「Lumiere」を発表。一般公開時期は未定なものの、数多くリリースされた動画生成AIの「一歩先」を行くAIツールの誕生気配。テキストから画像を生成し、更に生成した画像を動画にする仕組みとのこと。AI界隈でOpenAI,Microsoftに遅れを取るGoogle。Lumiereで逆襲なるか注目。

— ブルドッグ＠Webライター (@bulldog_writing) January 26, 2024

Googleが発表したLumiereって動画生成AIすごいな。
動画内の物体の形状が破綻してないから本物と見分けがつかない。動物の足の動きまで再現できるとは…

— ゆへいう (@yuheiu_creator) January 28, 2024

ついに出た！！！Googleが発表した動画生成AI「Lumiere」が生成する動画がリアル過ぎて鼻血出た🤗AIかどうか分からないレベルにきてる🌟

・これまで課題であったギクシャク感がなく滑らか
・テキストや画像を含むさまざまな入力から動画を生成… pic.twitter.com/MyPBHncFLU

— みやさかしんや@Python/AI/DX (@miyashin_prg) January 26, 2024