このページの本文へ

前へ 1 2 3 4 次へ

新清士の「メタバース・プレゼンス」 第105回

“イリヤ神”がまたやった 動画生成AI「FramePack」が革命的なワケ

2025年05月05日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

動画作例で使用した本連載の作例キャラの「明日来子(あすきこ)」さん。Midjounery v7の新機能「Omni-Refernece」で作成

 4月17日に登場した動画生成AIプログラム「FramePack(フレームパック)」が世界的に衝撃を与えています。PCローカル環境で動画AIを動かすには、少なくともビデオメモリー(VRAM)が12GBあるビデオカードを搭載していないと難しいというのが常識でした。ところが、VRAM 6GBでも安定的に動作させられるため、一気に動画AIの裾野を広げそうです。開発したのは、画像生成AI分野で「ControlNet」や、使いやすいツール「Fooocus」などを開発してきたことで知られる、スタンフォード大学に在籍中のIllyasviel(イリヤスフィール、以下イリヤ)さん。既存の方法論にまったく違ったアプローチでブレイクスルーを引き起こす、“イリヤ神”のアプローチに再び注目が集まっています。

※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください

動くところ、動かないところを分けて効率化

▲後述の「FramePack-eichi」で作った作例。イラスト風の画像でも、ここまでローカルPCで手軽に動かすことができる

 ローカル環境で動画生成AIを動かすとき、常に問題になるのは、求められるVRAMの多さでした。少なくとも12GB以上。公開されている動画AIのウェイトモデルのサイズが大きいこともあり、NVIDIA RTX 4090相当の24GBが前提となっているものも少なくなく、使えるユーザーが限定されていたんですね。ところが、FramePackはわずか6GBでも動くため、これまでの常識をひっくり返したんです。FramePackが使用している動画モデルは「FramePackI2V_HY_fp8」という、テンセントが発表したi2v(画像からビデオを生成)モデルなのですが、ストレージ上では16.3GBもあります。なぜそんなことができるのかと言うと、常に一画面内で生成する全体のデータサイズを一定に保つように制御することで、使用するVRAMの量を抑えるという方法が取られているためです。

(FramePackの解説ページより)

 イリヤさんは動作する仕組みの解説として、入れ子型の画像を使っています。

 元となる入力画像を参照して、まずは処理をしやすくするために、画面を分割することを示しています。元となる入力画像をどんどん画面分割し、画像内の情報を細かく区切られた情報の単位(トークン)に整理します。どこが動きそうなポイントになるのかを分けていくのです。たとえば人間がいて「ダンス」というプロンプトが書かれた場合、手や足、髪といった“動きそうな部分”に注目します。それ以外の背景は無視、もしくは軽視します。これにより、必要なトークンの処理量を減らしています。いわば画面内のトークンの総量に上限キャップをつけることで、VRAMが少なくてもそれがあふれないようコントロールする仕組みになっています。なので、低いVRAMでも動くという仕組みです。

 この連載に登場する作例キャラクター「明日来子(あすきこ)さん」の画像を動画にすることにします。

 顔や手といったものは、動くポイントとしては重要なので、高密度で保持され、繰り返し参照される可能性が高いとみられます。一方、背景はあまり動かす必要がないと判定され、ほとんどがスキップされます。仮にトークン上限が512と設定されていた場合、顔が200トークン、手や身体が150トークン、揺れる草が50トークン、空が20トークン、背景が20トークン、全体として省略するのは92トークンという形で意味付けがされます。集中して動かすところと動かさないところを決め、動画生成時に動かすところを絞っているわけです。

 作例を見ると、明日来子さんと違って、背景はほとんど動いていないことがわかります。こうすることで、作成に必要な計算量を爆発的に増大させないようにしているのです。

ただし動きや変化は小さくなる

 一方で、この方法論には弱点もあります。動画として破綻しにくくなる代わりに、動きが小さくなる傾向があるんですね。たとえばキャラクターをダンスさせたときは、表情がほぼ同じになりがちです。これは、最初の入力情報が代表的な顔として固定され、一貫性を維持することが優先されるためです。ただし回避策もあります。1つはプロンプトで、表情を常に変化させるように指示を出すと、表情が変わる確率は上昇します。「facial expression change(表情が変化する)」「emotion shift(感情が変化する)」といったものです。

 さらに、参照画像の全体にまんべんなく情報がある画像の場合、まったく動かない動画を生成しがちです。中心に来るのがキャラクターなのかオブジェクトなのかが明快になっているものの方が成功確率は上がります。

▲前半のプロンプトは「A character doing some simple body movements」だが、後半の8秒は「she is in facial expression change, emotion shit from sad to light smile」を追加している。前半では動きに比重が置かれているが、後半ではプロンプトの影響を受けてトークンの比重が代わり、全身の動きが小さくなっているが、表情の変化が顕著に出ている。効果音はMMAudioを使用

前へ 1 2 3 4 次へ

カテゴリートップへ

この連載の記事
ピックアップ
OSZAR »