【検証】AIツール「Whisk」が進化しすぎててヤバい。実写レベルの全身生成から動画作成まで試してみた
昨今のAI技術の進化スピード、本当に目を見張るものがありますよね。
新しいツールが出たかと思えば、既存のツールもいつの間にかとんでもないアップデートを遂げていたりします。
そこで今回、以前少し触ったことのある生成AIツール「Whisk」が現在どこまで進化しているのか、久しぶりに検証してみました。
正直なところ、昨年試したときは「うーん、まだまだかな」という感想が強かったんです。
当時は画像を生成しても、いかにも「AIが描きました」といった感じの、劇画調で濃い外国人のような顔立ちになってしまい、リアリティには程遠い仕上がりでした。「これだと実用には厳しいな」とそっと閉じたのを覚えています。
しかし、今のWhiskは違いました。結論から言うと、腰を抜かすほど進化していました。
検証1:上半身の写真から全身を推定させる
まずは画像生成の能力を試すべく、自分の上半身だけが写った写真をアップロードしてみました。
そして、あえてシンプルな以下のプロンプトを与えてみます。
「全身画像を推定して表示してください。できるだけ実物に近い画像をご提供ください。顔はぼかしを入れてください」
「全身の推定」というのはAIにとって意外と難しいタスクです。体のバランスが崩れたり、服装が不自然になったりしがちなんですが、出力された画像を見て驚愕しました。

そこに表示されたのは、昨年のような劇画タッチのイラストではなく、どう見ても「実写」にしか見えない自然な全身写真。
服のシワ感や光の当たり方、体型のバランスまで、まるで最初から全身を撮影していたかのようなクオリティです。顔にぼかしを入れるという指示も完璧に守られており、プライバシーへの配慮もコマンド一つで制御可能でした。
検証2:静止画を動画にする(モンキーダンス)
ここまで綺麗に画像ができるなら、動画もいけるのではないか?
そう思い立ち、生成された全身画像を使ってさらに無茶振りをしてみました。
プロンプトはこれです。
「顔にはモザイクをかけたままモンキーダンスを踊っている動画を作成」
静止画からダンス動画を作る。しかもモンキーダンスという激しい動き。さらに顔のモザイクは維持する。
これだけの条件、以前なら映像が破綻してグチャグチャになっていたはずです。
しかし、出来上がった動画を見て、思わず笑ってしまいました。
めちゃくちゃ滑らかに踊っているんです。
手足の動きもスムーズで、違和感のある歪みもほとんどありません。モザイクも顔の動きに追従しており、まさに「その人がそこで踊っている映像」そのものでした。
検証3:あえて「モザイク」を忘れてみたら…
ここでふと気になり、プロンプトから「顔にはモザイクをかけたまま」という指示を外して試してみました。
すると、どうなったと思いますか?
動画の中の人物は、全くの別人の顔で踊り始めたのです。
元の写真の雰囲気は残しつつも、AIが勝手に架空の(あるいは学習データ上の誰かの)顔を合成して動かしているわけです。
まとめ:技術の民主化と怖さ
今回、Whiskの進化を試してみて「素晴らしい」と感動すると同時に、少し背筋が寒くなるような感覚も覚えました。
最近、ニュースなどで政治家のフェイク動画や、有名人のコラージュ動画が出回っているのを見かけますよね。あれを見るたびに「高度な技術を持った一部の動画作成が得意な人たちが作っているんだろう」なんて思っていましたが、今回の検証ではっきりしました。
これ、素人でも簡単に作れる時代になっちゃってます。
特別なプログラミング知識も、高価な機材も必要ありません。スマホやPCから数行の指示を出すだけで、実在しない映像や、本物と見分けがつかないフェイク動画が作れてしまう。
「顔にはモザイクを」と指示すればプライバシーが守られますが、逆に言えば、意図的に誰かの顔を合成することも容易だということです。
AIの進化はクリエイティブな可能性を広げてくれる素晴らしいものですが、使う側のモラルやリテラシーがこれまで以上に問われる時代になったんだな、と痛感した検証でした。
とはいえ、純粋なエンタメとして遊ぶ分にはWhisk、本当に凄いです。皆さんも試す際は、ぜひモラルを守って楽しんでみてくださいね!

















