3行でわかるこの記事
- 何が起きた? 中国のMeituanが、写真1枚と音声から人がしゃべる動画を作れるAI「LongCat-Video-Avatar 1.5」を無料で公開しました。
- 重要なポイント 仕事に使ってもよい形で公開され、実写の人だけでなくアニメや動物の絵も動かせます。
- なぜ注目? これまで有料サービスが必要だった“しゃべるアバター動画”が、お金をかけずに手に入るようになったからです。
はじめに
「自分が動画に出るなんて、機材も編集の知識もないし無理でしょ?」
写真は撮れても、それが自分の声でなめらかにしゃべり出す動画になる、と言われるとピンとこないかもしれません。ところが、その「1枚の写真が口を動かして話し出す」をこなすAIが、2026年5月に無料で公開されました。
この記事では、こんな話をしていきます。
- 写真1枚が動き出すって、どういう仕組み?
- 公開された無料AIは、何がそんなにすごいのか
- 私たちの暮らしや仕事に、どんな使い道があるのか
聞き慣れない名前がいくつか出てきますが、難しい言葉はできるだけ後ろにまとめてお伝えしますね。
ひとことで言うと
顔写真と音声を渡すだけで、その人がしゃべって動く動画を作れるAIが、誰でも中身を使える形で無料公開されました。ここからは、どんな技術で、私たちの何が変わりそうなのかを順番に見ていきます。
写真1枚が“しゃべり出す”って、どういうこと?
やりたいことはシンプルです。1枚の顔写真と、しゃべってほしい内容の音声。この2つを渡すと、写真の人物が口を動かし、表情を変えながら話す動画ができあがります。
これまで、人が話す動画を作ろうとすると、本人にカメラの前で話してもらうか、3Dのキャラクターを一から組み立てる必要がありました。どちらも時間とお金がかかります。海外には「HeyGen」のように、写真からしゃべる動画を作る有料サービスもありますが、本格的に使うなら月額の利用料が必要でした。
今回登場した「LongCat-Video-Avatar 1.5」は、その作業をAIに任せます。声に合わせて唇や頬の動きを計算し、まるで本人が話しているかのような映像を組み立てる。撮影スタジオの代わりに、写真と音声ファイルがあればいい、という発想です。
夜に自分のアイコン画像を1枚用意して、原稿を読み上げた音声を添える。それだけで翌朝には自己紹介動画ができている。そんな作り方が現実に近づいてきました。
LongCat-Video-Avatar 1.5は、何がそんなにすごい?
このAIには、注目したい工夫が3つあります。
1つ目は、口の動きと声がよくそろっていることです。人の声を聞き取る部分に、音声認識でよく知られた仕組み(Whisper-Large)を採用したことで、唇の動きが声に合わせてなめらかになったとされています。動画でいちばん不自然に見えるのが、声と口がずれる瞬間です。そこが整うだけで、見た目の説得力がぐっと上がります。
2つ目は、長い動画でも顔が崩れにくいことです。AIが作る人物動画では、時間がたつにつれて顔つきが少しずつ変わってしまうことがあります。今回のAIは、その崩れを抑える調整が入っていて、長めの動画でも同じ人のまま話し続けられるようになったと説明されています。
3つ目は、生成が速いことです。動画を作るときの計算の手順を8段階まで減らし、短い時間で安く作れるよう工夫されています。さらに、実写の人だけでなく、アニメのキャラクターや動物の絵にも対応し、複数人の会話や、手で物を持つような動きまで扱えるとされています。
開発したのは、中国でフードデリバリーや生活サービスを手がける大手のMeituanです。同社が公開した評価では、508組の動画を770人の利用者と10人の専門家が見比べ、映像の安定性や自然さといった項目で、有料の人気サービスを上回る支持を得たと報告されています。
あなたの暮らしや仕事で、何に使える?
ここがいちばん気になるところです。しゃべる動画が手軽に作れると、生活のどんな場面が変わるのでしょうか。
たとえば、お店をやっている人なら、新商品の紹介動画を毎回撮影しなくても、写真と原稿の音声だけで案内役を用意できます。オンラインで何かを教えている人なら、毎回顔出しで撮らなくても、説明動画を量産できます。アニメのキャラクターを動かせるので、自分で描いた絵をしゃべらせて、作品の世界を動画で見せることもできそうです。
もちろん、便利さの裏には注意点もあります。本人そっくりの動画が簡単に作れるということは、本人が話していないことを話しているように見せる、いわゆる「なりすまし動画」も作りやすくなるということです。今回のAIは、こうした悪用を防ぐための利用上の約束ごとと一緒に公開されています。便利な道具ほど、使う側の良識が問われる場面が増えていきます。
これから、動画づくりはどう変わる?
今回のAIは中身がまるごと公開されているので、誰でも仕組みを取り出して使えます。ただ、今すぐスマホのアプリのように指先だけで動かせるわけではなく、動かすにはそれなりの準備がいるのが正直なところです。
それでも、こうして土台が無料で公開されると、流れは速く進みます。これまでも、公開された画像生成の技術が、数か月後には誰でも使えるアプリになって広がってきました。しゃべる動画も、近いうちに「写真を選んで、声を吹き込むだけ」のアプリとして、私たちの手元にやってくる可能性は十分にあります。
撮影も編集もいらない動画づくりが当たり前になったとき、自分なら誰を、何を動かしてみたいか。少し想像しておくと、その日が来たときに楽しめそうです。
用語ミニ解説
- アバター: 自分の代わりに画面の中で動く分身のこと。今回は写真の人物が、しゃべる分身として動きます。
- オープンソース: プログラムの中身を公開し、誰でも使ったり作り変えたりしてよい形のこと。料理のレシピを丸ごと公開するようなイメージです。
- MITライセンス: オープンソースの中でも、商売に使うのも自由度が高い、ゆるやかな利用ルールのこと。「自由に使っていいですよ」に近い決まりです。
- 生成AI: 文章や画像、動画などを自動で作り出すAIのこと。今回は音声と写真から動画を作り出します。
Me-Moon編集後記 🌙
撮影もスタジオもいらず、写真と声だけで動画ができる。数年前ならSF映画の話に聞こえたことが、無料で配られる時代になりました。便利になるほど、本物とにせ物を見分ける目も大事になりますね。
一方で、自分で撮った1本の動画には、手間の分だけ愛着がわくのも確かです。手軽に作る日と、じっくり撮る日。両方を行き来できるのが、いちばん楽しい使い方かもしれませんね🌙
参考リンク
- 写真+音声で“しゃべるアバター”生成、商用利用OKな無料ローカルAI「LongCat-Video-Avatar 1.5」登場 — テクノエッジ, 2026-06-02
- meituan-longcat/LongCat-Video-Avatar-1.5 — Hugging Face, 2026-05-21
- Meituan Open-Sources LongCat-Video-Avatar 1.5: Photorealistic Digital Human Video Framework — Pandaily, 2026-05-22
