【2025年最新版】Wav2Lipのオープンソース版で静止画の口元のみを動かして喋らせる

カテゴリー【Python、Debian】

Wav2Lipのオープンソース版で静止画の口元のみを動かして喋らせる

POSTED BY
2025-08-26

以前、静止画をしゃべらせるエンジンとしてSadTalkerを実装してみたがこれは顔全体がやや不自然に動くので、口元が動くだけにできないかな？と調べたところWav2Lipの昔のバージョンがそんな感じらしいので、実装してみたメモ。

１、Python3.8の仮想環境を作成し入る

【Ubuntu】プロジェクトごとに複数のPythonバージョンを使い分ける

のとおり。以下のようにする。

mkdir wav2lip_work
cd wav2lip_work
python3.8  -m venv venv
source ./venv/bin/activate
which python
python -V

２、静止画を、用意した音声データと同じ秒数の動画に変換する

SadTalkerと違い、Wav2Lipは入力が動画データであるため、写真をしゃべらせたい場合動画に変換する必要がある。また、Wav2Lipの入力画像は16:9が安定するので、その変換も同時に行う。

ffmpeg-pythonを導入する。

pip install ffmpeg-python

顔画像がface.jpg、音声がvoice.wav、出力動画をface.mp4とすると、以下のコードで作成できる。

import ffmpeg

image = "face.jpg"
audio = "voice.wav"
output = "face.mp4"

# 音声の長さを取得
probe = ffmpeg.probe(audio)
duration = float(probe["format"]["duration"])

(
    ffmpeg
    .input(image, loop=1, framerate=25)
    .output(output,
            t=duration,
            vcodec="libx264",
            pix_fmt="yuv420p",
            r=25,
            vf="scale=-2:720:force_original_aspect_ratio=decrease,"
               "pad=1280:720:(1280-iw)/2:(720-ih)/2")
    .run(overwrite_output=True)
)

こうすると、音声voice.wavと同じ秒数の動画face.mp4が16:9映像比で出力される。これで入力データの準備は整った。

３、プレトレーニング済みのモデルデータをダウンロードする

wav2lip_gan.pthを取得する必要がある。これは色々なサイトにあるが、当方はkaggle.comにユーザ登録してダウンロードした。

https://www.kaggle.com/datasets/blackpinkai/wav2lip?resource=download

Zipがダウンロードされるので解凍し、wav2lip_gan.pthを取得する。

s3fd.pthを取得する必要があり、これは以下から直接ダウンロードできた。

wget "https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth" -O "s3fd.pth"

４、OpenSource版のWav2Lipをcloneし、モデルデータを配置する

git clone https://github.com/zabique/Wav2Lip
mv wav2lip_gan.pth Wav2Lip/checkpoints
mv s3fd.pth Wav2Lip/face_detection/detection/sfd

５、必要なモジュールをインストールする

pip install https://raw.githubusercontent.com/AwaleSajil/ghc/master/ghc-1.0-py3-none-any.whl
cd Wav2Lip
pip install -r requirements.txt
pip install -q youtube-dl
pip install librosa==0.9.1

これで準備は整ったので、いよいよリップシンク実行。

６、実行

cd Wav2Lip
python inference.py --checkpoint_path checkpoints/wav2lip_gan.pth --face "../face.mp4" --audio "../voice.wav" --outfile "../output.mp4"

無事output.mp4が出力され、口元だけがその音声でパクパク動く動画が作成できた！

【次の記事】Wav2Lipのオープンソース版を改造して外部から呼べるAPI化する

【前の記事】【iOS】アプリアイコン・ロゴ画像の作成・設定方法

Android 　iPhone/iPad 　Flutter 　MacOS 　Windows 　Debian 　Ubuntu 　CentOS 　FreeBSD 　RaspberryPI 　HTML/CSS 　C/C++ 　PHP 　Java 　JavaScript 　Node.js 　Swift 　Python 　MatLab 　Amazon/AWS 　CORESERVER 　Google 　仮想通貨　 LINE 　OpenAI/ChatGPT 　IBM Watson 　Microsoft Azure 　Xcode 　VMware 　MySQL 　PostgreSQL 　Redis 　Groonga 　Git/GitHub 　Apache 　nginx 　Postfix 　SendGrid 　Hackintosh 　Hardware 　Fate/Grand Order 　ウマ娘　将棋　ドラレコ

【WEBMASTER/管理人】

自営業プログラマーです。お仕事ください！
ご連絡は以下アドレスまでお願いします★

【キーワード検索】

【最近の記事】【全部の記事】

A4用紙タテ2ページ分をA3用紙ヨコ1ページに印刷するには
【Android】apkのインストールができたのにアプリ一覧に出ない場合
【Node.js】chrono-nodeを使用して自然言語を日付に変換する
CUDA13環境下でGPU使用版のllama.cppを導入しC++ライブラリを使う
CUDA13環境下でGPU使用版のllama-cpp-pythonを導入する
CUDA13環境下でGPU使用版のPyTorchを導入する
LetsEncrypt/certbotの証明書自動更新がエラーになる場合
Wav2Lipのオープンソース版を改造して外部から呼べるAPI化する
Wav2Lipのオープンソース版で静止画の口元のみを動かして喋らせる
【iOS】アプリアイコン・ロゴ画像の作成・設定方法

【カテゴリーリンク】