vc-lm

中文 | English

vc-lm是一个可以将任意人的音色转换为成千上万种不同音色的音频的项目。

🔄 最近更新

[2023/06/09] 新增Any-to-One声音转换模型训练.

算法架构

该项目参考论文 Vall-E

使用encodec, 将音频离散化成tokens, 在tokens上构建transformer语言模型。该项目包含两阶段模型 AR模型和NAR模型。

输入: 3s音色prompt音频 + 被转换音频

输出: 转换后音频

在训练阶段，采用了自监督的方式，其中源音频和目标音频是相同的。

AR阶段

输入: prompt音频 + 源音频

输出: 目标音频 0 level tokens

NAR阶段

输入: 目标音频(0~k)level tokens

输出: 目标音频k+1 level tokens

构造数据集

# 所有wav文件先处理成长度10~24s的文件, 参考文件[tools/construct_wavs_file.py]
python tools/construct_dataset.py

转换whisper encoder模型

python tools/extract_whisper_encoder_model.py --input_model=../whisper/medium.pt --output_model=../whisper-encoder/medium-encoder.pt

训练

bash ./sh/train_ar_model.sh
bash ./sh/train_nar_model.sh

推理

from vc_lm.vc_engine import VCEngine
engine = VCEngine('/root/autodl-tmp/vc-models/ar.ckpt',
                  '/root/autodl-tmp/vc-models/nar.ckpt',
                  '/root/project/vc-lm/configs/ar_model.json',
                  '/root/project/vc-lm/configs/nar_model.json')
output_wav = engine.process_audio(content_wav,
                                  style_wav, max_style_len=3, use_ar=True)

样例展示

本项目模型可以生成大量one-to-any的平行数据(也就是any-to-one)。这些平行数据可以被用来训练 Any-to-One 的变声模型。

训练Any-to-One VC模型

目标人数据仅需10分钟，即可达到很好的效果。

构造数据集

# 所有wav文件先处理成长度10~24s的文件, 参考文件[tools/construct_wavs_file.py]
python tools/construct_dataset.py

构造Any-to-one平行数据

# 需要构造train, val, test数据
python tools.construct_parallel_dataset.py

训练模型

加载上面的预训练模型，在指定人数据上训练。

bash ./sh/train_finetune_ar_model.sh
bash ./sh/train_finetune_nar_model.sh

推理

from vc_lm.vc_engine import VCEngine
engine = VCEngine('/root/autodl-tmp/vc-models/jr-ar.ckpt',
                  '/root/autodl-tmp/vc-models/jr-nar.ckpt',
                  '/root/project/vc-lm/configs/ar_model.json',
                  '/root/project/vc-lm/configs/nar_model.json')
output_wav = engine.process_audio(content_wav,
                                  style_wav, max_style_len=3, use_ar=True)

Name		Name	Last commit message	Last commit date
Latest commit History 55 Commits
configs		configs
res		res
sh		sh
tests		tests
tools		tools
vc_lm		vc_lm
.gitignore		.gitignore
README.md		README.md
README_en.md		README_en.md
requirements.txt		requirements.txt
run.py		run.py

nilboy/vc-lm

Folders and files

Latest commit

History

Repository files navigation

vc-lm

🔄 最近更新

算法架构

AR阶段

NAR阶段

构造数据集

转换whisper encoder模型

训练

推理

样例展示

训练Any-to-One VC模型

构造数据集

构造Any-to-one平行数据

训练模型

推理

DEMO

输入音频:

输出音频:

About

Topics

Resources

Stars

Watchers

Forks

Languages