quartznet-ko

Jasper 양자화 모델인 Quartznet에 Ai-Hub를 학습한 한국어 음성인식입니다.

본 프로젝트는 https://github.com/tugstugi/mongolian-speech-recognition 에서 확장되었습니다.

Preparation

/datasets/meta/aihub 경로에 char2idx(dict), idx2char(list)를 피클로 저장

/datasets/meta/aihub 경로에 train data와 test data를 아래와 같은 포맷으로 저장

tuple 자료형으로 음성파일 경로와 자막을 담고있는 리스트를 피클로 저장 e.g. [(음성파일 경로, 자막)]

Training

python3 train.py --dataset aihub --model quartznet5x5 --max-epochs 500 --train-batch-size 16 --valid-batch-size 16 --lr 3e-4 --weight-decay 0 --lr-policy none

Performance

성능은 한국어 위키피디아 데이터를 KenLM을 사용하여 4grams rescoring을 하였을 때, 가장 높은 것으로 확인하였습니다.

Model	CER	WER
Only AM	16%	46%
AM+4grams	6%	12%

Name		Name	Last commit message	Last commit date
Latest commit History 124 Commits
datasets		datasets
docker		docker
misc		misc
models		models
.gitignore		.gitignore
README.md		README.md
decoder.py		decoder.py
eval.py		eval.py
preprop_dataset.py		preprop_dataset.py
record_and_transcribe.py		record_and_transcribe.py
requirements.txt		requirements.txt
swa.py		swa.py
train.py		train.py
transcribe.py		transcribe.py
utils.py		utils.py

qute012/korean-speech-recognition-quartznet

Folders and files

Latest commit

History

Repository files navigation

quartznet-ko

Preparation

Training

Performance

About

Topics

Resources

Stars

Watchers

Forks

Languages