Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

不该断句的地方断句了 #1066

Open
neuxys opened this issue May 8, 2024 · 4 comments
Open

不该断句的地方断句了 #1066

neuxys opened this issue May 8, 2024 · 4 comments

Comments

@neuxys
Copy link

neuxys commented May 8, 2024

比如输入是“董林忠,同学”,生成的音频是“董林,忠同学”,也就是断句的地方不对,请问怎么避免这个问题呢

image

@BOCEAN-FENG
Copy link

建议先到网页版本试一下断句功能看看断的文本是怎么样的

@neuxys
Copy link
Author

neuxys commented May 9, 2024

建议先到网页版本试一下断句功能看看断的文本是怎么样的

感谢您的回复!我这里使用的是fast_interence_分支,python webui.py启动,推理界面参数使用的均为默认的,参考音频是16字的约3s的。断句的位置我发现与符号“,”并没有关系。即便把“,”去掉也会出现“林”字后面断开(持续约0.0x秒音频强度非常小,趋于0)。尝试推理一些“5字内的短句子”出现这种断句错误概率非常高。
image

我打算在音频生成完成之后,检测强度小于某个阈值(例如50dB)的音频重新生成。

@BOCEAN-FENG
Copy link

捕获123
what?这个很奇怪,其实我自己尝试了一下,首先断句功能是没有问题的,其次我自己也生成了一下语音,也没有什么问题。

哦 我看到了,咱得把“分段间隔”设置长一点,程序是按照我们设定的切分方式把一个长句子切成很多份,然后分开生成,最后合成到一起。你这里首先右上角要选择切分方式,切分完之后还应该在左边推理设置改一下分段间隔

@neuxys
Copy link
Author

neuxys commented May 10, 2024

多生成几次就出现了,在fast_interence_分支,大概6次会出现一次这种情况。在main分支10几次会出现一次,要仔细听才能识别出来。

这个输入只有“董林忠同学”5个字,理论上不必使用文本切分工具吧,文本切分工具主要是针对长句子的。

当然这个也许和训练数据不同有关系?也许和参考音频有关系?这个不得而知

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants