Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

二次训练数据 #3

Open
rucieryi369 opened this issue Jul 31, 2023 · 1 comment
Open

二次训练数据 #3

rucieryi369 opened this issue Jul 31, 2023 · 1 comment

Comments

@rucieryi369
Copy link

您好,您是怎么对原始的文档处理得到训练数据的?谢谢

@Yu-Yang-Li
Copy link
Owner

您好!很抱歉,我不是很清楚这里的“文档”指的是监督训练还是知识库链接用到的数据。
如果是监督训练的数据,我们前三步微调采用的是从开源语料库中筛选的天文领域知识,这部分数据具有几乎统一的格式,只需要训练时在template中标注即可。
如果是知识库链接数据,需要将文本数据进行切分、向量化。
我猜测您可能问的是如何将纯文本数据转化为对话数据,这个目前除了通过GPT总结生成暂时没有很好的办法,对于大量的纯文本数据,如果条件允许,建议进行二次预训练,这种方法在扩展模型知识的同时,不需要进行额外的格式清洗。
希望上面的回答对您有帮助!数据清洗是一个长期的过程,如果方便可以一起交流:wechat-Astro_YuYang

您好,您是怎么对原始的文档处理得到训练数据的?谢谢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants