有点困惑请教一下 #4

r00mz · 2023-08-07T06:13:53Z

readme的功能展示说明是20w条天文对话数据分布微调
我想请教一下，一个大模型纯微调是应该没有办法增加新的领域知识的吧，所以这里我们仅仅只做了微调（sft），还是也做了预训练（pt）。
如果能够通过微调就增加新的领域知识的话，我们微调的硬件大概是一个什么配置，谢谢。

Yu-Yang-Li · 2023-08-07T07:49:04Z

readme的功能展示说明是20w条天文对话数据分布微调我想请教一下，一个大模型纯微调是应该没有办法增加新的领域知识的吧，所以这里我们仅仅只做了微调（sft），还是也做了预训练（pt）。如果能够通过微调就增加新的领域知识的话，我们微调的硬件大概是一个什么配置，谢谢。

您好！
在开始前，我们确实倾向于LIMA的论文观点，即微调主要学习的是知识的引导方式，以引导模型激活预训练时所见过的知识。但是在具体训练后，我们发现经过大量的微调数据微调后，是可以回答一些未微调或者微调数据不太够的问题，这与LinkSoul以及很多微调项目的结果是一致的，所以我们认为“大量”是可以注入知识的。
但是我们更倾向于通过知识库注入知识，将微调当做一种学习任务形式的过程，以提升模型使用外挂知识库的能力。个人认为，随着未来基模型参数量的增加，考虑到领域知识配比、与原数据分布差异问题，预训练的成本将会更高，而微调在提升链接知识库能力的同时，伴随激活的预训练知识会更加可观。
目前训练的配置是2*A6000。

r00mz · 2023-08-07T08:17:25Z

谢谢回答，那我继续请教一下，就我的认知目前以外挂知识库为主的方式除了chatgpt其他的llm好像能落地的很少见到，哪怕像chatlaw那种也是pt、sft、知识库一起上。
答主方便回答一下怎么理解通过pt、sft加强llm的提取关键词的能力么，谢谢。

Yu-Yang-Li · 2023-08-09T03:38:24Z

谢谢回答，那我继续请教一下，就我的认知目前以外挂知识库为主的方式除了chatgpt其他的llm好像能落地的很少见到，哪怕像chatlaw那种也是pt、sft、知识库一起上。答主方便回答一下怎么理解通过pt、sft加强llm的提取关键词的能力么，谢谢。

通过特定文本的sft和RLHF加强模型链接知识库能力，是我们v2版本正在尝试的内容。关于特定文本SFT部分，我们考虑通过具有长文本history、总结类任务等的数据进行训练，以学习根据材料回复这种任务形式。关于后者，已经有相关项目进行了可观的实践（https://huggingface.co/fb700/chatglm-fitness-RLHF）
，我们预期的实现效果也是通过人工反馈让模型正确的依赖资料进行回复。
预计这个月会更新相应权重。相关问题可以加微信：Astro_YuYang，一起学习交流。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

有点困惑请教一下 #4

有点困惑请教一下 #4

r00mz commented Aug 7, 2023

Yu-Yang-Li commented Aug 7, 2023

r00mz commented Aug 7, 2023

Yu-Yang-Li commented Aug 9, 2023 •

edited

有点困惑请教一下 #4

有点困惑请教一下 #4

Comments

r00mz commented Aug 7, 2023

Yu-Yang-Li commented Aug 7, 2023

r00mz commented Aug 7, 2023

Yu-Yang-Li commented Aug 9, 2023 • edited

Yu-Yang-Li commented Aug 9, 2023 •

edited