如何能达到论文里说的吞吐量50000多tokens #35

ly19970621 · 2024-05-17T03:44:07Z

硬件：H800 PCIE * 8
我使用vllm推理最多只能达到1500tokens/s，batch_size为1024，请问怎样才能达到论文里说的50000多tokens？

haichuan1221 · 2024-05-19T05:52:43Z

你好，vllm是否能够跑起来呢? 是否有做量化呢? 另外PCIE的带宽比较低，做tensor parallel的话，可能会比较慢; 论文里面的H100多半是nvlink连接的8卡主机

硬件：H800 PCIE * 8 我使用vllm推理最多只能达到1500tokens/s，batch_size为1024，请问怎样才能达到论文里说的50000多tokens？

ly19970621 · 2024-05-20T09:41:05Z

你好，vllm是否能够跑起来呢? 是否有做量化呢? 另外PCIE的带宽比较低，做tensor parallel的话，可能会比较慢; 论文里面的H100多半是nvlink连接的8卡主机

硬件：H800 PCIE * 8 我使用vllm推理最多只能达到1500tokens/s，batch_size为1024，请问怎样才能达到论文里说的50000多tokens？
就是使用vllm跑的，还要专门做量化嘛？
如果需要量化的话，可以开源量化后的模型嘛？或者提供一下量化方式，是AWQ还是GPTQ？
对于并行方式，推理是选择张量并行还是流水线并行？
另外我在8卡SXM（nvlink）的A800跑也是1500tokens/s，一样用得vllm，每个卡之间的网络带宽是400GB。

luofuli · 2024-05-27T11:07:28Z

In order to efficiently deploy DeepSeek-V2 for service, we first convert its parameters into the precision of FP8. In addition, we also perform KV cache quantization (Hooper et al., 2024; Zhao et al., 2023) for DeepSeek-V2 to further compress each element in its KV cache into 6 bits on average.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

如何能达到论文里说的吞吐量50000多tokens #35

如何能达到论文里说的吞吐量50000多tokens #35

ly19970621 commented May 17, 2024

haichuan1221 commented May 19, 2024 •

edited

ly19970621 commented May 20, 2024

luofuli commented May 27, 2024

如何能达到论文里说的吞吐量50000多tokens #35

如何能达到论文里说的吞吐量50000多tokens #35

Comments

ly19970621 commented May 17, 2024

haichuan1221 commented May 19, 2024 • edited

ly19970621 commented May 20, 2024

luofuli commented May 27, 2024

haichuan1221 commented May 19, 2024 •

edited