大模型的实践应用13-量化后的通义千问Qwen的18亿参数在CPU上的部署，最小2GB显存可跑，并利用两种文本流式方式输出

大家好，我是微学AI，今天给大家介绍大模型的实践应用13-量化后的通义千问Qwen的18亿参数在CPU上的部署，最小2GB显存可跑，并利用两种文本流式方式输出。Qwen-1_8B-Chat是阿里云研发的通义千问大模型系列的18亿参数规模的模型。Qwen-1.8B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在Qwen-1.8B的基础上，我们使用对齐机制打造了基于大语言模型的AI助手Qwen-1.8B-Chat。

在这里插入图片描述

一、Qwen-1.8B量化模型的特点

通义千问官方给出的18亿参数的这个模型主要有以下特点：

Qwen-1.8B特点

1.低成本部署：
提供int8和int4量化版本，推理最低仅需不到2GB显存，生成2048 tokens仅需3GB显存占用。微调最低仅需6GB。
2.大规模高质量训练语料：
使用超过2.2万亿tokens的数据进行预训练，包含高质量中、英、多语言、代码、数学等数据，涵盖通用及专业领域的训练语料。通过大量对比实验对预训练语料分布进行了优化。
3.优秀的性能：
Qwen-1.8B支持8192上下文长度，在多个中英文下游评测任务上（涵盖常识推理、代码、数学、翻译等），效果显著超越现有的相近规模开源