保姆级教程：Qwen Code+vLLM+Qwen3-Coder打造纯内网私服级AI编程助手

2026-01-30 01:52:05 栏目：最新资讯 6 阅读

本文详细介绍了如何通过Qwen Code+vLLM+Qwen3-Coder-30B-A3B-Instruct构建纯内网环境下的私服级开发辅助引擎。内容包括：使用modelscope下载模型，通过vLLM部署API服务，配置Qwen Code组件连接本地模型，以及测试Vibe Coding功能开发H5小游戏和前端页面。文章提供了完整的部署流程、参数配置说明和代码示例，帮助开发者在内网环境中搭建高性能的AI编程助手，提升开发效率。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

一、Qwen Code

Qwen Code 是一款类似于 Claude Code的AI编程助手，由阿里通义千问团队推出，一定程度上可以作为 Claude Code的平替工具，本文通过 Qwen Code + vLLM + Qwen3-Coder-30B-A3B-Instruct 构建纯内网下私服级开发辅助引擎，主要流程如下所示：

实验主要依赖的版本如下：

torch==2.6.0transformers==4.51.3modelscope==1.23.1vllm==0.8.4

二、vLLM 部署 Qwen3-Coder-30B-A3B-Instruct

使用 modelscope 下载 Qwen3-Coder-30B-A3B-Instruct 模型到本地：

modelscope download --model="Qwen3-Coder-30B-A3B-Instruct" --local_dir Qwen3-Coder-30B-A3B-Instruct

然后使用 vLLM 读取模型启动API服务。

export CUDA_VISIBLE_DEVICES=0,1vllm serve "Qwen3-Coder-30B-A3B-Instruct"   --host 0.0.0.0   --port 8060   --dtype bfloat16   --tensor-parallel-size 2   --cpu-offload-gb 0   --gpu-memory-utilization 0.8   --max-model-len 65536   --api-key token-abc123   --enable-prefix-caching   --enable-auto-tool-choice   --tool-call-parser hermes   --trust-remote-code

关键参数说明：

• export CUDA_VISIBLE_DEVICES=0,1 ：指定所使用的GPU。
• dtype: 数据类型，其中 bfloat16，16位浮点数，适合 NVIDIA A100 等设备。
• tensor-parallel-size：Tensor 并行的数量，当多 GPU 分布式推理时使用，建议和GPU的数量一致。
• cpu-offload-gb：允许将部分模型权重或中间结果卸载到 CPU 的内存中，单位为 GB，模拟 GPU 内存扩展，如果部署的模型大于了显存大小可以设置该参数，但是推理速度会大大下降。
• gpu-memory-utilization：设置 GPU 内存利用率的上限。
• max-model-len：允许模型最大处理的Token数，该参数越大占用显存越大。
• enable-prefix-caching：启用前缀缓存减少重复计算。
• enable-auto-tool-choice：启用 function call 模式。
• tool-call-parser hermes：设置 function call 的解析器。

显存占用情况：

如果启动显存不足，可适当调整 gpu-memory-utilization 和 max-model-len 参数，或通过 cpu-offload-gb 将部分模型权重卸载到内存中（速度会大大折扣）。

启动成功后，可通过 /v1/models 接口可查看模型列表：

curl http://127.0.0.1:8060/v1/models -H "Authorization: Bearer token-abc123"
```![](http://cdn.zhipoai.cn/a6f6beab.jpg)

测试`API`交互：

```plaintext
curl http://127.0.0.1:8060/v1/chat/completions     -H "Content-Type: application/json"     -H "Authorization: Bearer token-abc123"     -d '{        "model": "Qwen3-Coder-30B-A3B-Instruct",        "messages": [            {"role": "system", "content": "You are a helpful assistant."},            {"role": "user", "content": "你是谁"}        ]    }'
```![](http://cdn.zhipoai.cn/06c56868.jpg)

三、安装和配置 Qwen Code
-----------------

首先安装 Qwen Code  组件，这里采用 npm：

```plaintext
npm install -g @qwen-code/qwen-code@latest
```![](http://cdn.zhipoai.cn/4b4d3ee7.jpg)

安装好后，可以输入 `qwen`  进入窗口：

![](http://cdn.zhipoai.cn/d46e8335.jpg)

配置上面部署的私有模型：

在项目目录下创建 `.env` 文件， 内容如下所示：

```plaintext
OPENAI_BASE_URL=http://127.0.0.1:8060/v1/OPENAI_API_KEY=token-abc123OPENAI_MODEL=Qwen3-Coder-30B-A3B-Instruct

然后在 .env 文件同级的目录下唤醒 qwen: