在 AI 编程工具（如 Trae, Cursor）百家争鸣的时代，拥有一套高性能的本地大模型环境，不仅能保护代码私密性，更能通过极低的延迟提升“人机合一”的快感。本文记录了在 NVIDIA RTX 3090（多卡）环境下，利用 Ollama 部署 Qwen3-Coder-30B (MoE) 并进行深度调优的全过程。

1. 硬件与模型选型：为什么是 Qwen3-30B？

对于有充足显存的配置，Qwen3-Coder-30B 是目前相对较优的“版本答案”：

MoE 架构：总参数 30B，推理时仅激活约 3.3B。这意味着它拥有大模型的“深度”，却具备小模型的“速度”。
长上下文支持：原生支持 128k 上下文，适合 Repo-level 的代码理解。

2. 核心部署配置

2.1 环境变量调优 (Server-Side)

为了压榨并发性能，我们在启动 Ollama 前设置了如下关键参数：

# 启用 Flash Attention 减少长文本压力
export OLLAMA_FLASH_ATTENTION=1
# 模型驻留显存，消除冷启动等待
export OLLAMA_KEEP_ALIVE=12h

2.2 自定义 Modelfile

我们创建了 my-code-qwen3 模型，固定了黄金生产力参数：

FROM qwen3-coder:30b-instruct-q8_0
PARAMETER num_ctx 65536
PARAMETER temperature 0.1
PARAMETER repeat_penalty 1.15

3. 性能压测实录 (Benchmark)

在并发数 $N=4$ 的高频压力测试下，不同上下文长度的表现如下：

配置 (Context)	首字延迟 (TTFT)	总吞吐量 (Total TPS)	人均生成速度	结论
32k	0.39s	121.22 tokens/s	30.3 tokens/s	极速响应，无感延迟
64k	0.40s	124.24 tokens/s	31.0 tokens/s	黄金平衡点
128k	0.44s	112.13 tokens/s	28.0 tokens/s	略有衰减但依然流畅

数据解读：

0.4s 的 TTFT：意味着在你按下快捷键的瞬间，代码已经开始流式输出。
120+ TPS 的总输出：证明了 MoE 架构在 3090 上的巨大带宽优势，足以支撑多人或多任务同时运行。
64k 甜点位：测试显示 64k 下性能不降反升，说明该尺寸最契合目前的算力调度。

4. 总结

双 3090 配合 Qwen3-Coder-30B MoE 模型，为单人开发者提供了一个“低延迟、高智力、大容量”的完美私有大脑。

如果你追求极致速度：32k 上下文 + Q4 量化。
如果你追求生产力平衡：64k 上下文 + Q8 量化（推荐）。
如果你需要处理庞大工程：128k 上下文 + KV Cache 量化。

写在最后：本地 AI 的魅力在于，它不只是一件工具，更是你算力的延伸。如果你需要大量的token消耗,除了大厂的Coding Plan,本地也许是个不错的选择。