本地大模型运行工具 Ollama 发布了 0.19 预览版,这是一次值得关注的底层重构——他们开始基于 Apple 的 MLX 机器学习框架构建,为 Apple Silicon 设备带来显著的性能提升。

核心升级:MLX 统一内存架构

Ollama 之前使用 llama.cpp/GGML 作为后端,这次切换到 MLX 的主要优势在于能够充分利用 Apple Silicon 的统一内存架构(Unified Memory)。在 M5、M5 Pro 和 M5 Max 芯片上,Ollama 还能调用新的 GPU Neural Accelerator 来加速首 token 生成时间(TTFT)和生成速度。

官方测试数据显示(使用 Qwen3.5-35B-A3B 模型,NVFP4 量化):

  • Prefill 性能:1851 tokens/s
  • Decode 性能:134 tokens/s

这个速度对于本地运行的 350 亿参数模型来说相当可观。

NVFP4 量化支持

0.19 版本引入了对 NVIDIA NVFP4 格式的支持。这种 4-bit 浮点量化格式能在保持模型精度的同时,显著降低内存带宽和存储需求。对于开发者来说,这意味着:

  1. 可以在本地运行更大参数的模型
  2. 生产环境与本地环境的输出结果更一致
  3. 未来可以直接使用 NVIDIA Model Optimizer 优化的模型

需要注意的是,运行这些优化后的模型建议配备 32GB 以上统一内存的 Mac。

缓存系统重构

除了底层框架切换,Ollama 的缓存机制也进行了重新设计:

  • 跨会话复用:共享的系统 prompt 会在多个会话间复用缓存,降低内存占用
  • 智能检查点:在提示词的合理位置自动创建缓存快照,减少重复计算
  • 更智能的淘汰策略:共享前缀即使在旧分支被清理后也能保留更长时间

这些改进对使用 Claude Code、OpenCode 这类编码助手的用户尤其有意义——频繁的工具调用和上下文切换会变得更加流畅。

当前支持的模型

预览版目前针对 Qwen3.5-35B-A3B 模型做了专门优化,可以通过以下命令体验:

# 直接运行
ollama run qwen3.5:35b-a3b-coding-nvfp4

# 作为 Claude Code 后端
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

官方表示正在积极扩展支持的模型范围,并计划提供更简便的自定义模型导入方式。

一个信号

Ollama 拥抱 MLX 的背后,反映出本地 AI 运行时正在从”能跑就行”向”原生优化”过渡。对于 Mac 用户来说,这是好事——Apple Silicon 的神经网络引擎终于能被充分利用,而不是仅仅作为通用 GPU 使用。

对于依赖本地模型进行开发工作的用户,这次更新值得关注。性能提升意味着更短的等待时间,更流畅的编码体验。