Ollama 0.19 预览版：MLX 驱动 Apple Silicon 性能飞跃

本地大模型运行工具 Ollama 发布了 0.19 预览版，这是一次值得关注的底层重构——他们开始基于 Apple 的 MLX 机器学习框架构建，为 Apple Silicon 设备带来显著的性能提升。

核心升级：MLX 统一内存架构

Ollama 之前使用 llama.cpp/GGML 作为后端，这次切换到 MLX 的主要优势在于能够充分利用 Apple Silicon 的统一内存架构（Unified Memory）。在 M5、M5 Pro 和 M5 Max 芯片上，Ollama 还能调用新的 GPU Neural Accelerator 来加速首 token 生成时间（TTFT）和生成速度。

官方测试数据显示（使用 Qwen3.5-35B-A3B 模型，NVFP4 量化）：

Prefill 性能：1851 tokens/s
Decode 性能：134 tokens/s

这个速度对于本地运行的 350 亿参数模型来说相当可观。

NVFP4 量化支持

0.19 版本引入了对 NVIDIA NVFP4 格式的支持。这种 4-bit 浮点量化格式能在保持模型精度的同时，显著降低内存带宽和存储需求。对于开发者来说，这意味着：

可以在本地运行更大参数的模型
生产环境与本地环境的输出结果更一致
未来可以直接使用 NVIDIA Model Optimizer 优化的模型

需要注意的是，运行这些优化后的模型建议配备 32GB 以上统一内存的 Mac。

缓存系统重构

除了底层框架切换，Ollama 的缓存机制也进行了重新设计：

跨会话复用：共享的系统 prompt 会在多个会话间复用缓存，降低内存占用
智能检查点：在提示词的合理位置自动创建缓存快照，减少重复计算
更智能的淘汰策略：共享前缀即使在旧分支被清理后也能保留更长时间

这些改进对使用 Claude Code、OpenCode 这类编码助手的用户尤其有意义——频繁的工具调用和上下文切换会变得更加流畅。

当前支持的模型

预览版目前针对 Qwen3.5-35B-A3B 模型做了专门优化，可以通过以下命令体验：

# 直接运行
ollama run qwen3.5:35b-a3b-coding-nvfp4

# 作为 Claude Code 后端
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

官方表示正在积极扩展支持的模型范围，并计划提供更简便的自定义模型导入方式。

一个信号

Ollama 拥抱 MLX 的背后，反映出本地 AI 运行时正在从”能跑就行”向”原生优化”过渡。对于 Mac 用户来说，这是好事——Apple Silicon 的神经网络引擎终于能被充分利用，而不是仅仅作为通用 GPU 使用。

对于依赖本地模型进行开发工作的用户，这次更新值得关注。性能提升意味着更短的等待时间，更流畅的编码体验。