JANG: 面向 Apple Silicon 的 MLX 混合精度量化格式• 针对 MoE 与超大模型做按张量分配比特宽度，在接近 MLX 体积下优先保留 attention 与 router 精度，低比特场景下稳定性和效果更强• 支持 Qwen、Nemotron、MiniMax、DeepSeek 等架构，部分模型可在 16 GB 或 64 GB Mac 上运行，甚至实现 397B 级模型在 128 GB Mac 上推理• 原生兼容 MLX 生态，提供推理模式、VLM 支持、bfloat16 自动检测和开发者集成方案，适合在 Apple Silicon 上部署高压缩本地模型

Wed, 25 Mar 2026 04:51:15 GMT

JANG: 面向 Apple Silicon 的 MLX 混合精度量化格式

• 针对 MoE 与超大模型做按张量分配比特宽度，在接近 MLX 体积下优先保留 attention 与 router 精度，低比特场景下稳定性和效果更强

• 支持 Qwen、Nemotron、MiniMax、DeepSeek 等架构，部分模型可在 16 GB 或 64 GB Mac 上运行，甚至实现 397B 级模型在 128 GB Mac 上推理

• 原生兼容 MLX 生态，提供推理模式、VLM 支持、bfloat16 自动检测和开发者集成方案，适合在 Apple Silicon 上部署高压缩本地模型

https://github.com/jjang-ai/jangq

#AppleSilicon #MLX #模型量化 #混合精度量化 #本地大模型 #MoE #推理优化 #Mac #AI #GitHub

GitHub

GitHub - jjang-ai/jangq: JANG — GGUF for MLX. YOU MUST USE JANG_Q RUNTIME. Adaptive Mixed-Precision Quantization + Runtime for…

JANG — GGUF for MLX. YOU MUST USE JANG_Q RUNTIME. Adaptive Mixed-Precision Quantization + Runtime for Apple Silicon - jjang-ai/jangq

AppleSilicon | 杜叔叔网盘