JANG: 面向 Apple Silicon 的 MLX 混合精度量化格式
• 针对 MoE 与超大模型做按张量分配比特宽度,在接近 MLX 体积下优先保留 attention 与 router 精度,低比特场景下稳定性和效果更强
• 支持 Qwen、Nemotron、MiniMax、DeepSeek 等架构,部分模型可在 16 GB 或 64 GB Mac 上运行,甚至实现 397B 级模型在 128 GB Mac 上推理
• 原生兼容 MLX 生态,提供推理模式、VLM 支持、bfloat16 自动检测和开发者集成方案,适合在 Apple Silicon 上部署高压缩本地模型
https://github.com/jjang-ai/jangq
#AppleSilicon #MLX #模型量化 #混合精度量化 #本地大模型 #MoE #推理优化 #Mac #AI #GitHub
• 针对 MoE 与超大模型做按张量分配比特宽度,在接近 MLX 体积下优先保留 attention 与 router 精度,低比特场景下稳定性和效果更强
• 支持 Qwen、Nemotron、MiniMax、DeepSeek 等架构,部分模型可在 16 GB 或 64 GB Mac 上运行,甚至实现 397B 级模型在 128 GB Mac 上推理
• 原生兼容 MLX 生态,提供推理模式、VLM 支持、bfloat16 自动检测和开发者集成方案,适合在 Apple Silicon 上部署高压缩本地模型
https://github.com/jjang-ai/jangq
#AppleSilicon #MLX #模型量化 #混合精度量化 #本地大模型 #MoE #推理优化 #Mac #AI #GitHub