福大大架构师每日...吧 关注:17贴子:1,687
  • 1回复贴,共1

ollama v0.11.2版本深度解析:优化kv缓存量化修复及全新gpt-oss

只看楼主收藏回复

ollama v0.11.2版本深度解析:优化kv缓存量化修复及全新gpt-oss模型支持详解
• 模型规模与性能: 20B和120B两款模型覆盖多场景应用,带来了更强的推理能力和多任务处理能力;
• 全新功能特性:• agentic能力:支持函数调用、网页浏览、Python工具调用和结构化输出,方便构建复杂应用;
• 全链路思考访问:允许开发者直接获取模型推理过程,提升调试和信任感;
• 可调节推理努力水平:支持低、中、高三档推理强度,平衡响应速度和准确度;
• 可微调:对模型参数进行细致调整,满足个性化需求;
• 开源许可:采用宽松的Apache 2.0许可证,降低试验和商用风险;
• 量化技术创新:采用MXFP4格式对MoE(Mixture-of-Experts)权重进行4.25位参数精度量化,大幅缩减显存占用。


IP属地:北京1楼2025-08-07 08:09回复


    IP属地:北京来自Android客户端2楼2025-08-07 08:17
    回复