专题分类 专题首页 切换频道
最新专题资讯
为什么 Qwen3,让我看到了 AI 应用落地的重大利好_模型_场景_的能力
一位开发者帮我拆解了下,他说 Qwen3 系列有 8 个模型,包括两款 MoE(混合专家)模型和六个稠密模型,可以服务不同场景的不同需求。在稠密模型当中,0.6B 和 1.7B 模型特别适合研究人员使用,它甚至可以在没有 GPU、没有独立...

2025-06-08

被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通专家混合架构部署-The Paper
混合专家架构简称 MoE,它的特点如下: 与稠密模型相比,预训练速度更快;与参数数量相同的模型相比,推理速度更快;因为要把所有专家模型都加载在内存中,所以需要大量显存;在微调方面面临许多挑战,但最近在 MoE 指令微调...

2025-06-08

相关专题