专题分类 专题首页 切换频道
最新专题资讯
Deepseek突破AI训练成本瓶颈:以1/525的费用挑战GPT-4o_模型_DeepSeek-GRM_技术
更令人惊叹的是,这一模型设计采用了混合专家系统(MoE),支持128k token的上下文窗口,单次查询的延迟时间仅为1.4秒。这些技术进步不仅提升了模型的响应速度,也为实时机器人控制等动态场景提供了新的可能性。2.显著降低训练...

2025-06-08

清华新成果打破遥感水文界“时—空”权衡瓶颈
在世界范围内打破了长期困扰遥感水文界的“时间—空间”权衡瓶颈,...解决湖泊动态监测不足的关键瓶颈,龙笛团队创新性地构建了一套融合MODIS卫星传感器时间分辨率优势与GSW空间分辨率优势的深度学习遥感大数据融合框架,借助清华...

2025-06-08

华为发布7180亿参数盘古Ultra MoE,昇腾AI平台助力超大规模MoE模型训练
华为在MoE模型训练技术方面取得了新的突破,正式推出了名为“盘古Ultra MoE”的超级模型,其参数规模达到了惊人的7180亿。这一成就标志着华为在AI领域的研发实力再次迈上了新的台阶。据了解,这款准万亿级别的MoE模型全程都在...

2025-06-08

字节Seed新作:模型合并如何改变大模型预训练范式
例如,Seed-MoE-15B/150B 模型在衰减初期合并后,其性能与训练至末期的模型相差无几。合并策略:简单平均(SMA)胜过复杂加权 在合并策略的对比实验中,研究团队测试了三种主流方法: 简单移动平均(SMA):所有模型权重等比例...

2025-06-08

一张卡干俩活,华为要把算力榨干_训练_模型_推理
以Pangu 718B-MoE训练并行策略为例(TP8,EP4,PP16),引入分层数据传输可将DistQueue的负载降低为 1/128,从而支持后训练规模的进一步扩展。图6:分层数据传输技术示意图 在后训练中,传统的...表1:单超节点RL后训练性能分析 ...

2025-06-08

相关专题