阿里云发布其全新的通义千问 Qwen 2.5-Max超大规模混合专家 (MoE)模型的时间较不寻常,正值农历新年第一天,大多数中国人正在放假与家人团聚。这意味着中国AI初创公司深度求索 ...
这个来自中国的大模型,虽然各项指标往往只是与国外的竞品“相当”,最多也只是“略强”,但它的低成本,以及在算力资源上的节省,仍然令国外同行在《自然》杂志上惊呼:“这太疯狂了,完全出乎意料”。
“Meta的生成式AI部门正处于恐慌中。这一切始于 Deepseek,它使得 Llama 4 在基准测试中已经落后。雪上加霜的是:那个不知名的中国公司,仅有 550 万美元的训练预算。工程师们正在疯狂地剖析 ...
有趣的是,英伟达表示使用Nemotron-CC-HQ训练的模型在MMLU(Massive Multitask Language Understanding)基准测试中得分提升了5.6分,显著优于目前业界主流的DCLM(Deep Common Crawl Language Model)。进一步的测试结果也表明,基于Nemotron-CC训练的80亿参数模型在MMLU基准测试中提升了5 ...