Llama Model - 搜索 News

美国之音4 天

阿里巴巴发布AI模型声称超越DeepSeek

阿里云发布其全新的通义千问 Qwen 2.5-Max超大规模混合专家 (MoE)模型的时间较不寻常，正值农历新年第一天，大多数中国人正在放假与家人团聚。这意味着中国AI初创公司深度求索 ...

5 天

来自中国的大模型成最大黑马，成本仅国外三十分之一，硅谷恐慌

这个来自中国的大模型，虽然各项指标往往只是与国外的竞品“相当”，最多也只是“略强”，但它的低成本，以及在算力资源上的节省，仍然令国外同行在《自然》杂志上惊呼：“这太疯狂了，完全出乎意料”。

虎嗅网7 天

成本仅国外三十分之一，中国大模型已经追上美国了？

“Meta的生成式AI部门正处于恐慌中。这一切始于 Deepseek，它使得 Llama 4 在基准测试中已经落后。雪上加霜的是：那个不知名的中国公司，仅有 550 万美元的训练预算。工程师们正在疯狂地剖析 ...

搜狐19 天

英伟达推出6.3万亿Token AI训练数据库Nemotron-CC，助力自然语言处理新篇章

有趣的是，英伟达表示使用Nemotron-CC-HQ训练的模型在MMLU（Massive Multitask Language Understanding）基准测试中得分提升了5.6分，显著优于目前业界主流的DCLM（Deep Common Crawl Language Model）。进一步的测试结果也表明，基于Nemotron-CC训练的80亿参数模型在MMLU基准测试中提升了5 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果