comet - 搜索 News

46 分钟

DeepSeek通过MoE架构的创新让激活参数比大幅下降，使得同等效果的大模型所需的算力明显下降。“671B的模型，在处理每个问题时，被调用激活的专家模型参数仅约37B，算力需求起码降低到原来的约二十分之一。”阿里云无影事业部总裁张献涛曾在接受《每日经济新闻》记者采访时表示。

一些您可能无法访问的结果已被隐去。

今日热点