最近,关于DeepSeek是否能够绕开英伟达的CUDA框架的讨论,引发了广泛关注。这个问题的答案,不仅关乎DeepSeek的未来发展,更可能影响中国GPU产业能否在全球AI竞争中占有一席之地。英伟达的CUDA技术几乎垄断了全球的AI计算市场,国产GP ...
Transformer论文八位作者之一Llion Jones创立的Sakana AI发布重磅成果——全球首个「AI CUDA工程师」!它能将PyTorch代码自动转换为高度优化的CUDA内核,速度比PyTorch原生实现快10-100倍。
IT之家 2 月 23 日消息,英伟达在其最新的 RTX 50 系列(Blackwell)显卡中停止了对 32 位 CUDA 应用的支持,多年来,对 PhysX 技术的支持也在逐渐减少。YouTube 博主 VerbalSilence 和一位 ...
DeepSeek的尝试虽然引发了人们的希望,其技术路径究竟能否真正打破英伟达的技术封锁,则充满了未知。实际上,DeepSeek并没有完全脱离CUDA,而是选择了绕过CUDA的高层API,直接操作PTX(Parallel Thread ...
近日,英伟达(NVIDIA)宣布其最新的RTX ...
编辑:桃子 好困 【新智元导读】DeepSeek模型开发竟绕过了CUDA?最新爆料称,DeepSeek团队走了一条不寻常的路——针对英伟达GPU低级汇编语言PTX进行优化实现最大性能。业界人士纷纷表示,CUDA护城河不存在了? 原本DeepSeek低成本训出的R1,就已经让整个硅谷和华尔街为之虎躯一震。
来自 Mirae Asset Securities Research (韩国未来资产证券)的分析称,V3 的硬件效率之所以能比 Meta 等高出 10 倍,可以总结为“他们从头开始重建了一切”。 在使用英伟达的 H800 GPU 训练 DeepSeek-V3 时,他们针对自己的需求把 132 个流式多处理器(SMs)中的 20 个修改成负责服务器间的通信,而不是计算任务 。
结合xAI发布的Grok-3,xAI已经将10万卡集群扩展到20万,确实带来了当下全球最领先的预训练/推理模型性能。对比xAI和DeepSeek,10万卡vs万卡,Grok-3相比R1在某些测评集上提高了20%左右效果,是否有性价比?认为,这并不冲突 ...
过往运算基本上就是CPU一言堂,那时的霸主是Intel;挖矿初期,AMD的GCN小核心架构成为时代红利,后续nVidia的CUDA架构不断更新,从而成为了从挖矿、专业应用,以及AI运算都成为了霸主。 而Deepseek的出现打破了CUDA算力垄断。
智东西 作者|程茜 编辑|心缘 智东西2月24日报道,刚刚,DeepSeek开源周第一天重磅更新来了,开源首个代码库——FlashMLA,发布一小时GitHub Star数冲上1700。 FlashMLA指的是DeepSeek针对Hopper ...
证券时报网讯, 华泰证券研究认为,DeepSeek在V3中使用了相比CUDA更底层的PTX 来优化硬件算法,PTX是CUDA编译的中间代码,在CUDA和最终机器码之间起到桥梁作用。而NSA则使用了OpenAl提出的Triton编程语言高效编写GPU代码,Triton的底层可调用CUDA,也可调用其他GPU语言 ...
华泰证券研究认为,DeepSeek在V3中使用了相比CUDA更底层的PTX 来优化硬件算法,PTX是CUDA编译的中间代码,在CUDA和最终机器码之间起到桥梁作用。