cuda - 搜索 News

最近，关于DeepSeek是否能够绕开英伟达的CUDA框架的讨论，引发了广泛关注。这个问题的答案，不仅关乎DeepSeek的未来发展，更可能影响中国GPU产业能否在全球AI竞争中占有一席之地。英伟达的CUDA技术几乎垄断了全球的AI计算市场，国产GP ...

3 天

世界首个「AI CUDA工程师」诞生！AI自己写代码优化CUDA内核，性能狂飙 ...

Transformer论文八位作者之一Llion Jones创立的Sakana AI发布重磅成果——全球首个「AI CUDA工程师」！它能将PyTorch代码自动转换为高度优化的CUDA内核，速度比PyTorch原生实现快10-100倍。

1 天on MSN

RTX 50系列GPU放弃对32位CUDA支持，老显卡成PhysX游戏“救星”

IT之家 2 月 23 日消息，英伟达在其最新的 RTX 50 系列（Blackwell）显卡中停止了对 32 位 CUDA 应用的支持，多年来，对 PhysX 技术的支持也在逐渐减少。YouTube 博主 VerbalSilence 和一位 ...

2 天

DeepSeek能否打破英伟达CUDA的堡垒？

DeepSeek的尝试虽然引发了人们的希望，其技术路径究竟能否真正打破英伟达的技术封锁，则充满了未知。实际上，DeepSeek并没有完全脱离CUDA，而是选择了绕过CUDA的高层API，直接操作PTX（Parallel Thread ...

1 天

RTX 50系列显卡不再支持32位CUDA，GTX 980 Ti成新宠！

近日，英伟达（NVIDIA）宣布其最新的RTX ...

知乎 on MSN9 天

DeepSeek绕开CUDA垄断，V3论文细节再挖出！英伟达护城河不存在了？

编辑：桃子好困【新智元导读】DeepSeek模型开发竟绕过了CUDA？最新爆料称，DeepSeek团队走了一条不寻常的路——针对英伟达GPU低级汇编语言PTX进行优化实现最大性能。业界人士纷纷表示，CUDA护城河不存在了？原本DeepSeek低成本训出的R1，就已经让整个硅谷和华尔街为之虎躯一震。

24 天

“DeepSeek 甚至绕过了英伟达 CUDA”，论文细节再引热议

来自 Mirae Asset Securities Research （韩国未来资产证券）的分析称，V3 的硬件效率之所以能比 Meta 等高出 10 倍，可以总结为“他们从头开始重建了一切”。在使用英伟达的 H800 GPU 训练 DeepSeek-V3 时，他们针对自己的需求把 132 个流式多处理器（SMs）中的 20 个修改成负责服务器间的通信，而不是计算任务。

腾讯网3 天

华泰证券：DeepSeek有望加速模型训练与CUDA解耦

结合xAI发布的Grok-3，xAI已经将10万卡集群扩展到20万，确实带来了当下全球最领先的预训练/推理模型性能。对比xAI和DeepSeek，10万卡vs万卡，Grok-3相比R1在某些测评集上提高了20%左右效果，是否有性价比？认为，这并不冲突 ...

来自MSN10 天

Deepseek打破CUDA算力垄断，嘉合劲威发力AI，全力MRDIMM内存研发

过往运算基本上就是CPU一言堂，那时的霸主是Intel；挖矿初期，AMD的GCN小核心架构成为时代红利，后续nVidia的CUDA架构不断更新，从而成为了从挖矿、专业应用，以及AI运算都成为了霸主。而Deepseek的出现打破了CUDA算力垄断。

来自MSN5 小时

DeepSeek开源大餐来了！解锁H800，带飞GPU推理速度，1小时10万观看

智东西作者｜程茜编辑｜心缘智东西2月24日报道，刚刚，DeepSeek开源周第一天重磅更新来了，开源首个代码库——FlashMLA，发布一小时GitHub Star数冲上1700。 FlashMLA指的是DeepSeek针对Hopper ...

证券时报官方网站3 天

华泰证券：DeepSeek有望加速模型训练与CUDA解耦

证券时报网讯，华泰证券研究认为，DeepSeek在V3中使用了相比CUDA更底层的PTX 来优化硬件算法，PTX是CUDA编译的中间代码，在CUDA和最终机器码之间起到桥梁作用。而NSA则使用了OpenAl提出的Triton编程语言高效编写GPU代码，Triton的底层可调用CUDA，也可调用其他GPU语言 ...

第一财经3 天

华泰证券：DeepSeek有望加速模型训练与CUDA解耦

华泰证券研究认为，DeepSeek在V3中使用了相比CUDA更底层的PTX 来优化硬件算法，PTX是CUDA编译的中间代码，在CUDA和最终机器码之间起到桥梁作用。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果