cuda - 搜索 News

2 小时

DeepSeek并没有完全跳出英伟达的CUDA框架，而是选择绕过了CUDA的高层API，直接操作PTX指令集，进行更细粒度的硬件优化。这种做法本质上是在原有框架内寻求突破，而非彻底脱离英伟达的生态系统。为什么选择PTX？这到底是突破，还是妥协？为什么 ...

2 小时

英伟达的CUDA，DeepSeek只“击穿”了50%

综上，CUDA的“魔咒”与英伟达的技术垄断，早已将全球AI产业的算力主权牢牢掌控。这场与英伟达的较量，绝不仅仅是技术上的一场追逐，而是关乎中国在全球科技格局中能否真正崛起的关键赌局。如果我们依然依赖外部技术，坐视CUDA继续作为全球AI算力的“标准”，那中国AI的未来，将永远在别人的“规则”下打拼。

来自MSN7 小时

全球首个AI CUDA工程师来了！将PyTorch原生实现提速10-100倍

在当今的科技世界里，人工智能（AI）技术已经成为推动各行各业变革的重要力量。然而，随着AI在计算能力和应用领域上的快速增长，大家开始逐渐意识到一个问题：现有的AI系统需要消耗大量的电力和计算资源，这样的模式是否能持续？

钛媒体APP on MSN2 小时

英伟达想靠并购赢下AI时代

DeepSeek引发的海啸，并未让英伟达一蹶不振。

红板报 on MSN13 小时

刚刚，DeepSeek开源FlashMLA，瞬间破1000颗星

今早9点30，国内著名开源大模型平台DeepSeek开启了本周连续5天技术分享的第1天，开源了针对Hopper GPU优化的高效MLA解码内核——FlashMLA。

来自MSN2 分钟

从AI智能体到DeepSeek，GDC大会勾勒AI国产化发展前景

据了解，AI框架的主要作用之一是连接底层硬件与上层AI算法。目前，PyTorch作为业内主流框架，与英伟达GPU及CUDA生态的适配性和契合度在业内最为成熟。而国产AI框架则一直是追赶者的角色。

光明网 on MSN4 小时

DeepSeek 发布开源第一弹！让大模型在GPU上跑得更快

据介绍，这是DeepSeek针对Hopper GPU优化的高效MLA解码内核，专为处理可变长度序列而设计，现在已经投入生产使用。“在H800上能实现3000 GB/s 的内存带宽 &580 TFLOPS 的计算性能。”DeepSeek说。

来自MSN19 分钟

“源神”DeepSeek！突破H800性能上限，FlashMLA重磅开源，算力成本还能降

白交发自凹非寺量子位 | 公众号 QbitAI DeepSeek开源周第一天，降本大法公开—— FlashMLA，直接突破H800计算上限。网友：这怎么可能？？它是为Hopper GPU开发的高效MLA解码内核，专门针对可变长度序列进行了优化 ...

腾讯网5 小时

GeForce RTX 5090 VS GeForce RTX 4090，性能提升几何？游戏测试出炉

一、前言英伟达新一代旗舰显卡GeForce RTX 5090已经上市了，在这之前，各种有关这款显卡的性能爆料满天飞，而且结论不一、区别很大，令公众莫衷一是。本文将对比GeForce RTX 5090和GeForce RTX ...

4 小时

一文看懂 DeepSeek 刚刚开源的 FlashMLA，这些细节值得注意

DeepSeek 开源项目第一弹 FlashMLA，已经在极短的时间内发酵到全网了，短短几个小时，该项目就已经收获了超过 3.5K Star，且还在不断飙升。虽然 FlashMLA 里的每个字母都认识，连在一起就看不懂了。别急，我们整理了一份 ...

9 小时

DeepSeek 代码库开源进度 1/5：为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA

IT之家 2 月 24 日消息，DeepSeek 今日启动“开源周”，首个开源的代码库为 FlashMLA—— 针对 Hopper GPU 优化的高效 MLA 解码内核，专为处理可变长度序列而设计。据介绍，FlashMLA 的灵感来自 ...

腾讯网7 小时

正在崩塌的特斯拉帝国：在AI乌托邦与造车现实间的生死时速

2024年第四季度，特斯拉交出了一份令市场错愕的答卷：汽车收入198亿美元，较预期低19亿美元；单车均价环比暴跌2200美元至3.98万美元；汽车毛利率在剔除碳积分后仅有13.6%，创历史新低。这份财报背后，是特斯拉造车帝国根基的动摇——当“以价换量 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果