鲜为人知的是,上半年中国大模型价格战的“始作俑者”,正是DeepSeek。5月,DeepSeek-V2的推理成本被降到每百万token仅1块钱,是GPT-4 Turbo的1/70,智谱AI、豆包、通义千问等大模型先后跟进。
进入 GPT 纪元第二年,ChatGPT 逐渐也成了笔者的常用软件(尤其是开始充值了之后,真心想把它的会员费用出来)。直到前几天,笔者突然发现,ChatGPT 其实也有自己隐藏款的年终总结,只需要你找到合适的 prompt 就可以。
研究人员对比了三个基础模型中随机选择的智能体在第一代和第十代的策略,可以看到,策略会随时间发展而变得更加复杂,但Claude 3.5 Sonnet的差异最为显著,同时也展现出随时间增加的初始捐赠规模;Gemini 1.5 ...
日前,知名独立程序员、社交会议目录 Lanyrd 联合创始人、Django Web 框架联合创建者 Simon Willison在题为 Things we learned about LLMs in 2024 的文章中详细回顾了2024 年大模型行业的变化、惊喜与不足 。
得到数据集MEDEC后,研究团队对当前最先进的模型,包括o1-preview、GPT-4、Claude 3.5 Sonnet、Gemini 2.0 Flash等,在医疗错误检测和纠正任务中进行了全面测试。
张捷,现任复旦大学类脑智能科学与技术研究院研究员,博士生导师。2008年于香港理工大学获博士学位。曾获“香港青年科学家奖”提名奖。为牛津大学“系统建模分析与预测”实验室荣誉成员。
采用PRIME方法,研究人员不依赖任何蒸馏数据和模仿学习,仅用8张A100,花费一万块钱左右,不到10天时间,就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。
GPT的官方平台最地道,不用担心那些冒牌货的风险。界面简单,功能可靠。只要网络正常,用起来挺顺溜的。不过,它有地区限制,有些地方可能用不了。而且,它是按使用量和功能收费的,得考虑成本问题。
引言:2024年,人工智能(AI)领域迎来了令人瞩目的技术突破和市场变化。一年之内,GPT-4这个曾经高高在上的大语言模型(LLM)壁垒被彻底打破,市面上涌现出 dozens of models performance exceedingly surpassing GPT-4. 本文将详细探讨这一现象背后的原因,包括大模型训练成本的显著降低,多模态模型的崛起,以及新的交互方式如何推动整个行业的发展 ...
在Video Ocean模型训练过程中,我们做了一些初步探索。一个比较好的例子,我们能够精准地提供一些描述,戴着墨镜,长的胡茬的欧洲男人。显而易见这个视频里面确实是我们想要的那个感觉,蓝天、海岸、沙滩、背光、单手持相机、黑色T恤,也有对着镜头说话。
最近,由中国公司深度求索推出的DeepSeek-V3模型引起了广泛关注。这款全新的AI模型不仅在性能上逆袭了诸多主流同类产品,更是在算法上的创新使其成为了一种全新的选择。DeepSeek-V3模型自带671B参数,激活37B,并在14.8T ...
在人工智能领域风起云涌的2024年,大模型技术出现了革命性的突破。随着OpenAI的Sora横空出世,以及多家科技巨头推出重磅产品,不仅打破了GPT-4的市场垄断格局,更带来了性能与价格的双重突破。