在人工智能领域,大型语言模型(LLMs)如OpenAI和谷歌所宣称的先进“推理”能力被认为是迈向未来的关键一步。然而,苹果的六名工程师进行的一项新研究显示,这些模型在面对看似微不足道的常规基准问题变化时,其数学“推理”能力极其脆弱且不可靠。这项新研究 ...
近日,Meta 提出了 Agent-as-a-Judge 的概念,被视为智能体优化方面的又一重要成果。传统的智能体评估方式往往只关注最终结果,忽略了执行过程中的关键细节,或依赖大量人力进行评估。为了解决这一痛点,Meta ...
o1刚出来工作,就被吐槽“懒惰”。9月13日,OpenAI创始成员、AI大牛AndrejKarpathy发文吐槽OpenAI刚发布的最新模型:“o1-mini一直拒绝为我解决黎曼猜想,模型懒惰还是主要问题,很悲伤。GPT-5还要比o1模型更强大69倍 ...
本文来自微信公众号:最话 FunTalk,作者:何伊然‍‍‍,编辑:杨磊,题图来自:AI生成 ...
今年的诺贝尔奖陆续揭晓,人工智能(AI)行业可谓实现了令人意外的“大丰收”。 然而,尽管人工智能模型变得“越来越聪明”,但在面对一些人类日常生活中“显而易见”的常识时,却非常容易出错。
日前,Anthropic CEO Dario Amodei 在其个人博客中呼吁人们重视人工智能(AI)安全问题,“原则上 AI 可以帮助好人,也可以帮助坏人”,过于低估 AI 风险将成为“阻碍我们走向积极未来的唯一障碍”。
研究表明,与 GPT-3.5发布前的数据相比,2024年的维基百科文章中 AI 生成的内容明显增加。在检测的2909篇英文维基百科文章中,GPTZero 标记了156篇,Binoculars 则标记了96篇,而这两种工具之间有45篇文章是重叠的。
编辑:Lumina 【新智元导读】近期微软的高层人员调动以及新工具的推出,可能暗示着其AI战略的转向。 微软已经有一段时间没有向外界透露任何有关GenAI的讯息了。 在减少对OpenAI技术依赖的过程中,GenAI本该是微软的重要战略,但 ...
在近年来,人工智慧(AI)迅速发展,尤其是大型语言模型(LLMs)如OpenAI的GPT系列、Google的Gemma 2、Meta的Llama等,展示了在语言处理、推理能力以及解决问题方面的巨大潜力。但最近有一个研究报告揭露了这些语言 ...
也就是说,目前的人工智能模型缺乏人类轻易就可以表现出的常识能力。所谓的常识能力,是人类所具有的包含了事实知识和推理的一种能力,不仅只是记忆知识,更包括在不确定情境中进行推理和决策的能力。 近日,南加州大学信息科学研究所首席科学家 Mayank ...
在Scaling-up中,近几年的benchmarks越来越偏向于加入更多困难的例子,或者给予所谓“权威”来源更多权重,研究员也因此更倾向于优化模型在困难任务上的表现,导致在难度一致性上慢性恶化。
10 月 15 日消息, 微软 于当地时间 10 月 14 日表示,其生成式人工智能研究的副总裁 SébastienBubeck(塞巴斯蒂安・布贝克)将离开公司,加入 ChatGPT 制造商 Open AI 。