在人工智能领域,大型语言模型(LLMs)如OpenAI和谷歌所宣称的先进“推理”能力被认为是迈向未来的关键一步。然而,苹果的六名工程师进行的一项新研究显示,这些模型在面对看似微不足道的常规基准问题变化时,其数学“推理”能力极其脆弱且不可靠。这项新研究 ...
o1刚出来工作,就被吐槽“懒惰”。9月13日,OpenAI创始成员、AI大牛AndrejKarpathy发文吐槽OpenAI刚发布的最新模型:“o1-mini一直拒绝为我解决黎曼猜想,模型懒惰还是主要问题,很悲伤。GPT-5还要比o1模型更强大69倍 ...
本文来自微信公众号:最话 FunTalk,作者:何伊然‍‍‍,编辑:杨磊,题图来自:AI生成 ...
日前,Anthropic CEO Dario Amodei 在其个人博客中呼吁人们重视人工智能(AI)安全问题,“原则上 AI 可以帮助好人,也可以帮助坏人”,过于低估 AI 风险将成为“阻碍我们走向积极未来的唯一障碍”。
今年的诺贝尔奖陆续揭晓,人工智能(AI)行业可谓实现了令人意外的“大丰收”。 然而,尽管人工智能模型变得“越来越聪明”,但在面对一些人类日常生活中“显而易见”的常识时,却非常容易出错。
00 后国人一作登上 Nature,这篇大模型论文引起热议。简单来说,论文发现:更大且更遵循指令的大模型也变得更不可靠了,某些情况下 GPT-4 在回答可靠性上还不如 GPT-3 。 这让人不禁想起,一大堆专家 / 博士级别的模型还不会“9.9 和 ...
研究表明,与 GPT-3.5发布前的数据相比,2024年的维基百科文章中 AI 生成的内容明显增加。在检测的2909篇英文维基百科文章中,GPTZero 标记了156篇,Binoculars 则标记了96篇,而这两种工具之间有45篇文章是重叠的。
也就是说,目前的人工智能模型缺乏人类轻易就可以表现出的常识能力。所谓的常识能力,是人类所具有的包含了事实知识和推理的一种能力,不仅只是记忆知识,更包括在不确定情境中进行推理和决策的能力。 近日,南加州大学信息科学研究所首席科学家 Mayank ...
在近年来,人工智慧(AI)迅速发展,尤其是大型语言模型(LLMs)如OpenAI的GPT系列、Google的Gemma 2、Meta的Llama等,展示了在语言处理、推理能力以及解决问题方面的巨大潜力。但最近有一个研究报告揭露了这些语言 ...
10 月 15 日消息, 微软 于当地时间 10 月 14 日表示,其生成式人工智能研究的副总裁 SébastienBubeck(塞巴斯蒂安・布贝克)将离开公司,加入 ChatGPT 制造商 Open AI 。
在Scaling-up中,近几年的benchmarks越来越偏向于加入更多困难的例子,或者给予所谓“权威”来源更多权重,研究员也因此更倾向于优化模型在困难任务上的表现,导致在难度一致性上慢性恶化。
现在大多AI搜索软件,比的是日活、月活等指标,如果我们把时间线拉长,这些衡量标准并不稳定。试想一下,软件刚推出的时候,很多人是抱着测评或新鲜感的心态去使用,造成不同产品间用户数据的高度重叠,一个更为关键的问题—— 用户留存率,却往往被忽视了。