在这项新研究中,研究人员使用符号模板生成多样化的数学问题,从而提供更可靠的评估。实验结果显示,当问题的数值或复杂度增加时,LLM 的表现显著下降。此外,即使是添加与问题表面相关但实际上无关的信息,也可能导致模型性能下降高达65%。这些结果再次印证了 ...
大语言模型真的可以推理吗?LLM 都是“参数匹配大师”?苹果研究员质疑 LLM 推理能力,称其“不堪一击”!苹果的研究员 Mehrdad Farajtabar 等人最近发表了一篇论文,对大型语言模型 (LLM) ...
在最新的技术动态中,苹果公司发布了对当前大语言模型(LLM)逻辑推理能力的质疑,这引发了广泛的讨论,而90后AI天才则凭借其在自动驾驶领域的创新获得了新的关注。这些事件不仅展示了AI技术的发展,也引发了对未来趋势的深刻思考。
大数据文摘受权转载自学术头条作者:田小婷大语言模型(LLM)是真的会数学推理?还是只是在“套路”解题?近年来,大语言模型在各种任务中的表现引起广泛关注。一个核心问题逐渐浮现:这些模型是否真正具备逻辑推理能力,还是仅仅通过复杂的模式匹配来应对看似推理的 ...
在当今人工智能领域,大型语言模型(LLM)如GPT-4、Llama和Mistral等被广泛应用于自然语言处理任务,尤其是在推理和问题解决能力方面。然而,苹果公司研究员Mehrdad ...
机器之心报道编辑:张倩、陈陈苹果新论文:AI 大模型可能不会推理。AI ...
【大语言模型的数学推理能力受质疑,研究揭示多项问题】 近年来,大语言模型在各任务中的表现引关注,核心问题是其是否具逻辑推理能力。日前,苹果公司的 ImanMirzadeh 及团队提出 GSM-Symbolic ...
众所周知,GSM8K 基准测试被广泛用于评估模型在小学数学问题上的推理能力。尽管 LLM 在 GSM8K 上的表现近年来有所提高,但研究人员对此结果的可靠性产生了质疑。因此,他们进行了大规模的研究,探讨当前 最先 进的开源和闭源模型的表现。
这些早期的研究集中在推理、学习、规划、自然语言处理等领域,并在此基础上逐步建立起了AI的基础理论。著名的图灵测试是由人工智能之父艾伦·图灵于1950年提出的一种测试,用于评估计算机是否能够表现出与人类相同的智能水平。在图灵测试中,一个人与计算机程序进 ...
当地时间 10 月 14 日,瑞典皇家科学院宣布,将 2024 年诺贝尔经济学奖授予达龙·阿西莫格鲁(Daron Acemoglu)、西蒙·约翰逊(Simon H. Johnson)和詹姆斯·A·罗宾逊(James Alan ...
据业内人士手机晶片达人爆料,2026 年发布的 iPhone 18 系列将首发搭载 2nm 芯片。这款芯片被称为 A20,由台积电制造,预计在 2026 年推出。与此芯片一起,iPhone 18 系列的内存也将升级至 12GB,采用全新的 WMCM ...
苹果公司人工智能科学家的一篇新论文发现,基于大型语言模型的引擎(如 Meta 和 OpenAI 的引擎)仍然缺乏基本的推理能力。该小组提出了一个新的基准--GSM-Symbolic,以帮助其他人衡量各种大型语言模型(LLM)的推理能力。