SYMBOLIC - 搜索 News

2 天

在这项新研究中，研究人员使用符号模板生成多样化的数学问题，从而提供更可靠的评估。实验结果显示，当问题的数值或复杂度增加时，LLM 的表现显著下降。此外，即使是添加与问题表面相关但实际上无关的信息，也可能导致模型性能下降高达65%。这些结果再次印证了 ...

1 天

大语言模型真的可以推理吗？LLM 都是“参数匹配大师”？苹果研究员质疑 LLM 推理能力，称其“不堪一击”！苹果的研究员 Mehrdad Farajtabar 等人最近发表了一篇论文，对大型语言模型 (LLM) ...

21 小时

在最新的技术动态中，苹果公司发布了对当前大语言模型（LLM）逻辑推理能力的质疑，这引发了广泛的讨论，而90后AI天才则凭借其在自动驾驶领域的创新获得了新的关注。这些事件不仅展示了AI技术的发展，也引发了对未来趋势的深刻思考。

1 天

大数据文摘受权转载自学术头条作者：田小婷大语言模型（LLM）是真的会数学推理？还是只是在“套路”解题？近年来，大语言模型在各种任务中的表现引起广泛关注。一个核心问题逐渐浮现：这些模型是否真正具备逻辑推理能力，还是仅仅通过复杂的模式匹配来应对看似推理的 ...

3 天

在当今人工智能领域，大型语言模型（LLM）如GPT-4、Llama和Mistral等被广泛应用于自然语言处理任务，尤其是在推理和问题解决能力方面。然而，苹果公司研究员Mehrdad ...

机器之心报道编辑：张倩、陈陈苹果新论文：AI 大模型可能不会推理。AI ...

2 天on MSN

【大语言模型的数学推理能力受质疑，研究揭示多项问题】近年来，大语言模型在各任务中的表现引关注，核心问题是其是否具逻辑推理能力。日前，苹果公司的 ImanMirzadeh 及团队提出 GSM-Symbolic ...

2 天

众所周知，GSM8K 基准测试被广泛用于评估模型在小学数学问题上的推理能力。尽管 LLM 在 GSM8K 上的表现近年来有所提高，但研究人员对此结果的可靠性产生了质疑。因此，他们进行了大规模的研究，探讨当前最先进的开源和闭源模型的表现。

5 天

这些早期的研究集中在推理、学习、规划、自然语言处理等领域，并在此基础上逐步建立起了AI的基础理论。著名的图灵测试是由人工智能之父艾伦·图灵于1950年提出的一种测试，用于评估计算机是否能够表现出与人类相同的智能水平。在图灵测试中，一个人与计算机程序进 ...

6 小时

当地时间 10 月 14 日，瑞典皇家科学院宣布，将 2024 年诺贝尔经济学奖授予达龙·阿西莫格鲁（Daron Acemoglu）、西蒙·约翰逊（Simon H. Johnson）和詹姆斯·A·罗宾逊（James Alan ...

据业内人士手机晶片达人爆料，2026 年发布的 iPhone 18 系列将首发搭载 2nm 芯片。这款芯片被称为 A20，由台积电制造，预计在 2026 年推出。与此芯片一起，iPhone 18 系列的内存也将升级至 12GB，采用全新的 WMCM ...

2 天on MSN

苹果公司人工智能科学家的一篇新论文发现，基于大型语言模型的引擎（如 Meta 和 OpenAI 的引擎）仍然缺乏基本的推理能力。该小组提出了一个新的基准--GSM-Symbolic，以帮助其他人衡量各种大型语言模型（LLM）的推理能力。

当前正在显示可能无法访问的结果。