有了代码执行能力的AgentYoucom大模型秒变理科学霸发布时间: 2024-02-21 来源:智能计算领域

  今天,自称「世界上第一个开放式搜索引擎」、建立基于生成 AI 搜索的时间比搜索巨头还早的, 正式推出 YouAgent:

  它可以更可靠地回答涉及复杂数学运算、逻辑推理的 STEM 问题,有效克服了大模型「重文轻理」的不足。

  你可以这么问它:利率 7.76% ,借入 301,000 美元,为期 30 年,每月还款额多少?

  或者提问,已知地球上的一个箱子重 80 公斤,月球半径大约为地球半径的四分之一、质量为地球八十分之一,这个箱子在月球会有多重呢?请从以下四个答案中选择正确的一个。

  作为对比,我们尝试询问谷歌 Bard 同一个问题,解题过程确实不同(当然,答案都是一样的):

  YouAgent 赋予大模型理工科能力的办法正在于构建了一个可以访问计算环境的 AI Agent。

  Agent 是机器学习社区的一个术语,指代不但可以观察环境还能据此采取行动的 AI 。YouAgent 能在 Python 计算环境中写代码、运行代码,依据输出采取进一步行动。访问代码环境的能力,外加擅长多步推理,最终让大模型不再偏科。

  市面上许多聊天机器人之所以经常为用户的 STEM 问题提供自信但错误的答案,根本原因就是没有这种代码执行能力,这就像不给计算器却要一个正常的人类回答 「 55 的 0.12 次方是多少?」

  用户键入 @agent ,并附上有关问题,就表明你想让大模型在计算环境中编写、执行 Python 代码,并解决疑问。

  根据官方提供的几个数据,能够正常的看到在几个重要的 STEM 基准测试上,YouAgent 的表现与 GPT-4 差不多或者更好。

  这些基准测试包括 MMLU 数据集(大学数学/高中数学/高中统计/高中物理类别))、ACT(数学部分) 和 GRE(数学) 部分。

  比如,涉及计算量大的测试(例如,ACT、高中统计等)中,YouAgent 表现明显优于 GPT-4。而在更抽象、计算量较少的数学测试(例如,GRE、某些大学数学问题上)略好或与 GPT-4 差不多。

  Richard Socher 喜欢指出,他的公司在去年12月建立了基于生成式人工智能的搜索引擎,比其他搜索巨头发表相关声明早了几个月。

  这种纯语言大模型能为许多不一样的问题提供长篇的、有用的、对话式答案,但短板也很明显。除了严重偏科,还有众所周知的幻觉问题。

  今年年初,You.com 通过提供多模态搜索服务,有效克服了这样的一个问题。所谓多模态服务,就是除了纯文本回复,还能以绘图、图表以及交互式应用程序等方式回答问题。

  与语言相比,有时代码、表格、图形、交互式元素才是最佳回应方式。这一点,在事实高度动态、但对信息精度要求又特别高的金融领域的应用,尤为典型。

  如果你询问 You.com 「哪家企业具有最多的CRM市场占有率」,它会告诉你是 「 Salesforce 」。继续问,「 Saleforce 的股价是多少?」,它会返给你一张股票图表,而不是语言文本。

  除了偏科和幻觉,纯语言大模型还有一个明显的短板就是由于没有办法接受足够频繁的训练(数据集是有时间期限的),以至于无法与现实世界信息及时保持同步(比如今年即将揭晓的诺贝尔奖)。

  为此,提供最准确的参考和引用是必要的。早在 2022年,就推出了 YouChat:

  回答用户提问的同时,会附上指向提供信息的网站链接。与传统搜索引擎一样,你可以点开每个链接深入研究结果。

  不过,YouAgent 距离在基准测试中达到 100% 准确性还有一段距离。另外,也存在不需要编码情况下也常常执行代码的问题。

  接下来,希望有机会能够支持更多的输入、输出的方式,比如文件上传、图像方式的输出、结合代码执行执行 Web 搜索等。

  毫无疑问,对于一家想要打造能够在一定程度上帮助人们实际完成工作(而不是仅仅聊天)的公司来说,YouAgent 无疑是实现这一愿景的重要里程碑。

  「我对此很兴奋,因为我认为这解决了实现 AGI 诸多必要挑战之一:既能以模糊/概率方式推理,又能以逻辑和数学方式推理的模型。虽然还需要更加多的研究和开发,但让它成为现实是令人兴奋的。」 Richard Socher 在今天推文上写到。

  目前,任何登录用户每天最多能够轻松的享受五次 YouAgent 查询(免费)。YouPro 订阅者每天额度最多 100 次。

  原标题:《有了代码执行能力的Agent,大模型秒变理科学霸,表现超越 GPT-4》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。