大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI

本文第一作者为上海交通大学计算机学院副教授刘卫文,研究方向为大模型智能体,大语言模型,个性化算法等。
近年来,随着大语言模型的快速发展,基于其构建的大模型智能体(LLM Agents)正逐步从技术演示走向实际应用部署。然而,真正实现规模化应用仍面临诸多瓶颈。使用范围主要集中于专业领域,如代码生成、科研辅助等。在大众、高频、日常的应用场景(如电商、个人助理)中,普及率依然较低。这一现象引发了一个关键问题:
当前制约大模型智能体实际可用性的真正原因是什么?
上海交通大学联合中科大在本文中指出:现阶段大模型智能体的主要障碍不在于模型能力不足,而在于其「Agentic ROI」尚未达到实用化门槛。

论文题目:The Real Barrier to LLM Agent Usability is Agentic ROI
论文链接:https://arxiv.org/pdf/2505.17767
Agentic ROI:大模型智能体实现规模化应用的关键瓶颈
研究团队提出 Agentic ROI(Agentic Return on Investment)这一核心指标,用于衡量一个大模型智能体在真实使用场景中所带来的「信息收益」与其「使用成本」之间的比值:

Information Quality:指智能体所生成的信息质量,包括准确性、完整性等。 Quality Threshold:指最低可接受的信息质量阈值(注:根据上下文推断)。 Human Time和 Agent Time:分别指人类与智能体完成对应任务所需的时间。 Interaction Time:指用户与智能体交互所需要的时间,如用户进行任务描述、验证结果过程中所消耗的时间。 Expense:指用户经济成本,如模型调用、API 使用的开销。
只有当信息质量超过一定阈值,且智能体所节省的时间和成本之比足够高时,智能体才真正具备可用性。

如上图所示,当前大部分 LLM 智能体集中应用于人类任务时间成本高的信息密集型场景(如科研、编程),此类任务本身就需要大量人力投入,因此即便智能体部分替代也能显著提高效率。然而,在用户量庞大的日常场景中(如电商、搜索、助理等),任务本身较为简单,交互成本低(如点击、下滑操作),智能体提升的边际价值不明显,反而可能引入额外的交互成本和延迟,从而导致 Agentic ROI 较低。
因此,当前高用户需求与低 Agentic ROI 之间的矛盾,反映了智能体在日常应用中的实用性不足,需进一步优化信息价值、智能体任务完成时间、及交互时间以填补市场空白。
优化 Agentic ROI 智能体发展的「之字形」轨迹
研究团队提出,LLM 智能体的发展路径并非线性增长,而是呈现出一种「先规模化、后轻量化」的「之字形」发展模式:首先规模化(scaling up)参数规模、训练数据、推理能力以提升信息质量;之后在保证信息质量的前提下,轻量化(scaling down)进行模型压缩、蒸馏、推理优化以减少智能体所用时间与调用成本。我们正处于智能体规模化发展的高峰阶段,优先提升信息质量。
基础模型如 OpenAI 系列模型的发展也体现了这一「之字形」发展趋势:同系列模型如 o1-mini 到 o1 模型表现显著增强,而新一代小模型如 o3-mini 则在持平 o1 性能的同时显著降低了推理费用和延迟。

规模化提升信息质量(Scaling Up)
预训练规模化(Pre-training Scaling)
后训练规模化(Post-training Scaling)
规模化推理步骤(Scaling reasoning process),以应对复杂任务并生成更可靠的输出; 规模化多智能体系统(Scaling multi-agent system),通过协作完成任务分解与执行; 扩展工具调用(Scaling tool calling),通过多次工具调用使智能体能够逐步验证中间结果; 扩展推理时训练(Scaling test-time training),通过利用无标签测试数据实时更新快速适应新任务或用户需求 有约束条件下直接优化 Agentic ROI(Scaling towards Agentic ROI under budget constraints),智能体可在给定预算约束(如时间、API 成本)下动态评估每一步操作信息收益,直接整体优化 Agentic ROI。
轻量化降低智能体时间与成本(Scaling Down)
减少智能体任务完成时间
引入记忆机制: 引入记忆机制是提高效率的重要手段。具备记忆能力的智能体可以跳过重复计算,直接调用以往任务中积累的知识,从而加快处理速度。这种方式模拟人类专家的行为,依靠经验而非实时推理来完成任务。
模型压缩: 通过模型压缩或蒸馏来减少计算资源和推理延迟,是另一个核心方向。借助模型蒸馏等技术,可以将大模型的能力迁移到更小的模型中,从而在不显著降低性能的前提下,显著缩短响应时间、减少部署成本。
优化推理策略: 智能体的时间消耗不仅来源于计算,还受到推理链条长度的影响。如果推理过程过于复杂或冗余,例如频繁的自我反思、递归规划等,可能会延长任务完成时间而未带来质的提升。因此,更高效的智能体应具备「少而精」的思维能力,能够通过最短路径达成最优解。
降低交互时间: 当前的智能体往往要求用户提供冗长、明确的指令,这带来了较高的使用门槛与认知负担。为此,智能体的交互方式应从被动解析输入,转向主动理解用户意图,具备一定程度的目标推理与任务自完成能力。这种转变不仅可以减少用户的操作负担,也有助于提升整体使用体验。此外,产品设计上的新范式也有助于进一步降低用户交互时间。
降低开销: 智能体的运行费用可能因模型规模、推理深度、调用外部工具等因素而迅速上升。尤其在大规模部署或持续运行场景下,成本问题尤为突出。因此,未来的智能体需要更智能地管理上下文,合理控制推理复杂度与工具调用频率,确保在保证性能的前提下,尽可能降低资源消耗与使用开销。
Agentic ROI 提供了一个衡量智能体真实可用性的系统框架,帮助我们超越模型性能的单一维度,转向「实际效益」导向的设计与评价逻辑。智能体的「可用性」不应仅以模型性能定义,而应以综合效益衡量。在实际部署中,Agentic ROI 为我们提供了一个更贴近真实世界的评价维度,帮助我们识别系统中被忽视的「隐藏成本」,并指导我们构建真正高效、可用、可负担的智能体系统。
]]>最新资讯
亚马逊云科技入局Vibe Coding,推出Kiro重塑开发流程
马斯克的XAI推出【智能伙伴】功能,居然支持18禁模式?
Google开源了一个AI命令行神器,程序员狂欢!这就是传说中的Gemini CLI
Cursor AI编程工具模型全面解析:2025年最新完整模型列表与深度对比
用Veo 3+Suno做了个AI Rapper,吊打音乐节上的流量明星
热门工具
Cursor
Cursor是一款AI驱动的代码编辑器,专为提升开发者生产力而设计。它集成了强大的AI功能,包括智能代码补全、自然语言编程、代码生成和重构等,让编程变得更加高效和直观。

Kimi
Moonshot AI推出的智能助手,支持200万字超长文本处理,具备强大的文档理解分析能力、多格式文件解析和深度推理功能,适合学术研究和商务应用。

DeepSeek
DeepSeek是一家专注于AGI的AI公司推出的大语言模型,具备O1级别的深度推理能力、强大的代码生成能力和数学推理能力,以极低成本提供高质量AI服务。

ChatGPT
OpenAI公司开发,AI时代的开创者和先行者。

Leonardo.Ai - Image Generator
Ai , the ultimate AI art image generator, now available on iOS

Microsoft 365 Copilot
Microsoft 365 Copilot 应用是一款用于工作和生活的日常高效办公应用,可帮助你在一个应用中随时随地使用 Microsoft 365 Co...,支持多种AI功能。

创客贴设计-AI海报图片设计、拼图抠图作图神器
创客贴设计--“打工人”必备AI作图神器 创客贴设计为用户提供丰富的AI智能作图工具,如AI海报、AI商品图、智能抠图、AI消除、智能改图、AI绘画等,输...,支持多种AI功能。

百度文库-DeepSeek R1联网满血版
百度文库,一站式智能写作与文档资源集合平台,正式接入DeepSeek R1满血版,文档查找、编辑、资料管理一应俱全,AI内容生成能力再升级,办公学习好助手,支持多种AI功能。