揭示“可观测人工智能”:老药治新病?

引言: 随着企业加速涌向大型语言模型,不受控制、不可解释的人工智能的阴影日益笼罩。一种新理念,“可观察AI”,提出了一种结构化的方法来驯服这些庞然大物,承诺可审计性和可靠性。但这真是一场开创性的范式转变吗?抑或仅仅是披着一层崭新诱人外衣的既有工程智慧的明智应用?
核心提炼
- 核心前提——大型语言模型(LLM)在企业级应用中需要强大的可观测性——是毋庸置疑的正确,它解决了一个关键且常被忽视的痛点。
- “可观测人工智能”从根本上重新包装并应用久经考验的站点可靠性工程(SRE)原则到生成式人工智能,这预示着大语言模型(LLM)将不可避免地成熟为标准但复杂的软件组件。
- 文章严重低估了实际实施的挑战,特别是LLM输出评估的主观性、跨系统遥测集成的复杂性以及这样一个全面框架的隐藏成本。
深度解读
原文章准确地诊断出企业AI领域的一个巨大痛点:大语言模型(LLMs)的隐性失败。由于缺乏对其运行机制、决策过程或实际业务影响的可见性,LLM仍然是无法治理的黑盒——这是任何严谨的组织都无法承受的风险。所提出的“可观测AI”解决方案,在软件工程史中并非新鲜事,特别是它与站点可靠性工程(SRE)的原则不谋而合。
微服务与LLM之间的类比恰如其分。正如分布式系统需要精密的日志、指标和追踪来维持其稳定性一样,LLM固有的随机性和不透明性也要求同等程度的审查。三层遥测模型——捕获提示词/上下文、策略/控制和结果/反馈——是一个合理、逻辑的框架。它是我们已内置到关键应用程序中的监测机制的扩展,现在应用于生成式AI的独特特性。这是一个积极的进展;这意味着我们不是从头开始,而是在借鉴成熟的方法论。
然而,文章将此描述为“缺失的SRE层”可能言过其实。这与其说是一个缺失的层,不如说是现有SRE原则向一个新颖复杂领域的关键性扩展。事实性、安全性、实用性等“黄金信号”,结合SLO(服务等级目标)和错误预算,都是经典的SRE模式。将它们应用于LLM,尤其是在动态对话情境中为主观概念(如“实用性”或“事实性”)定义可量化目标,才是真正的独创性所在,更重要的是,也是真正的难点所在。
挑战不仅仅是记录令牌或延迟;而是在不同的业务场景中,为LLM的输出建立有意义、可操作的真实数据。“减少15%的账单查询电话”是一个值得称赞的目标,但要在数百万次查询中,将这种减少直接可靠地归因于LLM的特定交互,则是数据工程和因果推断的噩梦。此外,虽然在“高风险”情况下人工反馈是必要的,但它带来了可伸缩性、一致性和成本问题,而文章对此大多轻描淡写。这不仅仅是构建一个“可观测层”;它关乎在概率驱动的AI世界中,企业如何从根本上重新设计衡量价值和风险的方式。
对比观点
尽管“可观测AI”的理念引人注目,但对大多数企业而言,实际操作与文章中乐观的“两个敏捷冲刺”时间表大相径庭。更审慎的视角很快就能识别出几个巨大的障碍。
首先,为LLM(大型语言模型)输出定义真正客观且健壮的SLO(服务水平目标)比为确定性软件定义要难一个数量级。当LLM综合信息或提供创意内容时,“95%的事实核实度”究竟意味着什么?为持续评估建立和维护可靠的“真实数据”(ground truth)数据集所需的人力成本,特别是对于细致入微的任务,是惊人的且常常被低估。
其次,集成挑战巨大。将LLM的追踪信息与“下游业务事件”(如“案件已结”)连接起来,通常涉及打通不同的遗留系统、复杂的数据管道和组织孤岛——这是一项需要数年而非一次冲刺的工程。
最后,财务影响不容小觑。除了开发成本之外,存储和处理由“每个提示模板、变量和检索到的文档”生成的庞大遥测数据,以及完整的响应日志和人工反馈,将产生一笔巨大的新增运营开支。这不仅仅是“通过设计进行成本控制”的问题,而是基础设施和数据管理开销的根本性增加,许多企业尚未为此做好准备。
前景探讨
迈向更可观测、可审计的AI系统的趋势是不可避免且必要的。在未来1-2年内,企业将逐步采纳“可观测AI”的各个方面,最初将重点放在易于实现的部分,例如基本的请求/响应日志记录、token/成本追踪以及基本的安全过滤器。更复杂的要素——针对复杂LLM输出的强大、自动化的“黄金信号”、全面的人工介入系统以及与下游业务KPI的深度整合——对大多数企业而言仍是抱负。
最大的障碍将包括缺乏针对LLM的标准化工具和数据模型用于遥测,连接LLM事件与实际业务成果所需的数据工程的巨大投资,以及为本质上主观的生成式AI定义客观质量指标的持续挑战。此外,将出现关键的人才缺口,需要同时具备深厚LLM知识和经验丰富的SRE专业技能的工程师。最终,“可观测AI”将走向成熟,但其全面实现将是一场马拉松,而非文章所暗示的疾速冲刺。
原文参考: Why observable AI is the missing SRE layer enterprises need for reliable LLMs (VentureBeat AI)