大众化移动AI:沙漠中的仙人掌,还是又一个带刺的承诺?

大众化移动AI:沙漠中的仙人掌,还是又一个带刺的承诺?

一部AI网络光芒闪耀的智能手机,象征着移动AI在广泛普及方面的潜力和挑战。

引言: 强大、惠及所有而非仅限于旗舰手机用户的设备端AI,是一个令人向往的梦想。Cactus (YC S25) 进入这一领域,声称能够为绝大多数智能手机,即中低端设备,优化AI推理。然而,尽管市场需求不容置疑,人们不禁要问,这家雄心勃勃的初创公司究竟是在肥沃的土壤中播种,抑或仅仅是在本已碎片化的市场格局之上,又增添了一层复杂性?

核心提炼

  • 仙人掌大胆瞄准中低端手机70%以上的市场份额,这是一个目前主流AI框架服务不足的细分市场。
  • 如果真正成功,Cactus 可以让先进的端侧AI功能普及,从而改变高端专属硬件独占的局面。
  • 宣称一个“自下而上”、“无依赖”且采用自定义内核的框架,是一把双刃剑:它既可能带来潜在的性能优势,但同时也构成巨大的工程和采纳障碍。

深度解读

Cactus带着明确的使命而来:将尖端AI推理能力带到预算和中端智能手机市场。这是一个真正服务不足的利基市场,现有框架,如TensorFlow Lite或PyTorch Mobile,尽管提供CPU回退,但在没有专用NPU或DSP的情况下,对于大型、现代模型往往难以提供可接受的性能。这一价值主张极具吸引力:为全球大多数智能手机用户解锁新的AI驱动体验,而不仅仅是那些拥有最新iPhone Pro或Pixel旗舰机的用户。

所描述的技术方法引人入胜。Cactus提出了一种定制的四层堆栈,从底层的ARM特定SIMD内核,到兼容OpenAI的C API。“无依赖”和“自下而上”的设计理念表明了更精简、可能更高效的占用空间,旨在从性能较低的CPU中榨取每一分浮点运算能力。提及的“零拷贝计算图”是为了最大限度地减少内存开销,这在资源受限设备上至关重要。

然而,这种定制架构也引发了重大问题。在一个日益倾向于标准化高级API以及强大、由供应商支持的生态系统(苹果的Core ML、Android神经网络API、高通AI引擎)的行业中,一个新的、定制的堆栈对Cactus和潜在采用者来说都是一个巨大的工程挑战。开发者往往不愿采用新框架,除非它们能提供压倒性的性能提升或与成熟巨头相比卓越的集成便捷性。演示代码片段虽然具有说明性,但展示了原始C API的使用——许多现代移动开发者已经摒弃了这种范式,转向更高级的抽象和全面的SDK。

初步的性能数据虽然被呈报为积极的,但需要仔细的语境化。在Pixel 6a或iPhone 11 Pro上(仅限CPU)运行Qwen3-600m-INT8模型达到每秒16-20个token (t/s) 对于一个较小的模型来说是可观的,证明了他们针对旧硬件进行优化的核心论点。但在Pixel 9或iPhone 16上达到50-70 t/s则不那么令人印象深刻,考虑到这些设备拥有强大的NPU,如果框架得到适当利用(Cactus确实声称通过SMMLA、NPU和DSP针对高端手机),应该会产生远超预期的结果。iPhone 16 Pro NPU上Qwen3-4B-INT4达到21 t/s是NPU利用率的更现实基准,但仍需与苹果自家的MLX或Core ML在类似模型上的表现进行比较,才能了解其真正的竞争优势。“目前已投入生产的每周50万+推理任务”的说法是早期采用的强烈信号,但如果没有关于这些应用或任务复杂性的具体信息,其影响难以评估。最终,其成功取决于其在目标市场的性能提升是否真正具有足够的变革性,以证明开发者采用一个新的非标准依赖是合理的。

对比观点

尽管Cactus公司宣称其“自下而上”和“无依赖”的方法是其优势,但怀疑论者会指出这恰恰是其最大的软肋。在由苹果、谷歌以及高通和ARM等芯片制造商主导的移动生态系统中,从零开始构建一个定制化的低级推理栈,无疑是一项大胆的尝试。这些科技巨头投入数十亿美元优化自己的软硬件,提供高度集成、经过实战检验的解决方案(如Core ML、TensorFlow Lite、ANNA),这些方案通常得益于独家硬件访问权限和深度的操作系统级集成。当行业巨头提供全面的工具链、庞大的社区和长期支持时,开发者为何会选择在一个新兴的、定制的框架上进行开发,而不论其性能如何宣称呢?“无依赖”方法或许能提供一个精简的占用空间,但这也意味着在日益碎片化的安卓生态系统中,持续优化和维护的沉重负担。紧跟来自数十家制造商的各种ARM架构、操作系统更新以及不断演进的NPU设计,是一项艰巨的任务,这可能会让一家初创公司在与行业巨头庞大资源的竞争中显得捉襟见肘。

前景探讨

Cactus 未来一到两年的前景完全取决于其能否证明针对目标中低端市场的“显著优越性能”承诺,这不仅仅是纸面数据,更要在真实的、要求严苛的应用中得以实现。他们声称每周超过50万次推理是一个积极的迹象,但关键的下一步是争取与应用程序开发者甚至原始设备制造商(OEM)建立知名合作伙伴关系,以预先集成他们的SDK。没有这种战略联盟,突破早期采用者之外的市场将是一场艰苦的战斗。

最大的障碍包括移动硬件不断演进的迅猛步伐——明年的“中端”手机将配备去年的旗舰NPU,这可能侵蚀 Cactus 仅依赖CPU优化的优势。此外,与第一方移动AI框架及其庞大的开发者生态系统竞争将充满挑战。Cactus 不仅必须提供卓越的性能,还必须提供引人入胜的开发者体验、完善的文档以及长期支持。如果他们能开辟一个利基市场,在这个市场中,他们的自定义内核能为大量的长尾Android设备上特定的、资源密集型AI模型提供真正颠覆性的性能,他们或许会成功。否则,它就有可能成为拥挤市场中另一个有趣但最终只是小众的解决方案。


原文参考: Launch HN: Cactus (YC S25) – AI inference on smartphones (Hacker News (AI Search))

Read English Version (阅读英文版)

Comments are closed.