DeepSeek 颠覆大模型输入范式,实现10倍视觉文本压缩 | 马尔可夫式思维提升AI推理能力,谷歌简化应用构建

今日看点
- DeepSeek 发布了一个开源模型 DeepSeek-OCR,该模型通过将文本作为图像处理,实现了高达 10 倍的文本压缩,这有望使大型语言模型(LLMs)具备 1000 万个 token 的上下文窗口。
- Mila研究人员引入了一种名为“马尔可夫式思维”的新技术,该技术通过对上下文进行分块,使大型语言模型(LLMs)能够执行长达数周的扩展推理,从而将计算成本从二次方大幅降低至线性。
- 谷歌AI工作室获得了一次重大的“vibe coding”升级,让非开发者也能在几分钟内实时构建、部署和迭代AI驱动的网页应用。
- AI行业正在积极简化其软件栈,以确保从云端到边缘的可扩展、可移植和高效的AI部署,这得益于统一的工具链和软硬件协同设计。
主要动态
本周的AI新闻揭示了在两个关键领域飞速发展:一是根本性地重塑大型语言模型(LLM)处理信息的方式,以极大地扩展其上下文能力;二是让每个人都能普及AI应用开发。
在上下文扩展方面,中国研究公司DeepSeek(深度求索)走在前沿,发布了一个名为DeepSeek-OCR的开源模型。这个突破性模型通过视觉表示来压缩文本信息,效率比传统的文本Token高出10倍,实现了“范式倒置”。其影响深远,挑战了“文本Token优于视觉Token”这一LLM核心假设。OpenAI联合创始人Andrej Karpathy甚至推测:“或许LLM的所有输入都应该是图像,这更有意义。”这一突破可能为LLM铺平道路,使其上下文窗口能大幅扩展到数千万个Token,远远超越当前最先进的模型,实现前所未有的文档分析和知识整合。除了压缩之外,这种视觉方法还规避了“丑陋的”分词器问题,自然地处理格式,并可能实现更健壮和灵活的输入处理。
作为DeepSeek以输入为中心创新的补充,Mila的研究人员提出了一种名为“马尔可夫式思维”(Markovian Thinking)的新技术,以解决长链推理中高昂的计算成本。传统的思维链(CoT)推理随着上下文的增长会产生二次方成本,但在他们的Delethink环境中实现的马尔可夫式思维,允许LLM以固定大小的块进行推理。通过强制模型从先前的块中嵌入“文本马尔可夫状态”或摘要,Delethink将二次方增长转换为线性计算和固定内存需求。这有望为AI智能体解锁“数周推理”和“科学发现”等能力,初步估计显示,对于扩展推理,训练成本可降低超过三分之二。
在这些研究进展推动AI能力边界的同时,谷歌也在同时努力让所有人都能进行AI创作。其更新的AI Studio获得了显著的“直觉式编程”(vibe coding)升级,使新手能够在几分钟内构建和部署AI驱动的Web应用程序。借助重新设计的“构建”选项卡,用户可以从谷歌的Gemini模型和功能中进行选择,描述他们想要的应用程序,并看着系统自动组装所需组件。诸如用于即时应用程序概念的“我手气不错”按钮和AI建议的增强功能,都简化了开发过程,使得复杂的AI模型无需广泛的技术知识即可用于快速原型设计,甚至全面生产部署。
这些发展凸显了行业在简化AI堆栈方面的更广泛趋势。随着模型变得越来越复杂,并在从云端到边缘的各种环境中部署,对统一工具链、跨平台抽象层以及强大的软硬件协同设计的需求至关重要。像Arm这样的公司正在积极努力,在各种计算平台上提供一致、可移植且高效的AI解决方案,为DeepSeek的视觉压缩和Mila的马尔可夫推理等创新的可扩展部署奠定基础。
分析师视角
本周展示了人工智能发展中一个强大的二元性:模型感知和推理信息的方式取得了根本性突破,同时,其创建的民主化也取得了显著进展。深度之眼(DeepSeek)的开源发布是一个划时代的事件,它可能将整个大语言模型(LLM)的架构转向视觉输入,预示着真正巨大的上下文窗口。眼前的挑战将是证明推理能力在这些压缩的视觉标记上得以保持甚至提升,而不仅仅是光学字符识别(OCR)的准确性。Mila 的马尔可夫式思维(Markovian Thinking)为扩展推理提供了一条补充路径,直接解决了二次方成本问题。这些共同预示着未来,即大语言模型能够处理真正海量的信息,并且能对其进行高效处理和有效推理。谷歌的“氛围编程”(vibe coding)确保了随着能力扩展,使用人工智能进行构建的门槛也随之降低。关键战场正在从仅仅追求“更多标记”转向“更智能的标记”和“基于标记的更智能推理”,并惠及更广泛的创作者群体。请关注这些“上下文扩展”策略之间的融合与竞争,以及它们将如何整合到用户友好的平台中。
内容来源
- DeepSeek drops open-source model that compresses text 10x through images, defying conventions (VentureBeat AI)
- Google’s new vibe coding AI Studio experience lets anyone build, deploy apps live in minutes (VentureBeat AI)
- Simplifying the AI stack: The key to scalable, portable intelligence from cloud to edge (VentureBeat AI)
- New ‘Markovian Thinking’ technique unlocks a path to million-token AI reasoning (VentureBeat AI)
- Snapchat makes its first open prompt AI Lens available for free in the US (TechCrunch AI)