DeepSeek实现10倍视觉文本压缩,重塑LLM输入 | OpenAI加入浏览器大战,Mila攻克百万Token级AI推理,谷歌简化应用开发

今日看点
- DeepSeek发布了DeepSeek-OCR,这是一个开源模型,它通过将文本视为图像,实现了高达10倍的压缩效率,有望使大语言模型(LLM)的上下文窗口达到数千万个token,并对传统的token化方法构成挑战。
- Mila的研究人员引入了“马尔可夫式思维”(Markovian Thinking)和Delethink环境,使大型语言模型(LLMs)能够以线性计算成本对数百万个token进行复杂推理,从而克服了长链推理的二次方扩展问题。
- OpenAI 推出了 ChatGPT Atlas,这是一款集成聊天代理和记忆功能的AI驱动网页浏览器,它将自身定位为谷歌Chrome的挑战者,并提供了一种“聊天优先”的网页互动方式。
- 谷歌AI Studio进行了一次“随心编码”升级,让非开发人员也能在数分钟内构建和部署AI驱动的网页应用程序。该升级包含重新设计的界面、AI生成的建议以及一个“我手气不错”按钮等功能。
- 阿里巴巴通义团队更新了其深度研究工具,使用户仅需几次点击,即可通过单个提示生成综合报告、互动网页和多说话人播客。
主要动态
深度赋能(DeepSeek)这家中国研究公司的一项开创性发展,正在挑战大型语言模型(LLMs)处理信息方式的基本假设。其新的开源模型DeepSeek-OCR通过视觉表征压缩文本,比传统文本标记的效率高出10倍,实现了“范式倒置”。DeepSeek将其描述为对“光学二维映射”的初步探索,这项突破可能为大幅扩展上下文窗口的LLMs铺平道路,使其潜力达到数千万个标记。OpenAI联合创始人Andrej Karpathy强调了其深远影响,认为也许所有LLM输入最终都应该是图像,即使是纯文本也不例外。该模型的DeepEncoder结合了Meta的SAM和OpenAI的CLIP,实现了惊人的压缩,使得单个Nvidia A100-40G GPU每天能够处理超过20万页。除了效率,这种方法还可以解决传统分词器的问题,自然地处理在纯文本处理中经常丢失的格式和布局信息。
为了补充对更大上下文的追求,Mila研究人员公布了“马尔可夫式思维”(Markovian Thinking),这是一项旨在使LLMs在复杂、长链推理方面大大提高效率的技术。他们的实现,“Delethink”环境,允许模型以固定大小的块(例如8,000个标记)进行推理,并将关键信息“传递”到后续块。这种创新方法将长推理链中令人望而却步的二次方计算成本转化为线性问题,使模型能够“思考”数百万个标记——远超当前限制——同时显著降低训练和推理成本。这可能解锁多周推理和科学发现等能力,初步估计显示,与标准方法相比,训练成本降低了三分之二。
人工智能用户交互之战也日益激烈,OpenAI凭借ChatGPT Atlas向浏览器市场迈出了重要一步。这款最初适用于macOS的AI浏览器,旨在通过直接集成ChatGPT来重新定义网页浏览,允许用户与浏览器聊天,询问任何网页上的内容问题,并利用智能体执行任务。Atlas以其聊天优先的界面和从用户浏览历史中学习的记忆功能脱颖而出,挑战着Google Chrome以及Perplexity的Comet和Opera等其他AI驱动浏览器的主导地位。
与此同时,谷歌通过对其AI Studio进行重大的“氛围编程”(vibe coding)升级,进一步普及了AI应用开发。这个经过改造的平台,新手和经验丰富的开发者都可以使用,允许用户描述他们想要的应用程序,系统会在几分钟内自动生成并实时部署。该Studio利用Gemini 2.5 Pro以及Imagine(用于图像生成)和Flashlight(用于优化推理)等其他谷歌AI模型,包含一个“我手气不错”(I’m Feeling Lucky)按钮,提供创意灵感和情境感知功能建议。这次更新显著降低了创建AI驱动工具的门槛,提供了从提示到生产的无缝路径。
最后,阿里巴巴的通义千问(Qwen)团队显著增强了其通义千问深度研究(Qwen Deep Research)工具,现在用户可以轻松地将综合研究报告转化为交互式网页和多说话人播客。这项功能集成到通义千问聊天界面中,利用Qwen3-Coder进行结构构建,Qwen-Image进行视觉呈现,以及Qwen3-TTS进行动态叙述。这种多格式输出能力简化了教育工作者、分析师和营销人员的内容创作,尽管与Google的NotebookLM等更专业工具的比较,引发了关于功能深度与广度的问题。
分析师视角
本周的AI新闻预示着AI在基础能力和面向用户的应用方面都将迎来深刻的加速。DeepSeek的视觉文本压缩和Mila的马尔可夫思维并非渐进式改进;它们是直接应对大型语言模型(LLM)规模和推理中最重要瓶颈的范式转变。正如Karpathy所暗示的,文本输入作为图像处理可能会从根本上更好,这一想法可能会在未来多年内重塑神经网络架构。结合Mila的突破性进展,我们正迈向真正巨大的上下文窗口和高效、长周期AI推理的实现。与此同时,ChatGPT Atlas的发布以及Google AI Studio增强的“氛围编程”功能,都表明了积极推动AI普及和易用性的决心,将其整合到日常工作流程中,赋能更广泛的创作者群体。竞争格局充满活力,DeepSeek和Qwen等中国公司正在做出可与西方科技巨头媲美的开源贡献。下一个前沿将是观察这些基础性进展如何转化为复杂真实世界推理任务中显而易见的改进,以及“AI浏览器之战”如何超越新奇,提供真正变革性的用户体验。
内容来源
- DeepSeek drops open-source model that compresses text 10x through images, defying conventions (VentureBeat AI)
- Google’s new vibe coding AI Studio experience lets anyone build, deploy apps live in minutes (VentureBeat AI)
- New ‘Markovian Thinking’ technique unlocks a path to million-token AI reasoning (VentureBeat AI)
- OpenAI announces ChatGPT Atlas, an AI-enabled web browser to challenge Google Chrome (VentureBeat AI)
- Qwen’s new Deep Research update lets you turn its reports into webpages, podcasts in seconds (VentureBeat AI)