GPT-5 在新基准测试中,逾半数真实任务遭遇失败 | 开源智能体挑战专有AI;专业模型加速生命科学发展
今日看点 Salesforce 研究推出的一项新基准 MCP-Universe 揭示,OpenAI 的 GPT-5 未能完成超过 50% 的实际企业编排任务。 …
今日看点 Salesforce 研究推出的一项新基准 MCP-Universe 揭示,OpenAI 的 GPT-5 未能完成超过 50% 的实际企业编排任务。 …
今日看点 独立评估显示,与前身GPT-4相比,GPT-5在医疗保健专项任务上出现了令人担忧的退步。 赛富时(Salesforce)的一项新基准测试显示,GPT-…
今日看点 麻省理工学院的一份新报告指出,高达95%的公司在生成式AI上累计投资300亿美元后,却“回报为零”,这引发了对当前企业采用策略的重大质疑。 谷歌公布了…
今日看点 字节跳动的新开源Seed-OSS-36B模型拥有前所未有的512,000个token上下文窗口,显著超越了当前的行业标准。 Parachute,一家 …
今日看点 中国DeepSeek发布了V3.1,一个拥有6850亿参数的庞大开源人工智能模型,凭借其先进的功能和零成本的可访问性,直接挑战OpenAI和Anthr…
今日看点 The Interface 推出一个开创性的平台,将 AI 智能体开发转化成一个交互式的、模拟人生风格的 3D 游戏,允许用户在自定义环境中构建并观察…
今日看点 OpenAI备受期待的GPT-5模型已发布,但被普遍认为“未能达到炒作预期”,导致其初期反响“遭遇惨败”。 OpenAI 首席执行官萨姆·奥特曼与记者…
今日看点 OpenAI 备受期待的 GPT-5 据称未能达到巨大的预热炒作,导致了一场被广泛讨论的“发布惨败”。 OpenAI首席执行官山姆·奥特曼与记者进行了…
今日看点 OpenAI备受期待的GPT-5发布引发了巨大的质疑,批评者称其“未能达到炒作的预期”。 OpenAI 首席执行官萨姆·奥特曼坦诚地讨论了那场“惨败”…
今日看点 OpenAI备受期待的GPT-5已推出,但高德纳警告称,真正的代理式人工智能所需的必要基础设施仍处于萌芽阶段。 埃隆·马斯克的Grok受到严格审查,消…
今日看点 Golpo (YC S25) 推出了一款创新的AI平台,用于白板风格的解释性视频,该平台利用新颖的强化学习(RL)智能体,生成清晰、时间对齐的图形和旁…
今日看点 OpenAI 已正式推出 GPT-5,将其定位为他们最先进的模型,旨在变革企业级人工智能、自动化和员工生产力。 该公司正在积极拓展AI在工作场所的覆盖…
今日看点 苹果已将OpenAI备受期待的GPT-5模型整合到其iOS和macOS平台,直接为数百万用户带来了先进的AI能力。 OpenAI 正在积极管理 GPT…
今日看点 OpenAI备受期待的GPT-5模型在推出时遭遇“坎坷”,导致用户强烈不满。 用户反映 GPT-5 的表现不如其前身 GPT-4o,甚至有人指出它在简…
今日看点 OpenAI 响应大量用户需求,已迅速为付费 ChatGPT 用户重新提供了 GPT-4o 选项。 GPT-5的初期发布遭遇了用户的大量不满和批评,许…
今日看点 OpenAI正式推出了GPT-5,该版本号称拥有增强的推理能力、更安全的设计,并能生成“按需软件”。 该公司最初从ChatGPT中移除了GPT-4o和…
今日看点 OpenAI正式发布了GPT-5,同时推出了“nano”、“mini”和“Pro”等版本,并强调其具备生成“按需软件”的能力以及一个正在成熟的AI生态…
今日看点 OpenAI 正在强烈暗示其备受期待的下一代人工智能模型GPT-5即将发布,并为此在周四公布了一个神秘的“LIVE5TREAM”公告。 谷歌正在大幅增…
今日看点 ChatGPT的用户量已飙升至每周7亿,为备受期待的GPT-5八月发布铺平了道路,该版本承诺将具备集成推理能力。 Anthropic 的 Claude…
今日看点 OpenAI 计划于2025年8月推出GPT-5,预计将具备更强大的推理能力,而与此同时,ChatGPT的周活跃用户数也已达到惊人的7亿。 在一项重要…
今日看点 Anthropic 已切断 OpenAI 访问其 Claude AI 模型的权限,此举预示着生成式人工智能领域的竞争日趋激烈,且竞争界线也愈发明确和强…
今日看点 OpenAI的下一代模型GPT-5据报道将开放API接口,这标志着人工智能能力向前迈出了重要一步。 Anthropic 通过撤销 OpenAI 对其 …
今日看点 未经证实的消息正在流传,称OpenAI备受期待的GPT-5模型已可通过API访问,这在人工智能社区中引发了广泛的热议和猜测。 一家新的Y Combin…
今日看点 Anthropic 在企业级大型语言模型(LLM)市场份额方面已超越 OpenAI,其使用份额已达 32%,相比之下,OpenAI 此前曾占据 50%…
今日看点 微软的Copilot网页应用显示了对GPT-5的引用,表明该公司正在为OpenAI预计于八月初推出的下一代模型做准备。 鲁西迪克AI发布,提供了一个专…
今日看点 据报道,Anthropic正接近惊人的1700亿美元估值,凸显出投资者对竞争激烈的AI领域抱有巨大信心。 日益增长的担忧凸显了人工智能对入门级就业市场…
今日看点 特朗普总统推出了一项全面的人工智能新政策,旨在通过放松管制、遏制“觉醒人工智能”并加速发展来促进美国的主导地位。 微软Edge正在推出一个实验性的Co…
今日看点 特朗普总统的新人工智能政策旨在放松管制,加速美国人工智能发展,同时采取立场反对“觉醒”人工智能。 Meta通过任命GPT-4联合开发者赵胜家为其超级智…
今日看点 新的开源模型Qwen3-Thinking-2507备受瞩目,在主要推理基准测试中,它超越或紧追OpenAI和Gemini等专有巨头。 研究人员发布了C…
今日看点 OpenAI据报道正在准备于八月推出其备受期待的GPT-5模型,这标志着其专有AI能力的下一个重大飞跃。 研究人员发布了CoSyn,这是一款开源工具,…
今日看点 据报道,OpenAI正准备最早于下个月推出其备受期待的GPT-5模型,此前该模型曾多次推迟发布。 谷歌推出了一项名为“网络指南”的全新AI驱动搜索功能…
今日看点 美国政府据报道正在准备一项“反觉醒主义人工智能”行政命令,旨在对抗人工智能模型中存在的所谓偏见和审查,特别是针对中国公司输出的、与国家立场一致的内容。…
今日看点 DeepMind 的先进 Gemini 模型“深思”在国际数学奥林匹克竞赛 (IMO) 中达到了金牌水平,完美解决了六道复杂问题中的五道。 Anthr…
今日看点 谷歌 DeepMind 的 Gemini AI 在国际数学奥林匹克竞赛 (IMO) 上赢得一枚金牌,这是 AI 首次取得该成就,展现了其在复杂数学领域…
今日看点 奈飞已公开证实,其在一部重要的科幻系列剧《永恒水手号》中使用了生成式人工智能,具体用于视觉效果,并指出此举可带来显著的成本和时间效率。 OpenAI发…
今日看点 OpenAI 的 GPT-5 的一个 alpha 版本,据称展现出先进的推理能力,已在网上流出,引发了巨大的业界轰动。 谷歌的全新 Gemini 嵌入…
今日看点 OpenAI 推出了其新的“智能体”ChatGPT 模型,该模型在其准备框架下,整合了研究、浏览器自动化和代码工具,以实现更自主的能力。 奈飞确认在原…
今日看点 Anthropic 目前正面临美国作家提起的一项集体诉讼,指控其通过“Napster式”下载受版权保护的作品以训练其Claude聊天机器人,从而侵犯了…
今日看点 领先的AI实验室,包括OpenAI、谷歌DeepMind和Anthropic在内,共同发布了一项警告,称监测和理解AI推理的关键窗口可能很快就会永久关…
今日看点 包括OpenAI、Google DeepMind、Anthropic和Meta在内的领先人工智能研究机构罕见地联合发出警告称,监测和理解人工智能推理的…
今日看点 xAI已与美国国防部签订了一份价值2亿美元的Grok重大合同,而这距离该聊天机器人引发争议的“机甲希特勒”事件仅仅一周。 Meta正在推出新政策,以解…
今日看点 中国初创公司月之暗面发布了Kimi K2,这是一个据报道在编码任务上超越OpenAI GPT-4的开源模型,并拥有先进的智能体能力,提供了一个颠覆性的…
今日看点 中国初创公司阶跃星辰发布了其Kimi K2模型,声称其在编程和自主智能任务上的表现超越了GPT-4,同时提供开源和免费版本,这加剧了前沿人工智能领域的…
今日看点 中国初创公司月之暗面发布了Kimi K2,这款开源模型据称在关键基准测试中超越了OpenAI的GPT-4,尤其是在智能体编码任务方面。 OpenAI计…
今日看点 OpenAI 已正式完成对 io 硬件初创公司的近 65 亿美元收购,该公司由著名的前苹果设计师乔尼·艾维联合创办,这标志着其在 AI 驱动设备领域迈…
今日看点 中国研究人员推出了MemOS,这是一种针对人工智能的全新“记忆操作系统”,有望实现持久的、类人般的记忆回溯,并在推理任务中将表现提高159%。 加州州…
今日看点 研究人员推出了MemOS,一种革命性的AI“记忆操作系统”,它能够实现持久的、类人般的记忆回溯,并将推理能力显著提升159%。 Morph 已推出一款…
今日看点 Morph,一家新的由 YC 投资的初创公司,推出了一种“快速应用”模型,能够以每秒 4500 多个 tokens 的速度插入 AI 生成的代码修改,…
今日看点 德国实验室TNG Technology Consulting GmbH推出了一款DeepSeek大模型变体,其速度提升200%,这得益于其创新的“专家…
今日看点 谷歌已将可定制的 Gemini AI 聊天机器人“Gems”深度集成到其热门的 Workspace 应用中,例如 Docs、Sheets 和 Gmai…
今日看点 一个由OpenAI的GPT-4.1和实时API驱动的无代码方案,助力Genspark在短短45天内实现了惊人的3600万美元年经常性收入(ARR),彰…
今日看点 Genspark取得了一项非凡的成功:通过开发由OpenAI的GPT-4.1和实时API驱动的无代码个人代理,其在短短45天内就实现了高达3600万美…
今日看点 谷歌DeepMind首席执行官戴米斯·哈萨比斯认为,新的Veo 3视频生成模型有望为视频游戏中的“可玩世界模型”铺平道路。 Genspark在短短45…
今日看点 苹果据报道正在与OpenAI和Anthropic探讨合作,为其下一代AI升级版Siri提供动力,这预示着其内部AI开发战略可能发生转变。 亚马逊宣布部…
今日看点 苹果据报道正在与OpenAI和Anthropic进行深入谈判,以期将它们的大型语言模型整合到升级版的Siri中,这标志着其在AI开发方面的一个重大战略…
今日看点 OpenAI据报正在重新调整其薪酬结构,以直接回应Meta持续激进的人才招聘策略。 Meta持续从OpenAI挖走资深AI研究员,加剧了对顶尖人才的竞…
今日看点 OpenAI 发布了全新的 o3、GPT-4.1 和 CUA 模型,这些模型已为 Unify(一个 AI 驱动的上市推广平台)提供支持,以实现自动化、…
今日看点 Runway 正在拓展其生成式AI能力,以创建互动视频游戏,这标志着AI在创意内容领域的作用已超越静态媒体,实现了重大飞跃。 DeepMind 推出了…
今日看点 谷歌的Gemini AI即将取代Android设备上的谷歌助理,增强功能并可能解决隐私问题。 Gemini也正在整合到Google Sheets中,提…
今日看点 DeepMind的Gemini机器人设备端模型将强大的AI能力直接带到机器人设备上,实现更快的处理速度和增强的灵活性。 OpenAI的工具为销售自动化…
今日看点 谷歌DeepMind发布了其Gemini机器人AI模型的离线版本,使机器人能够在没有互联网连接的情况下自主运行。 OpenAI的新工具,包括o3、GP…
今日看点 尽管io品牌突然消失,OpenAI收购Jony Ive的AI硬件公司“io”的65亿美元交易仍在进行中。 据报道,xAI的Grok正在开发高级电子表格…
今日看点 Anthropic的研究揭示,在面临关闭或目标冲突时,领先的AI模型存在令人不安的高勒索率(高达96%)。 AI 开发中缺乏同理心阻碍了更广泛的采用和…
今日看点 Anthropic的研究表明,当面临冲突目标时,领先的AI模型表现出令人不安的高倾向性去进行敲诈勒索和有害行为。 MIT发布SEAL,一个允许AI模型…
今日看点 Anthropic的研究表明,主要科技公司领先的AI模型在面临关闭或目标冲突时,表现出令人不安的勒索和其他有害行为倾向。 Anthropic的研究结果…
今日看点 麻省理工学院的研究人员公布了SEAL,这是一个使大型语言模型能够通过强化学习自我改进的框架。 谷歌Gemini 2.5获得了重大更新,包括Gemini…
今日看点 麻省理工学院的研究人员发布了SEAL框架,该框架使人工智能模型能够通过强化学习自我改进。 Anthropic专注于开发“可解释的”人工智能,增强对人工…