高德地图推出,首个3D原生城市世界模型。模型支持图像、文本等多模态输入,可在消费级单卡GPU上10分钟内生成1平方公里高保真3D城市场景。模型基于3D Gaussian Splatting表示,采用原生LoD解码器和滑窗无缝推理策略,覆盖全球190余个国家和地区、300余城市。
小米联合TileRT推出 UltraSpeed模式,在通用GPU上实现万亿参数模型生成速度首次突破1000 tokens/s。该模式定价为普通版的3倍,输出速度提升约10倍,仅支持API体验。MiMo-V2.5-Pro UltraSpeed模式采用申请制限时开放,优先审核企业与专业开发者。
井英科技(CreativeFitting)完成数千万美元A轮及A+轮融资,投资方包括王慧文家办、蚂蚁集团等,同时宣布原AWS首席应用科学家王敏捷加盟任首席科学家。公司定位为内容行业首家Agent原生公司,以AI短剧为首个场景,构建创作者Agent可接入、可自我进化的强化学习环境,通过真实消费反馈驱动迭代。
OpenAI宣布向所有ChatGPT个人用户(Free、Go、Plus、Pro)开放锁定模式。功能启动后能禁用实时网页浏览、深度研究、Agent模式、图片检索及文件下载等高风险联网功能,仅支持访问缓存内容,同时保留图片上传与生成功能。
大晓机器人联合香港中文大学、深圳河套学院推出全球首个全屋三维可交互世界模型。模型采用四阶段分层生成架构,可从文本指令一键生成结构连贯、物理合理、功能完整的全屋三维场景,每个场景平均包含超15个可交互物体,支持机器人完成跨房间导航、物品整理等复杂家务仿真训练。
谷歌与SpaceX达成云计算合作,自2026年10月至2029年6月,谷歌每月向SpaceX支付9.2亿美元(约62.46亿元人民币),租赁约11万张英伟达GPU、CPU等芯片算力,用于AI训练与推理。协议将缓解谷歌算力供应紧张,同时为SpaceX AI业务开辟重要收入来源,为其IPO增添新叙事筹码。
新一代AI超声脑机公司华超神控(BCI-Sonics)宣布完成亿元人民币级天使轮系列融资,天使轮由经纬创投领投,天使+轮由德联资本、道远资本联合领投。公司由中科院博士、前GE医疗中国区负责人李昕创立,专注低强度聚焦超声无创脑机接口技术。本轮资金将用于技术验证与产业化落地,推进疼痛、成瘾等适应症临床转化。
OpenAI推出基于Dreaming技术的新版ChatGPT记忆系统。系统能自动整理长期对话中的用户偏好、计划等背景信息,判断信息是否过时,实现记忆的自动更新与修正,使回答更个性化。同时新功能新增可查看、编辑的记忆摘要。本次更新率先面向美国Plus和Pro用户开放,未来将逐步扩展至更多地区及免费用户。
腾讯推出企业级AI智能工作台,面向AI原生组织转型提供7×24小时数字员工、人机协同项目模式及企业管理后台,原生接入腾讯文档、网盘与乐享,支持公有云、VPC专享及私有化部署。通过沉淀团队记忆与AI资产,将个人提效升级为组织提效。
通义实验室推出通用智能体评测基准,首次将底座模型与运行框架(Harness)纳入联合评测。PawBench v1.0 包含 150 道真实任务、4050 个测试单元,覆盖 9 个模型与 3 个 Harness 的交叉矩阵。评测发现 Harness 性能差距最高达 6.4 分,同一模型换 Harness 分差可达 11.5 分。
谷歌Magenta团队推出(MRT2)本地实时音乐AI模型,包含2.4B高质量版与230M高速版,均针对Apple Silicon优化。模型采用逐帧生成架构,将延迟从3秒降至约200毫秒,支持文本、MIDI及音频风格控制。同步推出免费乐器应用Jam与DAW插件,可在Mac端实现低延迟即兴合奏。
AI音乐独角兽完成4亿美元融资,估值翻倍至54亿美元,由Bond Capital领投,IVP等跟投。公司订阅用户已突破200万,年销售额有望达3亿美元,计划年底扩招70%员工。Suno已与华纳音乐达成和解并签署授权协议,此前仍面临环球、索尼、华纳三大唱片公司的版权侵权诉讼。
月之暗面推出面向知识工作者的通用型本地Agent 「」 Beta版,随Kimi最新测试版Mac和Windows客户端发布。其内核为,支持安装Skills、运行定时任务,内置Kimi WebBridge浏览器操作能力,可自主创建最多300个子Agent的集群协作。Beta版支持金融分析、科研数据清洗、办公报告生成等场景,目前开放内测。
京东推出 长音视频生成框架,通过跨模态音视频记忆库、记忆驱动后训练推理速度提升7.5倍、Director Agent对话式编辑及轻量化实时超分四项技术创新,解决角色一致性、声音稳定性和生成速度三大行业难题。实测显示框架5分钟视频角色与音色高度一致,语音准确率达0.8646,各项指标全面领先。
Nous Research 推出 官方桌面客户端(预览),支持 macOS、Windows 和 Linux 三端。工具具备持久记忆、任务调度、子代理委派、网页浏览、多模态推理及隔离沙箱等核心能力,可直接在本地桌面运行,彻底告别终端命令行。终结了用户长期依赖终端或第三方UI的历史,标志Hermes向更友好的桌面端AI Agent形态演进。
OpenAI宣布编程智能体三项更新:智能体插件预置6个岗位技能包,企业无需编程可部署AI员工;注释功能支持对生成内容指哪改哪精准修改;站点功能可将文档一键转为交互式网站。Codex周活跃用户已达500万,较年初增长8倍。同时OpenAI计划将Codex引入ChatGPT,支持AWS平台一键部署。
Cognition 宣布 Windsurf 正式升级为,从 AI IDE 转型为 Agent 指挥中心。新版本引入 Kanban 统一管理本地与云端 Agent,新增 Spaces 实现跨 Agent 上下文共享,支持 ACP 开放协议接入 Codex、Claude Agent 等第三方 Agent。产品保留完整 IDE 能力,现有用户可通过 OTA 自动升级,实现零成本迁移。
微软推出全新自研 MAI 模型,包括 推理模型、、MAI-Image-2.5-Flash高效版图像模型、语音模型、MAI-Voice-2-Flash高效版语音模型、语音转文本模型、及编码模型。所有模型均从零训练,无蒸馏,共享统一数据规范与评估框架。
宣布向第三方Agent和Skill全面开放,所有企业均可在千问运营品牌Agent。肯德基、瑞幸、蜜雪冰城、东方航空等首批企业正在测试,将陆续上线。Agent具备记忆与主动规划能力,可主动提供行程提醒、权益到期、复购推荐等服务。
字节跳动开源 统一视频生成与编辑框架。框架创新性地引入多模态大模型作为规划师,模型能理解用户意图与语义目标,再交由扩散模型进行高质量视觉渲染,大幅提升AI视频编辑的可控性。
阿里推出多模态模型。模型将视觉与语言统一为智能体基座,能感知场景、操作GUI、生成代码并执行任务。模型具备多模态推理、视觉编程和浏览器自动化等能力,可完成APP全链路开发等复杂工作流。在全球权威视觉榜单Vision Arena中,阿里凭借模型跻身全球前五、中国第一。
北大团队发布。新版本彻底解除文件大小、数量限制,100%保留原Excel公式与格式。通过对话即可完成复杂数据处理,一键生成Word、PPT、可视化看板等专业报告。应用于财务审计、物流、人力等场景,实现跨表核对、异常标记与全流程自动化分析,保障企业级数据安全。
阿里达摩院推出AI原生开发平台,以Vibe Coding为核心范式,用户通过自然语言描述可生成完整可用的数字产品。平台覆盖需求理解、智能追问、自动开发到预览发布的全链路,内置大模型对话、文生图、机器翻译、地图检索、实时汇率、股价查询、气象数据等标准化资源接口,支持零代码调用。
谷歌母公司Alphabet宣布总额800亿美元股权融资,用于AI基础设施与算力建设。其中300亿美元为公开发行,400亿美元按市值发行,伯克希尔·哈撒韦私募投资100亿美元。公司此前预计2026年资本支出达1800至1900亿美元,2027年将进一步提升;云业务2026年Q1营收同比增长63%,积压订单逾4600亿美元。
词元无限完成数千万元天使+轮融资,由华控基金、水木创投联合领投,厦金创新跟投。公司由字节跳动万人级研发体系AI化改造团队与清华姚班背景团队创立,定位为企业级Agent基础设施,核心产品InfCode与InfOne分别面向AI原生软件开发和组织级智能业务编排,已服务十余家头部金融与软件企业。
3.0 正式上线,实现 iOS、Android、Mac、Windows 及网页端全量更新。新版本定位新一代 AI 团队,核心升级多 Agent 协作与项目空间管理,用户可创建项目召集不同职能 Agent 与团队推进任务。同时支持接入 Claude Code、Codex CLI 等本地 Agent,提供云端 Agent 长期运行能力,平台内置投资顾问、自媒体达人等职业模板。
MiniMax技推出,国内首个同时具备前沿编程能力、1M超长上下文和原生多模态能力的开源模型。在SWE-Bench Pro等国际权威评测中,M3多项指标超越等海外模型,接近领先水平。模型采用全新的MSA稀疏注意力架构,支持100万token上下文窗口,显著提升处理效率。
正式上线,产品定位为移动端AI创作Agent平台。用户可通过语音、文本或上传文件发起任务,AI自动执行并生成网页应用、文档、PPT、图片等可发布成果。核心功能包括智能体工作区、我的成果库、任务回放及技能调用。
通用人工智能公司VAST完成A+及A++两轮近2亿美元融资,由渶策资本、国寿长三角科创基金领投,荣耀等产业方及多家一线财务资本联合投资。同时,VAST推出全新世界模型项目Project Eden,创新性地将底层状态推演与视觉呈现解耦,解锁环境长程持久、场景自由复用、多人并发交互等颠覆性能力。
小米大模型应用团队开源可控视频音效生成模型,统一支持文本引导视频配音、文本控制视频配音及参考音频控制视频配音三类任务。模型通过联合视觉编码、时间-音色解耦与模态鲁棒训练,解决现有方案文本控制弱、参考音频难同步等问题,在 VGGSound-Test 等多个 benchmark 上达到开源 SOTA 表现。
通义实验室推出,以Qwen3.5-4B为底座搭配DiT动作解码器,通过统一动作轨迹预测框架、本体感知提示条件化及文本到动作预训练(T2A)技术,将操作、导航与轨迹预测整合为单一通用具身模型。模型在多项基准测试中超越专用模型,支持11种机器人平台跨本体控制。