Gemini 3.1 Flash Live发布
Google DeepMind推出Gemini 3.1 Flash Live,称其为迄今最高质量的实时音频与语音模型,面向语音优先AI应用提升自然节奏、可靠性和任务执行能力。该模型已通过Gemini Live API预览、Gemini Enterprise客户体验场景、Search Live和Gemini Live开放。
Google DeepMind推出Gemini 3.1 Flash Live,称其为迄今最高质量的实时音频与语音模型,面向语音优先AI应用提升自然节奏、可靠性和任务执行能力。该模型已通过Gemini Live API预览、Gemini Enterprise客户体验场景、Search Live和Gemini Live开放。
Google DeepMind发布关于AI有害操纵风险的新研究,聚焦模型通过对话负面、欺骗性地改变人类想法和行为的能力。团队称已构建首个经实证验证的真实世界AI操纵测量工具包,并公开复现实验所需材料。
Google推出音乐生成模型Lyria 3 Pro,并将Lyria 3能力扩展到更多产品。Pro版本支持生成最长3分钟曲目,可按前奏、主歌、副歌、桥段等结构进行提示控制,面向开发者、企业和创作者场景。
Google DeepMind发布论文《Measuring Progress Toward AGI: A Cognitive Taxonomy》,提出用认知科学框架衡量AI系统通用智能进展。团队同时与Kaggle合作发起黑客松,邀请社区基于该分类体系开发评测方法。
Google DeepMind推出Gemini 3.1 Flash-Lite预览版,定位为Gemini 3系列中最快、成本最低的模型,面向高吞吐开发者工作负载。该模型已通过Gemini API、Google AI Studio和Vertex AI开放,定价为每百万输入0.25美元、输出1.50美元。
Google DeepMind发布Nano Banana 2,即Gemini 3.1 Flash Image,主打将Nano Banana Pro的图像质量、世界知识和推理能力带到更快的Flash级体验中。该模型面向图像生成与编辑场景,强调快速迭代和更强创作控制。
Google DeepMind发布Gemini 3.1 Pro,称其为支撑Gemini 3 Deep Think升级的核心智能模型。该模型开始面向开发者、企业和消费者产品推出,覆盖Gemini API、Google AI Studio、Gemini CLI、Antigravity、Android Studio、Vertex AI、Gemini Enterprise、Gemini App和NotebookLM。
Google DeepMind宣布在Gemini App中以beta形式推出自定义音乐生成能力,由最新Lyria 3模型驱动。用户可通过文字描述或上传图片生成带歌词的高质量歌曲,扩展Gemini在图像、视频之外的创作能力。
Google DeepMind发布Gemini 3 Deep Think重大升级,定位为面向科学、研究和工程难题的专用推理模式。新版Deep Think已向Google AI Ultra订阅用户开放,并首次提供给更广泛的研究与开发场景使用。
Google DeepMind披露Gemini Deep Think在数学、物理和计算机科学等专业研究问题上的进展。文章称该模式继IMO金牌水平和ICPC类似成绩后,已进入更复杂的科学、工程和企业工作流,用于开放式研究挑战。
Google DeepMind开始向美国Google AI Ultra订阅用户推出Project Genie实验原型,用于创建、探索和混合交互式世界。该项目基于Genie 3世界模型,旨在扩大沉浸式世界生成与交互体验的受测范围。
Google DeepMind推出D4RT,一个用于4D场景重建与跟踪的统一AI模型,目标是在空间和时间维度上理解动态世界。该模型面向从视频或传感输入中恢复连续场景结构、运动和对象状态的复杂视觉任务。
Google DeepMind升级Veo 3.1 Ingredients to Video能力,增强基于参考图像生成视频的一致性、创意表现和控制力。更新包括原生竖屏输出,以及面向高保真制作流程的1080p和4K超分能力。
Salesforce 推出重构后的 Slackbot,将其从通知工具升级为可搜索企业数据、起草文档并执行操作的 AI Agent。该产品面向 Business+ 和 Enterprise+ 客户开放,是 Salesforce 对抗微软和 Google 办公 AI 的关键动作。
Anthropic 发布 Claude Desktop 新能力 Cowork,可在用户文件中完成非编程任务,面向非技术用户扩展 Claude Code 式工作流。该功能以研究预览形式开放,显示 Anthropic 正加速进入通用生产力 Agent 市场。
Google DeepMind发布Gemini 3 Flash,主打在更低成本和更高速度下提供前沿智能能力。该模型扩展了Gemini 3系列,面向复杂推理、多模态和视觉理解等场景。
Google DeepMind发布Gemma Scope 2,这是面向Gemma 3全尺寸模型的开放式可解释性工具套件。该工具旨在帮助AI安全社区分析语言模型内部行为和决策机制。
Google DeepMind升级Gemini 2.5 Flash Native Audio,用于实时语音代理和自然对话体验。新版提升了复杂工作流处理、指令跟随和语音交互能力,并接入AI Studio、Vertex AI、Gemini Live和Search Live。
Google DeepMind与英国AI安全研究所AISI签署新的谅解备忘录,扩大基础安全与安全性研究合作。该合作聚焦AI评估、安全研究和负责任开发,是其与英国政府AI合作的一部分。
Google DeepMind联合Kaggle推出FACTS Benchmark Suite,用于系统评估大语言模型回答的事实准确性。该套件扩展了既有FACTS Grounding Benchmark,新增参数化事实性等多项评测。