DeepMind用街景增强Project Genie
Google DeepMind将Project Genie与Google Street View连接,使其世界模型可基于真实街景生成交互式环境。该能力可为AI代理和机器人提供贴近真实世界的导航与交互模拟环境。
Google DeepMind将Project Genie与Google Street View连接,使其世界模型可基于真实街景生成交互式环境。该能力可为AI代理和机器人提供贴近真实世界的导航与交互模拟环境。
Google DeepMind发布Gemini Omni,将Gemini的多模态理解和生成能力扩展到视频创作。首个Omni模型支持以图像、音频、视频和文本作为输入生成高质量视频,并可通过对话方式编辑视频。
Google DeepMind发布Antigravity 2.0,定位为新一代AI开发与代理环境。该更新若延续Antigravity路线,重点在增强编码代理、任务执行和开发者工作流整合。
PaddleOCR 3.5 新增 Transformers 推理后端,OCR 与文档解析模型可通过 engine 参数切换运行栈。该版本支持 dtype、设备放置和注意力实现等后端配置,并上线 Hugging Face Spaces 演示。