# 多模态

Runway推出生成媒体模型路由器，应对市场碎片化

Runway通过Runway Dev平台推出Media Router，自动为图像、视频和音频生成任务选择最佳模型，旨在成为生成媒体基础设施层，应对模型数量激增和开发者选择困难的问题。

TechCrunch — AI3 天前

谷歌发布Gemini 3.6 Flash、3.5 Flash-Lite及3.5 Flash Cyber模型

谷歌推出三款新模型：3.6 Flash提升编码与多模态性能并降低token消耗，3.5 Flash-Lite主打高速低成本，3.5 Flash Cyber专攻网络安全漏洞检测与修复，同时透露Gemini 4预训练已启动。

Hacker News (AI)4 天前

LLM 产品发布多模态智能体

Adobe实验性相机应用Indigo引入生成式AI编辑功能

Adobe的Project Indigo相机应用从追求自然单反效果转向集成生成式AI编辑工具，包括滤镜、物体移除和聊天反馈，标志着移动摄影与AI的深度融合。

The Verge — AI6 天前

产品发布多模态研究

Google Vids 更新：上传自拍和录音即可创建 AI 数字分身

Google 为 Vids 引入 Gemini Omni 多模态模型，支持基于自拍和录音创建个性化数字分身，并实现逐步编辑，使该工具从 AI 辅助演示工具升级为一体化视频创作平台。

TechCrunch — AI10 天前

Simon Willison's Weblog10 天前

Inkling：Mira Murati 团队发布的首个开放权重多模态模型

Thinking Machines Lab 发布了其首个开放权重模型 Inkling，这是一个 975B 总参数、41B 活跃参数的混合专家 Transformer，在 45 万亿 token 的多模态数据上训练，采用 Apache-2.0 许可，旨在作为可微调的强大基础模型。

LLM 多模态开源产品发布

精选· 重要性 5/5

Apple Intelligence获准在华推出，整合阿里Qwen与百度AI

Apple Intelligence获中国网信办批准，将整合阿里巴巴Qwen模型和百度AI，为iPhone等设备提供生成式AI功能，标志着苹果在关键市场迈出重要一步。

TechCrunch — AI10 天前

Thinky发布Inkling：975B参数开放权重多模态模型，美国最强Apache 2.0开源模型

Thinking Machines Lab发布其首个完全开放权重的多模态基础模型Inkling（975B总参数/41B激活），采用MoE架构，支持文本、图像、音频输入及1M上下文窗口，成为美国最强的Apache 2.0开源模型，但部分基准仍落后于中国顶尖开源模型。

Latent Space (Swyx)10 天前

LLM 多模态开源产品发布

Inkling：开放权重975B参数多模态大模型

Thinking Machines发布Inkling，一个975B总参数（41B活跃）的开放权重混合专家模型，支持文本、图像和音频输入，并可在Tinker平台上微调。

Hacker News (AI)10 天前

LLM 多模态开源产品发布

婴儿式学习：AI 效率提升的新方向

研究人员开发出 EgoBabyVLM 测试，发现当前最先进的 AI 模型在理解婴儿视角的世界时表现糟糕，这提示婴儿大脑的高效学习机制可能为构建更节能、更自然的 AI 提供关键启示。

Wired — AI11 天前

研究 LLM 多模态

Google Images 推出 Pinterest 式改版，聚焦视觉发现与 AI 图像生成

Google Images 迎来重大改版，采用类似 Pinterest 的浏览式画廊设计，并新增搜索内 AI 图像生成功能，旨在将图片搜索转变为发现与灵感平台，提升用户停留时间和广告收入。

TechCrunch — AI12 天前

Google Images 首页改版：搜索前即推荐图片，AI 概览可生成图像

为庆祝成立 25 周年，Google Images 首页将改为动态推荐画廊，同时 Google 搜索的 AI 概览功能将能使用 Nano Banana 2 Lite 模型生成图像，但触发条件和风险控制细节尚待披露。

The Verge — AI12 天前

Ghost Font：人类可读但AI无法识别的反AI字体

Ghost Font是一种利用运动、噪声和诱饵消息的字体，人类能轻松阅读，但前沿AI模型难以解码，探索了AI视觉感知的极限。

Hacker News (AI)15 天前

研究产品发布多模态

Meta 发布 Muse Spark 1.1，加入 AI 编码工具竞争

Meta 推出专为智能体编码设计的多模态 AI 模型 Muse Spark 1.1，以低价策略挑战 OpenAI 和 Anthropic，CEO 扎克伯格为此三年来首次在 X 平台发帖。

TechCrunch — AI17 天前

LLM 多模态智能体产品发布

Meta发布Muse Spark 1.1模型，通过新API开放编码能力

Meta推出Muse Spark 1.1模型，通过新Meta Model API向开发者开放，具备高级编码、多智能体工作流和多模态感知能力，旨在缩小与OpenAI等对手的差距。

The Verge — AI17 天前

LLM 产品发布多模态智能体

Character.AI进军微短剧，推出AI生成互动视频系列

Character.AI推出c.ai Series，这是一系列由生成式AI制作的动画微短剧，用户可在观看后与角色聊天。此举旨在拓展其作为娱乐平台的定位，并抢占预计达260亿美元的微短剧市场。

The Verge — AI17 天前

Google Photos 推出 AI 视频混音工具，由 Gemini Omni 驱动

Google Photos 新增“Video Remix”功能，利用 Gemini Omni 模型实现快速视频编辑与风格转换，进一步将生成式 AI 融入消费应用，以增强生态粘性。

TechCrunch — AI18 天前

OpenAI 发布 GPT-Live 语音模型，实现更自然的实时对话

OpenAI 推出全双工语音模型 GPT-Live-1 和 GPT-Live-1 mini，支持同时听说、自然打断和实时翻译，旨在让语音成为复杂工作的主要计算界面。

TechCrunch — AI18 天前

ChatGPT升级语音模式：更少打断，更自然对话

OpenAI发布GPT-Live-1语音模型，实现全双工对话，能同时听说并减少打断，支持实时翻译和AI可视化，提升交互自然度。

The Verge — AI18 天前

GPT-Live：新一代语音模型驱动ChatGPT Voice

OpenAI推出GPT-Live语音模型，旨在实现更自然的人机语音交互，并已集成至ChatGPT Voice功能中。

OpenAI News18 天前

Meta推出免费AI图像生成器Muse，支持广告创作与室内设计

Meta发布由Meta超级智能实验室开发的新AI图像生成器Muse，免费提供于Meta AI应用、Instagram Stories和WhatsApp，支持自定义广告、室内设计等创意功能，并计划推出视频生成器Muse Video。

TechCrunch — AI18 天前

Meta 推出 Muse Image 模型，可在 AI 照片中拉入其他 Instagram 用户

Meta 发布由超级智能实验室打造的首个 AI 图像生成模型 Muse Image，支持在提示词中 @ 提及其他 Instagram 账户以使用其形象，并计划推出 Muse Video 模型。

The Verge — AI19 天前

Simon Willison's Weblog25 天前

Nano Banana 2 Lite 发布：最快最便宜的 Gemini 图像模型

Google 推出 Nano Banana 2 Lite（即 Gemini 3.1 Flash Lite Image），号称最快最便宜的 Gemini 图像模型，专为速度和规模优化。

Google NotebookLM新增TikTok风格AI视频摘要功能

Google的NotebookLM推出新功能，可根据用户上传的资料生成60秒竖屏AI视频摘要，以TikTok风格呈现研究内容，目前面向AI Ultra和Pro订阅者开放。

The Verge — AI26 天前

谷歌发布更快更便宜的图像生成器Nano Banana 2 Lite

谷歌推出Nano Banana 2 Lite，速度更快、成本更低，每千张图像仅需0.034美元，旨在满足大规模快速图像生成需求，同时宣布与A24的7500万美元合作及Gemini Omni Flash的广泛发布。

TechCrunch — AI26 天前

Proton隐私AI聊天机器人Lumo升级至2.0，新增图像处理与思维模式

Proton将其隐私优先的AI聊天机器人Lumo升级至2.0版本，新增图像识别与生成、持久记忆及思维模式，响应速度提升76%，在保护用户隐私的同时增强AI能力。

TechCrunch — AI26 天前

Gemini个性化AI图像生成功能向美国用户免费开放

谷歌宣布Gemini应用的个性化AI图像生成功能向所有符合条件的美国用户免费开放，该功能基于用户Google账户数据生成反映个人兴趣的图像，此前仅限付费订阅者使用。

TechCrunch — AI27 天前

Adobe 重新设计 Firefly AI 工作室，新增元素与项目管理功能

Adobe 为 Firefly AI 助手推出重新设计的界面，新增“元素”和“项目”功能，支持跨项目复用资产、保持设计一致性，并扩展视频编辑能力，旨在让 AI 成为创意工作的协作伙伴而非替代工具。

The Verge — AI大约 1 个月前

Pixi 推出 iOS 应用，将短信变为交互式 AR 体验

Pixi 发布一款原生消息应用，通过 iMessage 发送 AI 驱动的 AR 角色，这些角色能实时感知环境并互动，旨在让数字对话更具临场感和趣味性。

TechCrunch — AI大约 1 个月前

Android 17 发布：多任务工具升级，谷歌扩展 Gemini AI 功能

谷歌发布 Android 17 及 Wear OS 7，集成最新 AI 模型如 Lyria 3 和 Gemini Omni，强化多任务、创作与翻译功能，并引入紧急检测等安全特性，彰显其以硬件展示 AI 技术的战略。

TechCrunch — AI大约 1 个月前

苹果2027年传闻：带摄像头AirPods与第二款折叠iPhone

彭博社记者Mark Gurman透露苹果2027年硬件计划，包括配备摄像头的AirPods、第二款折叠iPhone以及20周年纪念版iPhone，显示苹果在AI和折叠屏领域的长期布局。

The Verge — AI大约 1 个月前

产品发布多模态芯片与算力

Simon Willison's Weblog大约 1 个月前

OpenAI WebRTC音频会话新增文档上下文支持

Simon Willison更新了其OpenAI WebRTC音频会话工具，支持GPT-Realtime-2模型并允许粘贴文档上下文，实现浏览器内基于文档的语音对话。

苹果相机主管谈AI：赋予普通用户“超能力”，但保持克制

苹果相机主管Jon McCormack表示，AI正在帮助解决相机软件中大量此前无法解决的问题，但苹果采取比竞争对手更克制的策略，避免“为AI而AI”。

Wired — AI大约 1 个月前

DoorDash推出AI聊天机器人Ask DoorDash，支持文字和图片下单

DoorDash发布AI聊天机器人Ask DoorDash，用户可通过文字或图片搜索并下单，标志着外卖平台在AI个性化服务上的新进展。

TechCrunch — AI大约 1 个月前

Ars Technica — AI大约 2 个月前

谷歌发布Gemini 3.5 Live Translate，实现即时语音翻译

谷歌推出基于Gemini 3.5模型的语音到语音翻译功能，支持70多种语言，延迟低至数秒，并匹配语调节奏，已在多个平台开放预览。

苹果拥抱AI照片编辑：从质疑到全面采用生成式工具

苹果在WWDC 2026上推出多项AI照片编辑工具，包括基于提示的逼真图像生成，并依赖Google的SynthID水印标记AI修改内容，标志着其从谨慎转向全面拥抱AI编辑。

产品发布多模态政策与监管

Google DeepMind Blog大约 2 个月前

Gemini 3.5 Live Translate实现流畅自然的语音翻译

Gemini 3.5 Live Translate为Google AI Studio、Google Translate和Google Meet提供近乎实时、自然的语音翻译，提升跨语言交流体验。

苹果AI承诺姗姗来迟：新Siri能否在AI市场后来居上？

苹果在WWDC 2025上发布了以AI为核心的新Siri，承诺将其打造成跨设备、多模态的智能助手，但功能多为追赶竞品，且上线时间延迟，隐私策略成为差异化亮点。

产品发布智能体多模态 LLM

Google DeepMind Blog大约 2 个月前

谷歌发布Gemma 4 12B：无编码器多模态模型，可在笔记本本地运行

谷歌推出Gemma 4 12B，一款无编码器架构的多模态模型，性能接近26B MoE模型，但内存占用减半，可在16GB内存笔记本上本地运行，支持原生音频输入，推动端侧智能体应用。

LLM 多模态智能体开源

精选· 重要性 5/5

苹果发布基于Google Gemini模型的新AI架构

苹果宣布对其Apple Intelligence平台进行重大升级，采用与谷歌合作基于Gemini技术开发的基础模型，实现设备端与云端协同，提升推理、多模态等能力，并强调隐私保护。

Hacker News (AI)大约 2 个月前

LLM 多模态产品发布

Simon Willison's Weblog大约 2 个月前

WWDC 2026：苹果Siri AI借视觉LLM与定制Gemini模型实现新突破

苹果在WWDC 2026上宣布Siri AI新功能，通过视觉大模型提取屏幕信息并授权定制Gemini模型，绕开应用集成难题，同时推出Core AI库让开发者充分利用硬件运行自有模型。

LLM 多模态产品发布

苹果 Image Playground 重大升级：AI 图像生成不再糟糕

苹果在 WWDC 2026 上宣布改进 Image Playground，提升 AI 图像质量，并强调隐私保护，使其成为更实用的工具。

产品发布多模态隐私与监管

苹果照片应用新增AI编辑功能：重构、扩展与清除

苹果在WWDC 2026上宣布，其照片应用将利用Apple Intelligence新增多项AI编辑功能，包括空间重构、扩展和升级的清除工具，提升用户照片编辑体验。

苹果为Siri推出独立应用，AI升级史上最大变革

苹果在WWDC上发布AI版Siri，并为其推出独立应用，用户可浏览历史对话、上传文件，实现跨设备同步，标志着Siri向AI聊天机器人转型。

亚马逊推出AI生成定制商品，Alexa驱动按需打印

亚马逊扩展按需打印服务，允许用户通过Alexa用文字生成图像并印制在T恤等商品上销售，进一步推动AI在电商领域的应用。

WWDC 2026：Siri AI、iOS 27 及 Apple Intelligence 全面升级

苹果在 WWDC 2026 上宣布了 Siri AI 重大更新、iOS 27 支持 iPhone 11 起所有设备、Liquid Glass 设计可回滚等多项新功能，同时强调隐私保护，这是 CEO 库克最后一次主持大会。

产品发布 LLM 多模态智能体

亚马逊推出AI定制商品设计功能，降低创作门槛

亚马逊在购物应用中新增AI设计功能，用户可通过文字描述生成图案并印制在T恤、水杯等商品上，由亚马逊按需生产并配送，进一步推动AI在电商领域的应用。

WWDC 2026前瞻：Siri大改、Apple Intelligence与iOS 27亮点

苹果WWDC 2026即将开幕，Siri将迎来重大AI升级，整合谷歌Gemini技术，并推出独立应用；同时Apple Intelligence、相机视觉智能、Image Playground等多项更新值得期待。

产品发布智能体多模态

WWDC 2026：如何观看及Siri重大升级等看点

苹果年度开发者大会WWDC 2026将于6月8日开幕，预计将发布iOS、macOS等系统更新，并可能推出Siri重大升级及多项AI新功能。

产品发布智能体多模态