谷歌发布Gemini 3.5 Live Translate,实现即时语音翻译
谷歌推出基于Gemini 3.5模型的语音到语音翻译功能,支持70多种语言,延迟低至数秒,并匹配语调节奏,已在多个平台开放预览。
谷歌推出基于Gemini 3.5模型的语音到语音翻译功能,支持70多种语言,延迟低至数秒,并匹配语调节奏,已在多个平台开放预览。
苹果在WWDC 2026上推出多项AI照片编辑工具,包括基于提示的逼真图像生成,并依赖Google的SynthID水印标记AI修改内容,标志着其从谨慎转向全面拥抱AI编辑。
Gemini 3.5 Live Translate为Google AI Studio、Google Translate和Google Meet提供近乎实时、自然的语音翻译,提升跨语言交流体验。
谷歌推出Gemma 4 12B,一款无编码器架构的多模态模型,性能接近26B MoE模型,但内存占用减半,可在16GB内存笔记本上本地运行,支持原生音频输入,推动端侧智能体应用。
苹果宣布对其Apple Intelligence平台进行重大升级,采用与谷歌合作基于Gemini技术开发的基础模型,实现设备端与云端协同,提升推理、多模态等能力,并强调隐私保护。
苹果在WWDC 2026上宣布Siri AI新功能,通过视觉大模型提取屏幕信息并授权定制Gemini模型,绕开应用集成难题,同时推出Core AI库让开发者充分利用硬件运行自有模型。
苹果在 WWDC 2026 上宣布改进 Image Playground,提升 AI 图像质量,并强调隐私保护,使其成为更实用的工具。
苹果在WWDC 2026上宣布,其照片应用将利用Apple Intelligence新增多项AI编辑功能,包括空间重构、扩展和升级的清除工具,提升用户照片编辑体验。
苹果在WWDC上发布AI版Siri,并为其推出独立应用,用户可浏览历史对话、上传文件,实现跨设备同步,标志着Siri向AI聊天机器人转型。
亚马逊扩展按需打印服务,允许用户通过Alexa用文字生成图像并印制在T恤等商品上销售,进一步推动AI在电商领域的应用。
苹果在 WWDC 2026 上宣布了 Siri AI 重大更新、iOS 27 支持 iPhone 11 起所有设备、Liquid Glass 设计可回滚等多项新功能,同时强调隐私保护,这是 CEO 库克最后一次主持大会。
亚马逊在购物应用中新增AI设计功能,用户可通过文字描述生成图案并印制在T恤、水杯等商品上,由亚马逊按需生产并配送,进一步推动AI在电商领域的应用。
苹果WWDC 2026即将开幕,Siri将迎来重大AI升级,整合谷歌Gemini技术,并推出独立应用;同时Apple Intelligence、相机视觉智能、Image Playground等多项更新值得期待。
苹果年度开发者大会WWDC 2026将于6月8日开幕,预计将发布iOS、macOS等系统更新,并可能推出Siri重大升级及多项AI新功能。
据彭博社报道,苹果正在测试带摄像头的AirPods,让Siri能“看到”周围环境,但面临隐私和实用性挑战。此举可能为未来智能眼镜铺路,并收集视觉数据训练AI。
随着公众对AI的抵触加剧,Anthropic、Perplexity等AI公司纷纷在界面和品牌中采用衬线字体,试图通过这种传统、权威的字体风格传递人性化与信任感,但批评者认为这不过是掩盖AI冰冷本质的“品味垃圾”。
Meta在Facebook上推出AI创作者助手,提供个性化建议和趋势洞察,并新增AI翻译功能,旨在提升创作者活跃度和用户参与度。
苹果WWDC 2026即将开幕,Siri将迎来重大AI升级,整合谷歌Gemini技术,并推出独立应用;同时Apple Intelligence将带来相机、照片、钱包等多款应用的智能化更新。
Reve 2 和 Ideogram 4 同日发布,强调通过强标签和布局代码提升图像生成质量;微软发布 MAI-Thinking-1 技术报告,展示无需第三方蒸馏的通用推理模型,并推动企业定制化部署。
亚马逊更新搜索栏,用户描述商品时显示AI生成的服装和家居用品图像,帮助寻找相似实物,但图像中的商品并非真实可购。
Google发布Gemma 4 12B,一款无需独立编码器即可直接处理视觉和音频输入的多模态模型,性能接近更大模型但内存占用减半,可在16GB内存的笔记本上本地运行,推动多模态智能体应用普及。
亚马逊在购物应用中引入AI生成的产品图像,根据用户搜索查询展示虚拟商品图片,旨在帮助用户更直观地描述需求并导向真实搜索结果,但此举可能引发误导争议。
Transformers 是 Hugging Face 推出的模型定义框架,为文本、视觉、音频和多模态任务提供统一的推理与训练接口,支持超过100万个预训练检查点,降低了AI模型的使用门槛。
ComfyUI 是一款面向视觉专业人士的 AI 创作引擎,通过节点图界面实现对模型、参数和输出的精细控制,支持图像、视频、3D、音频等多种生成任务,并兼容最新开源与闭源模型。
PaddleOCR 3.5.0 发布,这是一个将 PDF 和图像转换为结构化数据的轻量级 OCR 工具包,支持 100+ 语言,其 VLM 模型在文档解析上达到 SOTA 精度,并深度集成 AI Agent 生态。
NVIDIA在Computex上发布Cosmos 3全模态世界模型、Nemotron 3 Ultra高效LLM及RTX Spark个人超算芯片,同时MiniMax M3等开放代理模型涌现,AI行业正从模型转向代理运行时和工具链。
前xAI研究员Ethan He在播客中提出,视频模型的主要智能来自LLM而非视频数据,下一代Sora将是视频代理而非更好的视频模型,并分享了构建Grok Imagine的经验。
Anthropic 发布新产品 Claude Design,允许用户与 Claude 协作创建原型、幻灯片等视觉作品,由 Claude Opus 4 驱动,面向 Pro、Max、Team 和 Enterprise 订阅者开放研究预览。
本文是TechCrunch发布的AI术语表,系统解释了AGI、AI智能体、思维链、扩散模型等常见术语,帮助读者理解AI领域的关键概念。
Kiwibit Bird Feeder Pro 4K AI相机是一款智能喂鸟器,能识别超1万种鸟类并记录访客,让用户通过手机App实时观察后院鸟类活动,兼具趣味与教育意义。
法拉利首款电动车Luce由Jony Ive操刀设计,外观颠覆传统,引发热议。本期Vergecast讨论了其设计、技术以及消费者对电动汽车和AI的普遍反感。
苹果在CVPR 2026上展示多项研究成果,涵盖视频生成、多模态LLM、图像压缩、手语识别等方向,并赞助该顶级会议。
谷歌将通用世界模型 Genie 与街景真实图像结合,使 AI 代理和机器人能在基于真实地点的虚拟环境中导航和交互,现已向订阅用户开放。
谷歌宣布在搜索、Gemini、Chrome、Pixel和云服务中扩展内容透明度与验证工具,包括SynthID水印和C2PA凭证,并与OpenAI、Meta等行业伙伴合作,帮助用户识别AI生成或修改的内容。
谷歌DeepMind宣布与新加坡政府及多家机构建立国家级AI合作伙伴关系,旨在通过前沿AI技术推动医疗、教育、科学发现和可持续发展,助力新加坡国家AI战略实施。
苹果等机构提出SFI-Bench基准,通过1700多个视频问题系统评估多模态大模型在结构化空间推理和功能推理上的表现,揭示当前模型在整合空间记忆与功能知识方面的关键瓶颈。
谷歌DeepMind宣布AI联合临床医生研究计划,旨在通过多模态AI辅助医生,缓解全球医疗人力短缺,提升诊疗质量。
Google DeepMind发布Gemini 3.1 Flash TTS文本转语音模型,在语音质量、可控性和表现力上显著提升,支持70多种语言和原生多说话人对话,并通过音频标签实现精细的创意控制。
Google DeepMind 发布 Gemini Robotics-ER 1.6,通过提升空间推理、多视图理解和仪器读取等能力,使机器人能更精准地理解物理世界并自主执行复杂任务。
Google DeepMind提出四项交互原则,并基于Gemini开发AI指针原型,让用户通过指向和语音即可与AI协作,无需繁琐提示,旨在将AI无缝融入日常工具。
Qwen团队推出基于20B参数Qwen-Image的图像编辑模型Qwen-Image-Edit,支持语义与外观编辑、精确双语文本编辑,在多项基准上达到SOTA性能。
阿里云发布Qwen-Image,一款20B参数的MMDiT图像基础模型,在复杂文本渲染和精准图像编辑上取得显著突破,支持中英文高保真渲染,多项基准测试达到最优。
Qwen-MT是阿里云基于Qwen3和强化学习推出的新一代机器翻译模型,支持92种语言,在翻译质量和速度上超越GPT-4.1-mini等模型,并通过轻量级MoE架构降低API成本。
Qwen-TTS是通义千问最新发布的文本转语音模型,支持中英双语和北京话、上海话、四川话三种方言,在SeedTTS-Eval基准上达到人类水平,可通过API调用。
Qwen VLo是阿里通义千问推出的统一多模态理解与生成模型,支持文本到图像生成、图像编辑、风格迁移等任务,并具备渐进式生成和语义一致性能力,标志着多模态模型从感知到创造的跨越。
Qwen2.5-Omni 是 Qwen 系列的新旗舰端到端多模态模型,能同时处理文本、图像、音频和视频,并实时生成文本与自然语音,在多项基准中表现优异。
Qwen2.5-VL-32B是阿里云基于强化学习优化的视觉语言模型,在32B参数规模上实现了与人类偏好更一致的响应、更强的数学推理和细粒度图像理解能力,性能超越同规模竞品甚至更大模型。
Qwen团队发布Qwen2.5-VL系列视觉语言模型,包括3B、7B和72B三种尺寸,在图像识别、文档解析、视频理解和智能体能力上显著提升,72B模型在多项基准上达到领先水平。
阿里通义千问团队推出QVQ-72B-Preview,一个基于Qwen2-VL-72B的开源多模态推理模型,在MMMU等基准上表现优异,显著提升了AI在视觉理解和复杂问题求解方面的能力。
阿里通义千问团队发布Qwen2-VL系列视觉语言模型,在图像理解、视频分析、智能体操作及多语言支持上达到领先水平,72B版本超越GPT-4o和Claude 3.5-Sonnet,并开源2B和7B模型。