Qwen2-VL发布:多模态视觉语言模型能力全面升级
阿里通义千问团队发布Qwen2-VL系列视觉语言模型,在图像理解、视频分析、智能体操作及多语言支持上达到领先水平,72B版本超越GPT-4o和Claude 3.5-Sonnet,并开源2B和7B模型。
DEMO GITHUB HUGGING FACE MODELSCOPE API DISCORD经过一年的不懈努力,今天我们很高兴发布Qwen2-VL!Qwen2-VL是Qwen模型家族中基于Qwen2的最新版本视觉语言模型。
与Qwen-VL相比,Qwen2-VL具备以下能力:对各种分辨率和比例的图像的SoTA理解:Qwen2-VL在视觉理解基准上实现了最先进的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA等。
理解20分钟以上的视频:Qwen2-VL可以理解超过20分钟的视频,以进行高质量的基于视频的问答、对话、内容创建等。可以操作您的手机、机器人等的智能体:Qwen2-VL具有复杂推理和决策能力,可与手机、机器人等设备集成,实现基于视觉环境和文本指令的自动操作。
多语言支持:除了英语和中文之外,为了服务全球用户,Qwen2-VL现在支持理解图像内不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
我们通过Apache 2.0许可证开源了Qwen2-VL-2B和Qwen2-VL-7B,并发布了Qwen2-VL-72B的API!开源已集成到Hugging Face Transformers、vLLM和其他第三方框架中。
希望您喜欢!
性能我们在六个关键维度上评估了我们模型的视觉能力:复杂的大学水平问题解决能力、数学能力、文档和表格理解能力、多语言文本图像理解能力、一般场景问答能力、视频理解能力和基于智能体的交互能力。
总体而言,我们的72B模型在大多数指标上都表现出顶级性能,甚至经常超过GPT-4o和Claude 3.5-Sonnet等闭源模型。值得注意的是,它在文档理解方面表现出了显著的优势。
在7B规模上,我们设法保留了对图像、多图像和视频输入的支持,以更具成本效益的模型尺寸提供具有竞争力的性能。具体来说,我们的模型在文档理解任务(如DocVQA)和图像的多语言文本理解方面表现出色,由MTVQA评估,建立了最先进的性能。
此外,我们很高兴推出一个更小的2B模型,针对潜在的移动部署进行了优化。尽管尺寸紧凑,该模型在图像、视频和多语言理解方面拥有强大的性能。与类似规模的其他模型相比,它在视频相关任务、文档理解和一般场景问答方面尤其出色。
模型能力1. 增强的识别能力Qwen2-VL现在拥有改进的对象识别功能,超越了植物和地标,可以理解场景中多个对象之间的复杂关系。
我们还显著提高了模型识别图像中手写文本和多种语言的能力,使其更容易被全球用户使用。图像显示了一堆彩色块,上面有数字。
以下是从上到下每个区块的颜色和数量:- 顶行(单个区块):蓝色,带有数字9- 第二行(两个区块):浅蓝色,数字7,绿色,数字8- 第三行(三个区块):紫色与数字4、粉色与数字5、浅绿色与数字6- 底行(四个区块):红色代表数字0,橙色代表数字1,黄色代表数字2,
浅绿色代表数字32. 视觉推理:解决现实世界问题在这次迭代中,我们显著提高了Qwen2-VL的数学和编码熟练程度。该模型不仅能够通过图像分析来解决问题,还可以通过图表分析来解释和解决复杂的数学问题。
长宽比严重失真的图像也可以被正确解释。此外,我们还加强了该模型从现实世界图像和图表中提取信息的能力,并提高了其指令遵循技能。视觉感知和逻辑推理的融合使模型能够解决实际问题,弥合抽象概念和有形解决方案之间的差距。
为了解决“矩阵中的蛇”问题,我们需要实现一个函数,该函数接受矩阵的大小n和命令列表,并在执行所有命令后返回蛇的最终位置。以下是解决这个问题的分步方法:初始化变量:- 将蛇的当前位置初始化为0。
- 将蛇的方向初始化为“RIGHT”(最初,蛇向右移动)。定义移动函数:- 创建一个函数来根据当前方向和矩阵的大小n移动蛇。- 相应地更新蛇的位置。处理命令:- 遍历命令列表中的每个命令。- 对于每个命令,更新蛇的方向和位置。
返回最终位置:- 处理完所有命令后,返回蛇的最终位置。
以下是实现解决方案的Python代码:class Solution:def finalPositionOfSnake(self,n:int,commands:List[str]) -> int:
# 初始化变量 position = 0 direction = "RIGHT" # 定义移动函数 def move_right():
nonlocal position position += 1 def move_down():nonlocal position position += n def move_left():
nonlocal position position -= 1 def move_up():
nonlocal position position -= n # 处理命令 for command in commands:if command == "RIGHT":move_right() elif command == "DOWN":
move_down() elif command == "LEFT":
move_left() elif command == "UP":move_up() # 返回最终位置 return position此代码定义了一个类Solution,其中包含方法finalPositionOfSnake,该方法接受矩阵的大小n和命令列表,
并在执行所有命令后返回蛇的最终位置。移动函数(move_right、move_down、move_left、move_up)用于根据当前方向更新蛇的位置。3. 视频理解和实时聊天除了静态图像之外,Qwen2-VL还将其能力扩展到视频内容分析。
它可以总结视频内容,回答与视频内容相关的问题,并实时保持持续的对话流,提供实时聊天支持。该功能使其能够充当个人助理,通过提供直接从视频内容中提取的见解和信息来帮助用户。4. 视觉智能体能力:函数调用和视觉交互
Qwen2-VL表现出作为视觉智能体的强大潜力,促进了类似于人类对世界感知的互动。- 该模型支持函数调用,使其能够利用外部工具通过破译视觉线索进行实时数据检索——无论是航班状态、天气预报还是包裹跟踪。
视觉解释与功能执行的集成提高了其实用性,使其成为信息管理和决策的强大工具。- 视觉交互代表着模仿人类感知的重大进步。通过允许模型与类似于人类感官的视觉刺激进行互动,我们正在突破人工智能感知和响应环境的能力的界限。
这种功能为更直观和身临其境的交互铺平了道路,Qwen2-VL不仅充当观察者,而且是我们视觉体验的积极参与者。当然,这个模型并不完美,并且有一些局限性,希望您能够理解。例如,该模型无法从视频中提取音频,其知识仅截至2023年6月。
此外,该模型在处理复杂指令或场景时无法保证完全准确,并且在涉及计