亚洲资本网 > 资讯 > 国内 > 正文
阿里云推大规模视觉语言模型开源,支持中英文多种语言
2023-08-27 21:33:09来源: 中关村在线


(资料图片)

阿里云于8月25日推出了大规模视觉语言模型Qwen-VL,该模型已在ModeScope开源。此前,阿里云已经开源了通用模型Qwen-7B和对话模型Qwen-7B-Chat。Qwen-VL是一款支持中英文等多种语言的视觉语言模型,相较于此前的视觉语言模型,除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为448,此前开源的视觉语言模型通常仅支持224分辨率。官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于语言模型的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于GPT-4打分机制的测试集“试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源视觉语言模型最好结果。

关键词:

专题新闻
  • 开了30年,上海明星商场关店在即!“关门活动”引来抢购潮,11年前老顾客回流,店员:客流至少增了四五倍
  • 众泰汽车股东户数增加6.25%,户均持股7.76万元
  • 成都车展丨主打时尚、科技 全新伊兰特上市 9.98万元起
  • 中邮证券给予中国铝业买入评级,全产业链深化优势,降本增效成效明显
  • 旧动能助空头 新动能刺激买盘 “铜博士”何去何从?
  • 国家体育总局冬运中心主任倪会忠被查

京ICP备2021034106号-51

Copyright © 2011-2020  亚洲资本网   All Rights Reserved. 联系网站:55 16 53 8 @qq.com