亚洲资本网 > 关注 > 正文
Hugging Face推开源多模态AI模型IDEFICS 支持图像、文本输入
2023-08-28 11:40:20来源: 站长之家


(资料图)

编程客栈()8月23日 消息:最近, Hugging Face 推出了一个名为 IDEFICS 的开源多模态 AI 模型,它可以接受图像和文本作为输入,并生成连贯的文本输出。

IDEFICS 是一个强大的视觉语言模型,拥有高达800亿的参数量,功能包括根据图像生成描述、回答相关问题以及根据多个图像生成叙述等。

IDEFICS 基于 DeepMind 开发的 Flamingo 模型,后者是一种目前最先进的视觉语言模型,但尚未对外开源。相比之下,IDEFICS 作为 Flamingo 的开源实现版本,其测试结果显示在各类图像理解任务上其表现与 Flamingo 相当。

为训练 IDEFICS,Hugging Face 利用了多种公开的数据集,还额外构建了一个包含1.4亿张图像的大规模图像-编程客栈文本数据集。

IDEFICS 有两个版本,包括90亿参数的基础版和800亿参数的大模型版,可以处理不同的应用场景。

IDEFICS 的推出为研究人员和开发者提供了js一个强大的开源视觉语言编程模型,相比专利系统如 GPT-3,它提供了更大的灵活性。同js时,IDEFICS 也显示出生成式模型处理多模态输入的潜力。

未来如果能进一步提升多模态理解和生成能力,将可以大幅推动诸如机器人、自动驾驶等多模态 AI 应用的发展。

项目网址:https://huggingface.co/spaces/HuggingFaceM4/idefics_playground

关键词:

专题新闻
  • 培养综合素质,科大讯飞AI学习机LUMIE 10系列让孩子在快乐中成长
  • 菏泽尧舜牡丹生物科技有限公司(关于菏泽尧舜牡丹生物科技有限公司简述)
  • 郑州“夏日招聘夜市”走进万达商圈|关注高校毕业生就业
  • 自首后,特朗普狂揽710万美元竞选资金
  • 汕尾陆河创新禁毒宣传形式,将禁毒宣传与足球相结合
  • 致命失误!米尔斯空砍21+5+6,两战46分创纪录,无缘两连胜

京ICP备2021034106号-51

Copyright © 2011-2020  亚洲资本网   All Rights Reserved. 联系网站:55 16 53 8 @qq.com