WAP手机版 RSS订阅 加入收藏  设为首页
gpk网址
当前位置:首页 > gpk网址

gpk网址:引入语音模态后的多模态预训练模型可以实现图像

时间:2022/9/19 16:31:04  作者:  来源:  浏览:36  评论:0
内容摘要:据报道,《子洞太初》三种模态相互转换生成的核心原理是将视觉、文本和言语的不同模态通过各自的编码器映射到统一的语义空间,然后利用多头自注意机制学习模态。它们之间的语义关联和特征对齐,形成多模态统一的知识表示;然后,利用编码后的多模态特征,通过解码器分别生成文本、图像和语音。王金桥说:“通俗地说,‘子洞太初’就是把不同形式...
据报道,《子洞太初》三种模态相互转换生成的核心原理是将视觉、文本和言语的不同模态通过各自的编码器映射到统一的语义空间,然后利用多头自注意机制学习模态。它们之间的语义关联和特征对齐,形成多模态统一的知识表示;然后,利用编码后的多模态特征,通过解码器分别生成文本、图像和语音。

王金桥说:“通俗地说,‘子洞太初’就是把不同形式的三模态内容转化为统一的多模态知识表示,然后用这种知识表示来再生三模态内容。这样,gpk网址‘图像产生声音’,‘声音产生图像’。”

同时,王金桥也表示,“子洞太初”有四个突破,有效帮助以多模态认知为核心的通用人工智能发展。

具体而言,首先是首次提出了一个多层次、多任务的跨模态自监督学习框架,支持从入口级到模态级和样本级的三层预训练自监督学习方法;模态数据语义的统一表示减少了数据收集和清理的成本;三是首次实现多模态理解和生成任务的统一建模,支持跨模态检索、多模态分类、语音识别、图像生成等理解和生成。四是首次实现无监督超越有监督方法,在5%-10%数据标注的基础上实现100%的监督学习效果

“与单模态和图文双模态相比,《子洞太竹》采用了图文声三模态大模型,可以灵活支持人工智能在整个场景中的应用。”王金桥表示:“‘子洞太初’还具有强大的多任务联合学习能力和无监督条件下不同领域的快速数据传输能力。引入语音模态后的多模态预训练模型可以实现图像-文本-声音-语义共同空间的表示和利用,并且可以直接实现三种模态的统一表示,为更广泛的下游任务提供模型基础支持。

本类更新

本类推荐

本类排行

本站所有站内信息仅供娱乐参考,不作任何商业用途,不以营利为目的,专注分享快乐,欢迎收藏本站!
所有信息均来自:百度一下 (gpk网址)