智源发布原生多模态世界模型Emu3，实现图像、文本、视频大一统

2024-10-21 13:47:14

【智源发布原生多模态世界模型Emu3，实现图像、文本、视频大一统】智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。据了解，Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL 、LLaVA、OpenSora等知名开源模型。

最新搜索

涨停中国汽车 A股中信证券比特币特朗普新能源四连板三连板江淮汽车北汽蓝谷破净 st 哪吒汽车以旧换新越南欣旺达动力电池中信建投理想汽车中国平安美国大选降息三元电池广交会资产重组房贷黑神话：悟空半导体腾讯控股上证指数黑神话存量房贷利率 AI出海连板股稀土破净发孚能科技上交所存量房贷新能源汽车智能驾驶宁德时代 OpenAI 3000点泸州老窖中芯国际电池回收茅台股票交易异常波动大选寻呼机无人潜水器今日收评蜀道装备 AI模型公司绝地求生投票悟空存量房贷下调润和软件曲江文旅弹匣电池白马股茅台酒价贵州茅台