探索财经奥秘,指引财富未来

腾讯开源混元文生图大模型训练代码

诗敏 2024-06-21 13:02:00
据最新消息,腾讯的混元文生图大模型(简称混元DiT模型)今日宣布开放其全部训练代码,并同步推出了混元DiT LoRA小规模数据集训练方案和ControlNet可控制插件。这一举措意味着全球开发者和创意人士能够利用混元DiT的代码进行个性化定制或改进,以构建自己的应用,推动技术创新和发展。特别地,作为中文原生模型,使用者可以直接使用中文数据和标签进行调优,无需额外翻译。
在此之前,腾讯混元已经升级并将其大模型开源,可在Hugging Face平台和GitHub上免费获取。作为首个中文原生DiT架构的文生图开源模型,它支持中英文双语输入和理解,开源仅一个月,已经在GitHub上收获了2.4千颗星,跻身热门DiT模型之列。
混元DiT此次开源还包括LoRA小规模数据集训练方案和ControlNet插件。LoRA是一种微调大型语言模型的技术,适用于文生图模型,使得用户能在少量数据下训练特定风格或特性的模型。例如,只需一张图片,开发者就能创建专属于个人的模型。ControlNet则提供了一种可控生成算法,用户可以通过添加条件精准控制图像生成。
自混元DiT开源以来,已获得众多开发者积极反馈,腾讯混元团队不断优化开源组件,致力于构建下一代视觉生成的开源生态系统。本月初,混元DiT发布了专用加速库,将推理速度提升75%,同时提升了模型的易用性,用户只需三行代码就能通过Hugging Face Diffusers调用模型,无需下载完整代码库。
值得一提的是,腾讯混元的文生图技术已广泛应用于素材创作、商品合成、游戏设计等多个业务场景。未来,随着技术的持续进步,混元DiT将为更多领域带来创新可能性。