一种生成模型:能够从单张图像生成高分辨率和多视角一致的人体,并提出了有效的训练策略。 一种扩散Transformer架构:专为增强多视角生成和视角控制而设计。 一种注意力偏置技术:能够在推理时生成比训练时多5倍以上的视角。 一种新颖的3D一致性指标 ...
业界领先的文本生成图像和视频能力,在多个基准测试中创下新纪录。 创新性地引入 Rectified Flow Transformer,提高图像-视频的联合生成质量。 构建大规模高质量数据集,结合 MLLM & LLM 提高文本描述质量。 优化计算效率与训练稳定性,支持大规模分布式训练 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果