|
小红书 aigc 团队正式发布全新布局可控图像生成框架 instanceassemble,专为解决高难度、多对象复杂场景下的 layout-to-image 生成任务而设计。
该框架采用级联式建模架构,将文本语义理解与空间布局约束分阶段协同处理,并创新性地提出 Assemble-Attention 机制,显著增强模型在密集实例、多目标共存布局中的空间感知能力与像素级对齐精度。
此外,InstanceAssemble 仅需极小规模的 LoRA 微调(参数量占比:SD3-Medium 仅 3.46%,Flux.1 仅 0.84%),即可在不损害原始基础模型性能的前提下,高效支持文本描述 参考图像的双模态联合控制。团队同步构建了面向高密度布局的 DenseLayout 新型评测基准,并提出具备强可解释性的布局对齐评估指标 LGS,全面提升布局一致性评估的准确性与可信度。 Figma Slides Figma Slides 是 Figma 发布的PPT制作和演示文稿生成工具,可以帮助创建、设计、定制和分享演示文稿 下载
实验结果表明,InstanceAssemble 在各类复杂布局测试中展现出优异的稳定性与泛化能力,图像生成质量与布局控制精度均处于当前行业前沿水平。 论文标题:InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention 源码地址:点击下载 |




Figma Slides 















