说明文档
UniPic 是由 Skywork 团队开发的下一代视觉大模型。它打破了传统 AI 只能“要么理解、要么生成”的隔阂,通过统一的建模范式,在单一架构下实现了顶尖的视觉感知、高质量图像合成以及细腻的图像编辑能力。
核心建模范式
UniPic 系列包含两种独特的建模路径:
- UniPic-1.0 (1.5B):采用统一自回归建模(Unified Autoregressive Modeling),让单个 Transformer 能够同时处理感知(理解)任务和合成(生成)任务。
- UniPic-2.0 系列:基于高效架构(Efficient Architectures)并结合扩散模型后训练(Diffusion Post-Training)。包含
SD3.5M-Kontext和MetaQuery变体,在保持理解能力的同时,实现了 SOTA 级的图像生成与编辑性能。
核心能力
-
文生图 (Text-to-Image Generation):
- 能够根据自然语言提示词生成高保真、细节丰富的图像。
- 得益于扩散后训练技术,生成结果在艺术性与指令遵循度上表现优异。
-
图像精准编辑 (Fine-grained Image Editing):
- 支持局部重绘 (Inpainting)、外延绘制 (Outpainting) 以及物体操控 (Object Manipulation)。
- 能够实现无缝的、符合逻辑的图像内容修改。
-
视觉理解 (Image Understanding):
- 具备强大的多模态推理能力,可以精准识别图像内容、回答视觉问题(VQA)并进行复杂的场景分析。
-
高效架构 (Efficient Architecture):
- 针对部署和精度进行了双重优化,在保持高性能输出的同时,兼顾了推理效率。
适用群体
- AI 研究者与开发者:探索“统一模型”架构(理解+生成)的前沿技术。
- 视觉创意工作者:需要在一个工具内完成从“理解参考图”到“修改细节”再到“全新生成”的全流程。
- 多模态应用集成商:寻找能够同时处理视觉问答和图像创作的高性能底座模型。

