新闻资讯

DeepSeek 发布Janus-Pro & JanusFlow :多模态理解与生成新突破!

DeepSeek 发布Janus-Pro & JanusFlow :多模态理解与生成新突破!

  来源:Safphere

  ?DeepSeek 发布Janus-Pro & JanusFlow :多模态理解与生成新突破✨

  DeepSeek 团队正式发布两款多模态框架——Janus-Pro 和 JanusFlow!。以下为两款模型的详细介绍:

  ? Janus-Pro:解耦视觉编码,实现多模态高效统一

  Janus-Pro Teaser 1

  Janus-Pro 是一款统一多模态理解与生成的创新框架,通过解耦视觉编码的方式,极大提升了模型在不同任务中的适配性与性能。

  ✨ 技术亮点

视觉编码解耦

采用独立的路径分别处理多模态理解与生成任务,有效解决视觉编码器在两种任务中的功能冲突。

  统一 Transformer 架构

使用单一的 Transformer 架构处理多模态任务,既简化了模型设计,又提升了扩展能力。

  高性能表现

多模态理解:模型性能匹配甚至超越任务专用模型。

图像生成:高质量图像生成能力,适配 384x384 分辨率,满足多场景需求。

  ? 模型细节

视觉编码器:采用 SigLIP-L[1],支持 384x384 分辨率输入,捕捉图像细节。

生成模块:使用 LlamaGen Tokenizer[2],下采样率为 16,生成更精细的图像。

基础架构:基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 打造。

  Janus-Pro Teaser 2

  Janus-Pro 的架构设计结合了灵活性与高效性,可适配视觉问答、图像标注等多模态场景,展现了未来多模态技术的强大潜力!

  **? JanusFlow:融合生成流与语言模型,重新定义多模态 **

  JanusFlow Teaser

  JanusFlow 是一款通过生成流(Rectified Flow)与自回归语言模型融合实现统一的框架。它不仅在理解任务中表现优异,还能生成高质量图像,展现了框架设计的极简与强大。

  ✨ 技术亮点

架构简约且创新

无需复杂改造,直接将生成流融入大语言模型框架,简化了多模态建模流程。

图像生成能力优越

结合 Rectified Flow 与 SDXL-VAE[3],实现高质量 384x384 图像生成,广泛适配不同应用场景。

高灵活性与可扩展性

支持多任务扩展,成为统一多模态框架的优秀选择。

  ? 模型细节

视觉编码器:同样采用 SigLIP-L[4],确保图像细节捕捉能力。

生成模块:基于 Rectified Flow 与 SDXL-VAE,生成精细度更高的图像。

基础架构:构建于 DeepSeek-LLM-1.3b-base,结合预训练与监督微调后的 EMA 检查点,性能表现卓越。

  JanusFlow 架构

  JanusFlow 的设计旨在为研究人员与开发者提供一种极简但强大的多模态解决方案,助力生成与理解任务的技术进步!

  ? 模型性能总结

模型名称

多模态理解性能

图像生成能力

灵活性与扩展性

Janus-Pro

超越专用模型,解耦更高效

优异生成能力,支持多场景应用

高度灵活,架构统一设计

JanusFlow

大语言模型与生成流高效融合

高质量生成,适配 384x384 分辨率

极简架构,灵活性更强

  两款模型均展现了前沿性能与设计创新,为多模态领域带来突破性进展!

  ? 快速上手

  两款模型已开源,开发者可通过以下链接获取更多信息并快速部署:

Janus-Pro Github 仓库[5]

JanusFlow Github 仓库[6]

  此外,详细的使用教程与示例也已在仓库中提供,帮助用户更快上手!

  ? 开源协议

代码:遵循 MIT License[7]。

模型:需遵守 DeepSeek 模型协议[8]。

  ? Janus 系列模型为多模态领域带来全新启发,期待它在更多场景中创造价值! ?

  相关链接

  [1] 

  SigLIP-L: https://huggingface.co/timm/ViT-L-16-SigLIP-384

  [2] 

  LlamaGen Tokenizer: https://github.com/FoundationVision/LlamaGen

  [3] 

  SDXL-VAE: https://huggingface.co/stabilityai/sdxl-vae

  [4] 

  SigLIP-L: https://huggingface.co/timm/ViT-L-16-SigLIP-384

  [5] 

  Janus-Pro Github 仓库: https://github.com/deepseek-ai/Janus

  [6] 

  JanusFlow Github 仓库: https://github.com/deepseek-ai/Janus

  [7] 

  MIT License: https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-CODE

  [8] 

  DeepSeek 模型协议: https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL

  • 比亚迪巴西工厂涉非法招工?外交部:愿继续同巴方加强各领域交流合作
  • 南极人杀回线下
  • 美芯晟光学传感器将迎来快速增长阶段,赋能端侧AI+低空经济
  • 能猫债发行量近2000亿 人民币跻身前三大贸易融资货币
  • 奥比中光股价创历史新高!这家公司高位减持,持有股份浮盈约14亿元
  • 天价鸡蛋的日子快到头了吗?美国蛋价止步56连涨
  • 小米第三季度总收入925亿元,汽车等创新业务收入97亿元
  • 外媒:特朗普签署行政令,称将为美国建造“铁穹”导弹防御系统
  • 吴向东谈美食:不要太辣、不要用太多调味品,否则对肠胃和健康有很大影响
  • 美股大跌拖累油价创近四周新低,后市或剑指100日均线?
  • 特朗普2.0下的中美欧三角关系
  • 重磅!广州拟出入户新政:广州购房并缴社保满1年可落户
  • DeepSeek 发布Janus-Pro & JanusFlow :多模态理解与生成新突破!的相关内容

    关键词: