DeepSeek 再度开源：用 Janus-Pro 撕开算力铁幕

时间：2025-03-22 00:43:01 栏目：新闻资讯浏览：1

　　来源：赛博禅心

　　今天是除夕，凌晨 1 点，我在北京的公寓里写算法。白天在中关村咖啡馆的喧嚣， AppStore 登顶的狂欢，仿佛已经是上个世纪的事情。　

　　DeepSeek 完全指南：这到底是怎样的存在？

　　此刻的屏幕上，不断翻出来新的消息：DeepSeek Janus-Pro 开源

　　让我们一起，来看看这旧年的最后一个惊喜　

　　这是一个多模态模型，名称来源于古罗马神话中的双面神“雅努斯”（Janus）：它同时面向过去与未来。当然，你也可以说，这代表了模型的两种能力——既要进行视觉理解，又要进行图像生成。

　　发布的地址在这：　

　　https：//github.com/deepseek-ai/Janus

　　https：//huggingface.co/deepseek-ai/Janus-Pro-1B

　　https：//huggingface.co/deepseek-ai/Janus-Pro-7B

　　同时发布的，还有一份技术文档，可以回复 Janus 获取这份文档。　

　　首先，我得承认，我对图像处理这块并不精通，所以如果有解读错误的地方，欢迎评论区指正。　

　　官方给了一些生成的效果图，明显强于 Janus 原版。虽比不上 Midjourney 那般艺术，但应为第一梯队。　

　　如果是对比 OpenAI 的 DALL-E 3，参数会领先不少，并且直接霸榜。

　　更不同于 OpenAI 的 DALL-E 只能画图，Janus 同时包含了多种能力：比如图像识别、地标识别、文字识别等。

　　图像识别能力，也就是所谓的读图　

　　地标识别能力，比如让他猜这张图片是在哪拍的　

　　图片通识 - 他知道很多的文化符号，比如 Tom and Jerry　

　　来识别图片中的文字　

　　当然，自然也能生成图片　

　　你会发现，这个模型不同于 4o 类型的模型 - 只能看，而是既能看，也能画。其原因，便是 Deep Seek 的这个模型，使用了解耦视觉编码技术。

　　在“理解通路”，它能迅速感知到图片的核心信息，并给出更准确、更专业的回答；

　　而在“生成通路”上，它便是一个艺术家，像 MidJourney 一样，去描绘笔触和色彩。　

　　至于这个模型是如何做到这些的，按报告说法，基于以下三条：　

更优化的训练策略： DeepSeek 团队改进了 Janus-Pro 的 “学习方法”，让模型训练过程更高效、更稳定。就像给学生制定了更科学的学习计划，让 Janus-Pro 能更快更好地掌握知识。

更海量的训练数据：为了让 Janus-Pro 见识更广阔的世界，DeepSeek 投入了前代模型三倍以上的训练数据！海量的数据就像丰富的教材，让 Janus-Pro “饱读诗书”，变得更加博学。

更大规模的模型： Janus-Pro 采用了更大规模的模型，参数量达到 70 亿。模型规模的扩大就像大脑容量的增加，让 Janus-Pro 拥有更强大的 “思考” 和 “处理信息” 的能力。

　　如果对详细信息感兴趣，可以回复 Janus 获取这份文档。　

　　再度看向屏幕，已是刚过四点：不久，就要天亮了

　　在我们的土地上，正传颂着一种新的叙事：不搞算力禁运，不搞实体清单，不用算力砌高墙，而以开源筑长阶，邀世界共赴星辰。

　　东方破晓，愿君行早。　

淳厚基金股权风波最新进展：上海证监会开展立案调查

印度对Meta罚款2540万美元并盯上其他科技巨头

【微聚焦】平度市确定打造凤台现代金融生态服务区

万顺集团控股1月28日上午起短暂停牌待刊发内幕消息

2024年1—11月甘肃经济运行情况

智能网联、反“内卷”、低空经济……从《政府工作报告》看汽车行业风向

沃尔沃汽车将几乎零成本收购Northvolt电池合资企业股份

北信瑞丰庞文杰：生物医药投融资回暖，CXO行业拐点已至

陈学东：颠覆性技术是发展新质生产力、实现高水平自立自强的重要模式

太平洋安信农险：指定郑凯为临时负责人

日本央行前副行长：日本央行料继续加息至1%或以上

中央气象台：全国农业气象周报（2024年11月25日）

DeepSeek 再度开源：用 Janus-Pro 撕开算力铁幕的相关内容

关键词：

<上一篇：格力文传发布微博辟谣“董明珠被停职审查”一事

>下一篇：阿里74亿卖银泰，谁亏谁赚？