4月29日|阿里巴巴發佈Qwen3系列模型,這是Qwen系列大型語言模型的最新成員。旗艦模型Qwen3-235B-A22B在代碼、數學、通用能力等基準測試中,與DeepSeek-R1、OpenAI的(o1、o3-mini)、馬斯克的Grok-3和谷歌公司Gemini-2.5-Pro等頂級模型相比,表現出極具競爭力的結果。此外,小型MoE模型Qwen3-30B-A3B的激活參數數量是QwQ-32B的10%,表現更勝一籌,甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。
通義千問開源兩個MoE模型的權重:Qwen3-235B-A22B,一個擁有2350多億總參數和220多億激活參數的大模型,以及Qwen3-30B-A3B,一個擁有約300億總參數和30 億激活參數的小型 MoE 模型。此外,六個Dense模型也已開源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0許可下開源。
Qwen3 模型支持兩種思考模式:1、思考模式。在這種模式下,模型會逐步推理,經過深思熟慮後給出最終答案。這種方法非常適合需要深入思考的複雜問題。2、非思考模式,在此模式中,模型提供快速、近乎即時的響應,適用於那些對速度要求高於深度的簡單問題。
新聞來源 (不包括新聞圖片): 格隆匯