阿里巴巴千問3登頂全球權威開源模型榜,性能成本雙突破

發布日期:2025-05-06

2025年5月6日,國際權威大模型測評榜LiveBench公布了最新一期排名,阿里巴巴開源的新一代通義千問模型Qwen3(簡稱“千問3”)斬獲全球開源模型冠軍,并在指令遵循(Instruction Following)這一關鍵能力上超越o3 High、o4-Mini High、Gemini 2.5 pro等頂級閉源模型,位列全球第一。這一成就標志著中國在大模型技術領域的重大突破,也彰顯了阿里巴巴在AI技術研發上的雄厚實力。

LiveBench榜單由圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun)聯合紐約大學等機構推出,從數學、推理、編程、語言理解等多個復雜維度全面評估大模型,并因其采用動態更新的題庫而被譽為“全球首個無法作弊的模型基準測試”。在最新一期的LiveBench榜單上,千問3的表現與o4-mini、Claude3.7等頂尖閉源模型相當,并超越DeepSeek-R1取得了全球開源模型冠軍。同時,千問3還斬獲指令遵循這一細分領域的全球冠軍,說明其具備全球頂級的語言理解和生成能力。

千問3于4月29日凌晨開源,是國內首個“混合推理模型”,其參數量僅為DeepSeek-R1的1/3,性能全面提升的同時成本還大幅下降,引發大模型產業鏈連夜適配和接入浪潮。英偉達、英特爾、高通、聯發科、AMD、ARM、華為昇騰、壁仞科技等芯片平臺都已完成了千問3的適配,北上津杭等十余地算力平臺也已接入千問3。截至目前,阿里通義已開源200多個模型,全球下載量超過3億次,千問的衍生模型數量超10萬,遠超美國Llama,成為全球第一開源模型。

作為國內首個“混合推理模型”,千問3將“快思考”與“慢思考”機制融合于同一架構之中。對于簡單任務可快速作答,顯著降低算力需求;而對于復雜問題,則可通過多步驟深度分析給出更高質量的結果。這種創新設計使得千問3在保持高性能的同時,大幅降低了部署門檻。只需配備4張H20顯卡即可運行千問3的完整版本,其顯存占用也僅為同類性能模型的三分之一,極大提升了部署效率與實用性。

千問3在多個國際權威評測中均創下了開源模型的新紀錄。在奧數水平的AIME25測評中,千問3斬獲81.5分,刷新開源紀錄;在考察代碼能力的LiveCodeBench評測中,千問3突破70分大關,表現甚至超過Grok3;在評估模型人類偏好對齊的ArenaHard測評中,千問3以95.6分超越OpenAI-o1及DeepSeek-R1。這些成績充分證明了千問3在全球大模型領域的領先地位。

此外,千問3還提供了豐富的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斬獲同尺寸開源模型SOTA(最佳性能)。這使得千問3能夠靈活滿足不同場景下的多樣化需求,為開發者提供了更多的選擇空間。

阿里巴巴此次開源千問3,不僅推動了中國開源大模型的整體水平邁向全球第一,也為全球AI技術的發展注入了新的活力。未來,隨著更多開發者和企業接入千問3,我們有理由相信,這一國產大模型將在更多領域發揮重要作用,推動人工智能技術的廣泛應用和產業升級。