在過去,訓練一款高性能視覺大模型,往往需要承擔高昂成本與復雜工程壓力。9月底,靈感實驗室與LMMs-Lab聯合推出的LLaVA-OneVision-1.5徹底改寫了這一現狀。
這款具備視覺理解、圖文對話能力的8B規模多模態模型,僅用128張A800GPU4天時間便完成預訓練,且在公開基準測試中性能媲美大模型,印證了「非堆量式」性能提升的技術價值。
這一突破的背后,不僅有百度百舸AI計算平臺的高性能AI基礎設施支撐,更有平臺內置的AIAK訓練框架提供的工程提效能力——從適配主流模型架構到多維度的分布式訓練加速優化,共同構成模型高效落地的關鍵保障。
更值得行業關注的是,LLaVA-OneVision-1.5打破了傳統開源「僅放權重」的核心局限。傳統模式下,僅開放模型權重相當于給開發者「成品黑箱」:既看不到訓練數據的來源與篩選邏輯,也不清楚超參設置、并行策略等關鍵配置,更沒有數據清洗、評測驗證的流程參考,開發者只能「拿來用」,難以根據自身需求優化迭代,甚至無法復現模型性能,中小團隊想基于此創新更是無從下手。
而作為業界首批實現「全流程開源」的多模態模型之一,LLaVA-OneVision-1.5完整開放了85M預訓練+22M指令的全場景數據、超參與并行策略等訓練配置、數據清洗與評測日志等優化細節,更提供一鍵跑通的復現路徑。
這種開放模式讓研究者、企業、高校團隊可直接重構、驗證與擴展模型,真正推動多模態AI從「巨頭專屬」變為全行業可復用、可創新的公共資產。
1.LLaVA-OneVision-1.5:以高性能+低成本突破,全流程開源推動多模態AI普惠化
LLaVA-OneVision-1.5的領先性,不僅體現在性能指標上,更在于它以高質量的數據、簡潔高效的模型架構、緊湊的訓練策略與工程優化,構建出高性能+低成本的多模態模型新范式,全流程開源更放大其普惠價值。
高質量數據:兼顧覆蓋、均衡與任務泛化
構建85M預訓練數據+22M指令數據矩陣,融合8大異構來源覆蓋圖像、文檔、OCR、數理推理等場景;通過概念均衡采樣補充稀有概念、剔除噪聲,避免模型偏科,確保跨模態任務泛化能力。
目前,這兩類核心數據集已隨開源同步開放,開發者無需重新采集標注,可直接用于模型訓練或優化迭代,省去傳統僅開放權重模式下無數據可用的痛點。
簡潔高效的模型架構:自研RICE-ViT視覺編碼器兼顧細節感知與訓練效率
自研RICE-ViT視覺編碼器,準確捕捉表格單元格、文檔小字等細粒度信息;搭配輕量化視覺-語言對齊層,簡化跨模態融合鏈路,既保證看得清,又降低訓練負載,實現感知精度與效率雙優。
該架構的設計細節、代碼實現已納入開源包,不同于傳統僅開放權重下架構細節模糊的問題,即使是中小團隊,也能基于此快速搭建多模態模型基礎框架,無需從零研發復雜結構。
緊湊的三階段訓練策略:讓模型高效成長
采用「圖文基礎對齊-均衡知識注入-指令實戰強化」三階段訓練,目標明確無冗余迭代,加速模型從「看懂」到「會用」的能力成長,為低成本訓練奠定基礎。
訓練階段的超參設置、任務劃分、迭代節奏等關鍵信息,已通過開源腳本完整記錄——對比傳統僅開放權重下,訓練過程不可追溯的局限,開發者可按步驟復現訓練過程,甚至根據自身需求微調策略,大幅縮短研發周期。
工程優化:以效率提升實現成本突破
通過離線數據打包(11倍padding壓縮)、混合并行訓練策略等優化算力分配,128張A800GPU僅用4天完成8B模型預訓練,印證了算法與工程協同,高性能與低成本可兼得。
而實現這一優化的工具(如數據打包腳本、并行策略配置文件)均已開源,區別于傳統僅開放權重下,工程優化經驗無法復用的問題,開發者可直接復用這套工程方案,在自有算力資源上實現效率躍升,無需重復投入精力攻克工程難題。
2.百度百舸AI計算平臺:為效率提供底層動力
LLaVA-OneVision-1.5的突破,離不開百度百舸從「高性能AI基礎設施」到「工程提效」的全棧支撐,為大模型提供了從算力基礎設施到訓練系統的端到端能力,幫助團隊在有限預算下實現效率。
高性能基礎設施:為大模型訓練提供穩定底座
LLaVA-OneVision-1.5的訓練依托于百舸平臺提供的GPU計算集群。在128張A800GPU的分布式環境下,百舸通過高帶寬互聯架構與彈性調度系統,實現了算力利用率與吞吐率的大化,讓8B規模模型在4天內完成85M樣本全參數訓練成為現實。
全鏈路工程提效:AIAK訓練框架加速多模態大模型任務
在模型訓練層面,LLaVA-OneVision-1.5研發團隊深度依托百度百舸平臺提供的AIAK-Training-LLM訓練框架。該框架全面支持多模態模型在不同訓練階段的需求,通過混合并行策略、通信計算重疊(communicationoverlap)、數據打包(datapacking)等加速技術,全方位提升了訓練過程的流暢性與資源利用效率。得益于此,LLaVA-OneVision-1.5的訓練效率實現數倍提升,訓練成本大幅降低,為模型的快速迭代奠定了堅實基礎。
AIAK-Training-LLM基于Megatron打造,是百度百舸為大模型訓練場景量身定制的AI加速工具,致力于幫助開發者高效開展大規模分布式訓練,顯著提升訓練性能與資源利用率。
AIAK目前已全面支持主流模型場景的預訓練與微調,涵蓋大語言模型、多模態理解模型、視頻生成模型等,兼容包括Qwen系列、LLaMA系列、DeepSeek系列、QwenVL、InternVL、QianfanVL、LLaVA-OneVision(LLaVAOV)、Wan系列等在內的主流開源模型。不僅如此,用戶也可基于AIAK靈活構建自定義模型架構,并高效開展訓練任務。
在性能層面,AIAK針對不同模型結構進行了深度優化,提供覆蓋混合并行策略、通信計算重疊(communicationoverlap)、高性價比顯存管理、FP8低精度訓練、算子融合、高性能優化器等在內的多項關鍵技術,各類模型MFU(ModelFLOPsUtilization)平均提升30%,實現業界的訓練性能。
AIAK已深度集成于百度百舸平臺,用戶可直接通過平臺獲取預置訓練鏡像。同時,圍繞LLaVA-OneVision-1.5的完整訓練代碼與配置已全面開源,未來還將持續開放更多工具鏈與優化能力,進一步降低大模型的研發門檻。
3.讓每個團隊都能打造屬于自己的AI模型
LLaVA-OneVision-1.5的成功,直觀體現了百度百舸的「快穩省」的核心價值——不僅提供高性能AI基礎設施筑牢算力底座,更以工程提效能力為客戶打通「數據處理-模型訓練-效率調優」全流程,大幅縮短訓練周期、降低研發成本。
如今,無論是資源有限的研究機構、追求效率的企業團隊,還是探索創新的初創開發者,都能在百舸平臺輕松開啟AI模型研發:快速搭建高性能訓練環境,借助AIAK工具鏈實現多模態訓練加速,更可復用LLaVA-OneVision-1.5的開源方案,在可控成本下迭代出貼合自身業務場景的專屬AI模型。
