前言
隨著AI技術的不斷成熟和廣泛應用,已經逐漸成為各行各業用來提升生產力的重要工具。貨拉拉作為互聯網物流科技企業,過去幾年不斷深耕AI技術,推動物流行業的智能化發展,并在AI定價、AI營銷、AI客服、AI安防等多個領域取得顯著成就。
盡管AI技術已廣泛應用于貨拉拉的各大業務線,并顯著提升了運營效率,但在實際的AI模型開發過程中,我們仍面臨多重挑戰:例如,如何加快模型的開發和交付、提升算力資源利用率等。針對這些問題,我們構建了一套覆蓋數據處理、模型開發、訓練、部署、在線推理的全鏈路AI開發服務體系,并通過算力資源的統籌管理,打造了一個低門檻、高性能的一站式云原生AI開發平臺。
接下來將詳細介紹這些挑戰及其解決方案。
2
AI能力落地的挑戰
2.1
模型交付效率低
在技術發展初期,AI模型服務從需求提出,到模型開發訓練,再到交付上線的完整環節和流程如下圖所示:
模型生產交付流程復雜:整個流程涉及數據收集、處理、模型開發、訓練、部署等多個環節,往往需要跨平臺操作實現,增加了流程上的管理和協調的難度。
跨平臺導致的數據割裂:各環節和平臺之間的數據不共享,導致數據、代碼、模型文件需多次手動拷貝傳輸,尤其是當前大模型動輒幾十G的大文件,增加了操作復雜性和出錯風險。
環境配置無法跨平臺復用:多個平臺環節需要手動搭建相同的算法模型運行環境,重復工作多,拖慢整體進度。
2.2
算力資源利用率低
AI應用需要大量的算力資源,尤其是GPU資源,目前是由不同團隊各自維護管理,缺乏統一的資源管理和協調能力;算力資源按照機器維度進行分配,多機器之間算力資源使用率不均衡,整體資源利用率低;多模型服務共享同一節點的部署方式在一定程度上可以提升算力資源利用率,但是人工調度的方式,無法準確的把控資源冗余、實時調整資源大小,所以資源利用率有很大的提升空間。
3
海豚平臺介紹
豚平臺是一款面向算法和工程團隊而設計的低門檻、高可用的云原生AI開發平臺。平臺集成了數據處理、模型開發、訓練、部署與在線推理等模型交付的核心能力,實現了數據、模型和服務的一站式閉環,助力AI應用在貨拉拉的快速落地。
平臺架構:
3.1
一站式AI開發平臺
上圖展示了如何使用海豚平臺進行一個模型交付的流程。算法工程師只需在一個平臺內即可實現從數據準備、模型開發、訓練到部署的模型交付全過程,并且模型的元信息貫穿AI開發全生命周期,真正做到了一站式的云原生AI模型開發。
3.1.1 分布式存儲
了解決各個環節之間數據(數據集、模型、代碼)互通共享的問題,海豚平臺通過分布式存儲,實現了平臺內各環節直接勾選和使用相關數據的能力,無需反復的手動上傳和拷貝,打通了各個環節之間的數據孤島。
個人工作目錄:
個人工作目錄下的文件,通過PVC文件掛載技術,直達容器內部;個人工作目錄下的文件僅自己可見,并永久存儲。
模型訓練代碼和數據集掛載:
同樣在模型訓練時只需勾選需要的數據集和模型文件產出的掛載路徑,對應的數據集將直接掛載至模型訓練的容器內部,同時模型訓練后的模型文件將自動存放至個人工作目錄下。
3.1.2 鏡像管理
在容器技術中,鏡像是生成和運行容器的基礎,其具有環境一致性、可移植性和版本控制等特點。海豚平臺通過使用容器+鏡像的能力,有效解決了模型交付流程中模型運行環境重復搭建的問題。
平臺內置鏡像:
海豚平臺內置了多種常見的機器學習、深度學習、大模型相關的的開發和推理鏡像(如 Triton、TensorRT-llm、Vllm)
自定義鏡像:
同時平臺也支持算法工程師通過提交Dockerfile或者基于現有的鏡像添加依賴的方式構建自定義鏡像。
3.1.3 模型一鍵部署
海豚平臺通過 Deployment 實現模型服務的容器化部署,算法工程師只需配置模型的啟動命令、申請適當的算力資源,并選擇對應的模型運行鏡像環境,即可快速地完成模型服務的部署。同時面對突發流量,海豚平臺可一鍵完成快速的模型服務擴縮容。
1. 發布配置
2. 調整算力資源
3. 選擇鏡像和版本
4. 擴縮容
3.2
算力資源管理
3.2.1 算力資源池化
海豚平臺通過Kubernetes實現了算力資源統籌管理,根據不同的使用場景劃分了多個資源節點池,每個節點池支持多種類型的GPU機器,在實現算力資源統籌管理的同時,還確保了開發、訓練和推理環節的資源物理隔離。
3.2.2 算力分配多樣化
多服務共用一張卡:針對業務小模型應用場景,海豚平臺基于GPU共享技術,實現了細粒度算力資源管理分配,支持最小128Mi顯存單位的申請和釋放。
單服務占用多張卡:針對大模型應用場景,當單張卡的顯存不足時,海豚平臺支持通過分配多張顯卡支撐大顯存模型的部署。
3.2.3 算力資源自動回收
模型開發自動釋放機制:在模型開發過程中,用戶申請的算力資源存在閑置且未及時釋放的情況。為避免算力資源的浪費,平臺分配資源時限定了使用時長,到期未使用的情況下,平臺將自動釋放這些閑置資源。
3.3
穩定性建設
3.3.1 可觀測性
系統的可觀測性是指通過監控、日志和鏈路追蹤等手段,幫助快速發現并定位問題,為系統穩定性保駕護航。海豚平臺通過統一收集和分析集群、模型服務、網關系統的監控和日志數據,快速感知異常問題并及時通知負責人,確保問題及時感知和處理。
集群監控:
服務監控:
3.3.2 高可用建設
4
海豚平臺應用
4.1
通用場景解決能力
基于海豚平臺,結合貨拉拉的內部業務需求,我們整理并持續優化了通用場景的 AI 解決方案。平臺對圖像檢測、自然語言處理、語音合成識別等常見的 AI 能力進行了產品化封裝,業務方對這些能力無需再次開發可直接快速接入應用。
4.2
大模型應用市場
隨著大模型技術在自然語言處理、智能問答、文本和圖像生成等領域的廣泛應用,技術門檻高、計算資源消耗大的問題限制了其在各業務場景中的推廣和使用。針對這一痛點,海豚平臺打造了大模型應用市場,集成了豐富的預訓練模型,支持通用大模型的一站式快速部署與接入使用。
平臺還支持通過配置化方式進行模型微調、訓練和評估,簡化了大模型在各業務場景的應用流程,為其快速落地提供了強有力的支持。
5
海豚平臺未來規劃
海豚平臺已初步完成 AI 開發平臺能力的搭建,并成功支持了貨拉拉內部多個業務線的AI應用,實現了 AI 能力在多業務場景下的快速落地。接下來,我們將從以下幾個方面進一步提升平臺能力:
業務賦能:擴大 AI 能力在更多業務部門中的應用場景,為貨拉拉各業務線提供智能化支持,全面提升業務效能。
算力資源提升:進一步優化按需分配機制,提升GPU算力利用率,實現多場景下算力資源的高效分配與使用。
大模基礎設施完善:豐富開源大模型應用市場,支持多樣化的模型訓練與微調方式,提供更高性能的模型在線推理,為大模型的創新應用提供更強大的支持與保障。
2024LOG供應鏈物流 突破創新獎候選案例——上海歐力德物流科技有限公司
4833 閱讀2024LOG供應鏈物流?突破創新獎候選案例——科捷供應鏈有限公司
3119 閱讀2024LOG供應鏈物流?突破創新獎候選案例——中外運物流有限公司
2688 閱讀2024LOG供應鏈物流 突破創新獎候選案例——安得智聯供應鏈科技股份有限公司
2400 閱讀順豐、德邦發布春節服務公告:將加收資源調節費
2040 閱讀中郵無人機(北京)有限公司揭牌
1880 閱讀2024LOG供應鏈物流 突破創新獎候選案例——京東物流
1713 閱讀2024LOG供應鏈物流?突破創新獎候選案例——中國移動通信集團終端有限公司云南分公司
1514 閱讀剛上市就大跌,航空物流巨無霸市值已縮水211億
1514 閱讀聊聊2025年物流企業如何做營銷規劃
1499 閱讀