Sophon MLOps
AI能力運營平臺
統一納管
/
統一運維
/
統一監控
/
統一應用


產品簡介
Sophon MLOps是基于云原生架構構建的企業級AI能力運營平臺,通過統一納管、統一運維、統一應用、統一監控,在機器學習模型全生命周期中賦予企業客戶易用、高效且安全可靠的AI能力運營服務,協助客戶規模化管理日益增長的機器學習模型,提升模型使用效率,降低模型管理成本,控制模型生產環境風險。
Sophon MLOps能提供什么?
服務管理
涵蓋監控、測試、審計和評估等模型服務的全方位管理——支持實時監控模型服務的運行狀態;支持快速測試并驗證服務可用性;支持獨立查看各服務的全量監控指標;支持查看模型服務的性能評估報告,為模型迭代提供參考依據。

服務推理
提供可視化操作界面,流程化快速構建支持XGBoost、MLflflow、TensorFlow、PyTorch、Scikit-learn、Spark-MLlib等多種算法框架的模型服務推理圖,并支持自定義配置包含多模型的復雜推理邏輯,大幅節省了模型配置成本。

服務發布
零代碼部署模型服務,并支持自定義配置彈性伸縮策略、多版本流量分配策略,以及推理圖各節點CPU、GPU、內存資源的按需分配,輕松實現模型服務多實例負載均衡、灰度發布和A/B測試。

模型管理
幫助用戶統一納管多源異構的模型文件,通過規范化的集成管理,實現統一部署大規模機器學習模型,大幅降低模型管理成本。


服務鏡像
無縫銜接Sophon Base中的模型鏡像,支持使用MLOps快速部署Base中訓練好的機器學習模型;同時支持接入其他訓練平臺打包生成的模型容器鏡像,并在MLOps中得到統一納管、運維和監控。


為什么選擇Sophon MLOps?
規模化的集成管理
統一納管多源異構的模型文件,通過規范化集成管理,實現統一部署大規模機器學習模型,從而幫助用戶大幅降低模型管理成本。
高效模型推理服務
使用圖形交互的方式,幫助用戶流程化快速構建服務推理圖,并支持自定義配置包含多模型的復雜推理邏輯,及可視化快速部署模型應用,簡化了模型配置和部署的復雜流程。
多維度監控及評估
實時監控模型服務的運行狀態,幫助用戶控制模型生產環境風險;通過多維度評估模型預測效果,為用戶后續迭代優化模型提供重要參考。
隱私安全高度保障
提供多種用戶權限控制,滿足不同團隊或用戶角色對集群環境、資源及系統功能的限制需求;同時保障用戶間私密數據的信息隔離;支持對模型部署環節的開啟審批流程,控制服務資源利用。
應用案例

客戶需求
○ 為滿足監管合規要求,同時提升總分行模型的管理效率,需要對模型全生命周期進行統一管理
○ 行內積累了大量來自不同算法框架的AI模型,但大都分散在多個不同的業務部門
○ 各部門的模型部署缺乏統一的流程,且需要配置大量的參數,導致模型部署周期過長、配置成本增高且模型研發及應用敏捷性降低

解決方案
○ 使用Sophon MLOps搭建全行統一的AI模型管理平臺,快速接入行內積累的多源異構模型
○ 利用MLOps搭建模型應用標準化流程,統一構建模型推理邏輯,并實現模型的快速部署
○ 在MLOps中持續監控所有已上線的模型服務,實現統一運維,并評估模型預測性能,確保模型預測的準確性且模型運行的穩定性

項目成果
成功解決了異構模型的管理問題,集成了全行來自多種算法框架的數百個機器學習模型
模型應用的平均部署時間及模型配置成本均大幅降低;
支持上百個模型預測服務同時在線,且單條數據實現毫秒級響應
打通了模型全生命周期流程,使模型的平均迭代周期顯著縮短
星環科技,構建明日數據世界