1. MLOps是什么?
MLOps(Machine Learning Operations)是面向機器學習項目的研發(fā)運營管理體系,目的是連接業(yè)務團隊、AI團隊和運營團隊,建立一套標準化的模型開發(fā)、部署及運營流程,來管理機器學習項目的全生命周期。
Google 的團隊一直在對構建基于 ML 的系統(tǒng)所帶來的技術挑戰(zhàn)進行大量研究。 一篇關于機器學習系統(tǒng)中隱藏的技術債務的 NeurIPS 論文表明,開發(fā)模型只是整個過程的一小部分。 許多其他流程、配置和工具將被集成到系統(tǒng)中。如下圖所示:

因此MLOps的核心價值在于,解決機器學習項目角色間溝通壁壘。ML項目研發(fā)過程中各角色之間(業(yè)務人員、AI工程師、數(shù)據(jù)科學家、運維工程師等)存在著天然鴻溝,而打破溝通屏障,構建暢通的協(xié)作平臺,降低合作成本,是讓項目順利開展的前提。同時使AI工程師不用再淪陷于處理繁瑣的模型更新和維護等工作,而可潛心鉆研更有價值的內容。
2. MLOps的發(fā)展趨勢
MLOps是機器學習項目走向規(guī)模化應用的有效途徑,通過持續(xù)訓練、持續(xù)集成、持續(xù)部署、持續(xù)監(jiān)控等多個自動化循環(huán)流程,大大減少開發(fā)周期,提升交付質量,降低人員依賴,提高研發(fā)效能,推動挖掘更多元化的業(yè)務價值。
借鑒DevOps精髓,MLOps從需求到模型維護的全鏈路,以及模型開發(fā)及訓練的子鏈路,和模型部署及監(jiān)控的子鏈路,都秉承著持續(xù)閉環(huán)的全生命周期管理模式。
持續(xù)訓練CT,實驗階段模型的持續(xù)訓練能大大降低AI工程師時間成本,上線模型的持續(xù)訓練能提高模型服務質量,及時應對數(shù)據(jù)漂移和內容漂移等風險。
持續(xù)集成CI和持續(xù)部署CD,以達到隨時隨地輕松部署ML模型目的。
持續(xù)監(jiān)控CM,持續(xù)開展線上的模型和業(yè)務監(jiān)控,根據(jù)監(jiān)控報警開展模型重復訓練和更新,維持和提高模型推理質量,持續(xù)創(chuàng)造高水準業(yè)務價值。
流水線Pipelines,數(shù)據(jù)處理流水線、模型開發(fā)流水線、集成交付流水線的構建,最大程度提高自動化水平,高效率實現(xiàn)ML項目全生命周期管理。
特征管理、算法管理、模型管理,通過對特征、算法和模型的存儲及管理,最大限度發(fā)揮各類資產(chǎn)的價值,減少重復造輪子的組織級成本,提高統(tǒng)籌管理效能。
版本管理,模型的版本管理即對數(shù)據(jù)、算法、模型等資產(chǎn)完整性及可追溯性的集中管理,能隨時重現(xiàn)任何時刻的模型快照。
自動化測試,集成自動測試工具,提高測試的自動化水平,包括組件測試、數(shù)據(jù)驗證、模型驗證等,進而提高全鏈路持續(xù)化水平。
工程化使懸在云端的AI夢想終于落地變成現(xiàn)實,而MLOps是工程化助推劑。未來MLOps的發(fā)展將在流水線間的連通性、模型線上自更新、資源伸縮性管理、模型自動調參、模型可解釋性、模型安全性及公平性等方面得到進一步的探索和實踐。
人工智能已走入千家萬戶,MLOps走入千家萬企已指日可待,未來可期。
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
關于億道電子
億道電子技術有限公司(英文名稱:Emdoor Electronics Technology Co.,Ltd)是國內資深的研發(fā)工具軟件提供商,公司成立于 2002 年,面向中國廣大的制造業(yè)客戶提供研發(fā)、設計、管理過程中使用的各種軟件開發(fā)工具,致力于幫助客戶提高研發(fā)管理效率、縮短產(chǎn)品設計周期,提升產(chǎn)品可靠性。

歡迎關注“億道電子”公眾號
了解更多研發(fā)工具軟件知識