免费人成a大片在线观看动漫_中文字幕在线观看二区_www一区二区三区_亚洲午夜精品福利_6080亚洲理论片在线观看_日韩小视频在线播放_麻豆国产欧美一区二区三区r_日韩欧美国产二区_手机av免费在线观看_成人一区福利

咨詢熱線:021-80392549

 QQ在線  企業微信
 資訊 > 人工智能 > 正文

一份關于機器學習“模型再訓練”的終極指南

2020/01/03412

【IT168技術】機器學習模型的訓練,通常是通過學習某一組輸入特征與輸出目標之間的映射來進行的。一般來說,對于映射的學習是通過優化某些成本函數,來使預測的誤差最小化。在訓練出最佳模型之后,將其正式發布上線,再根據未來生成的數據生成準確的預測。這些新數據示例可能是用戶交互、應用處理或其他軟件系統的請求生成的——這取決于模型需要解決的問題。在理想情況下,我們會希望自己的模型在生產環境中進行預測時,能夠像使用訓練過程中使用的數據一樣,準確地預測未來情況。

當我們將模型部署到生產中時,往往會假設未來將使用到的數據會類似于過去模型評估期間所使用的數據。具體來說,我們可能會假設,特征和目標的分布將保持相當的恒定。但是這種假設通常不成立。趨勢會隨著時間的推移而變化,人們的興趣會隨著季節的變化而變化,股票市場會起伏不定。因此,我們的模型必須適應這些變化。

世界是持續變化的,因此模型部署應視為一個連續的過程,而不是完成第一次部署之后就扭頭去開展下一個項目。如果機器學習團隊的工程師發現數據分布與原始訓練集的數據分布有明顯出入,則需要重新訓練模型。這個現象——通常被稱為模型漂移(model drift)——可以緩解,但是會帶來額外的開銷,如監視基礎設施、監督和流程等等。

在本文中,筆者想對模型漂移下定義,并討論如何去識別和跟蹤模型漂移。然后,我將描述如何重新訓練模型,來減輕漂移對預測性能的影響,并對應多久重新訓練一次模型做出建議。最后,我將介紹啟用模型重新訓練的幾種方法。

什么是模型漂移?

模型漂移是指,由于環境的變化違反了模型假設,而導致模型的預測性能隨時間而降低。模型漂移有點用詞不當,因為變化的不是模型,而是模型運行的環境。因此,概念漂移(concept drift)一詞實際上可能是一個更好的用詞,不過兩個術語都描述了相同的現象。

請注意,筆者對模型漂移的定義實際上包括幾個可以更改的變量。預測性能將下降,它將在一段時間內以某種速率下降,并且這種下降會歸因于違反建模假設的環境變化。在確定如何診斷模型漂移以及如何通過模型再訓練糾正模型漂移時,應考慮這些變量中的每一個。

如何跟蹤模型漂移?

目前業內已有多種識別和跟蹤模型漂移的技術。在介紹這些技術之前,值得一提的是,并沒有一種萬能的方法。不同的模型問題需要不同的解決方案,您可能有、也可能沒有相應的基礎架構或資源來利用某些技術策略。

模型性能降級

識別模型漂移的最直接方法是明確預測性能是否已下降,同時量化這種下降。測量實時數據上已部署模型的準確性是一個眾所周知的難題。之所以出現這種困難,部分原因是我們需要訪問生成的模型的預測和基本事實信號。出于以下這些原因,這可能無法實現:

·預測的數據在生成后沒有存儲——別讓這種事發生在你身上。

·預測已存儲,但是您無法訪問基本事實標簽。

·預測和標簽均可用,但不能結合在一起。

即使預測和標簽可以合并在一起,也可能需要一段時間才能使用標簽。例如一個可以預測下一季度收入的財務預測模型。在這種情況下,只有在該季度過去之后才能觀察到實際收入,所以直到那個時候你才能夠量化模型的效果。在此類預測問題中, 回填預測(即訓練模型,并根據過去的歷史數據生成預測)可以幫助您了解模型性能下降的速度。

正如Josh Wills 指出的那樣,在部署模型之前您可以做的最重要的事情之一就是試圖了解離線環境中的模型漂移。數據科學家應想辦法回答以下問題:“如果我使用六個月前的數據對這組特征進行訓練,并將其應用于今天生成的數據,那么這個模型比我一個月前未經訓練而創建并應用到今天的模型差多少呢?”。離線執行此分析,您可以估計模型性能下降的速度以及需要重新訓練的頻率。當然,這種方法的前提是要有一臺“時光機”來訪問過去任何時候的實時數據。

檢查訓練和實時數據的特征分布

由于隨著輸入特征的分布逐漸偏離訓練數據的分布,模型性能會下降,因此比較這些分布是推斷模型漂移的好方法。請注意,這里說的是推斷而不是檢測模型漂移,因為我們沒有觀察到預測性能的實際下降,而是“預計”會出現下降。在由于數據生成這一過程的性質,而無法觀察到實際基本事實的情況下,這會非常有用。

每個特征需要監視許多不同的東西,包括:

可能值的范圍

值直方圖

該功能是否接受NULL,如果是,則預期的NULL數量

能夠通過控制界面快速監控這些分布,是朝正確方向邁出的一步。當特征差異很大時,可以通過自動跟蹤訓練服務偏差并在特性差異顯著時發出警告,進一步實現這一點。

檢查特征之間的關聯

許多模型會假定特征之間的關系必須保持固定。因此,您還需要監視各個輸入特征之間的成對關聯。如您的ML測試分數是多少?ML生產系統的規范等等,可以通過以下方法實現:

監視特征之間的相關系數

訓練具有一兩個特征的模型

訓練一組模型,每個模型都刪除其中一個特征

檢查目標分布

如果目標變量的分布發生顯著變化,那么模型的預測性能幾乎一定會變差。《機器學習:技術債務高息信用卡》的作者指出,一種簡單而有用的診斷方法是跟蹤目標分布。與訓練數據的偏差可能意味著需要重新評估部署模型的質量,但請記住,“這絕不是一項全面的測試,因為它可以通過空模型來滿足,該模型可以簡單地預測標簽出現的平均值,而無需考慮輸入特征。”

模型再訓練到底是什么意思?

模型再訓練似乎是一個超負荷的操作,它是否只涉及到尋找現有模型架構的新參數?對于更改超參數搜索空間怎么樣?如何搜索不同的模型類型(RandomForest,SVM等)?我們可以包括新特征還是可以排除以前使用的特征?這些都是很好的問題,因此盡可能明確這些問題是非常重要的。要回答這些問題,重要的是直接考慮我們要解決的問題——也就是說,減少模型漂移對我們部署的模型的影響。

在將模型部署到生產數據之前,科學家需要經過嚴格的模型驗證過程,其中包括:

匯編數據集–收集來自不同來源(例如不同數據庫)的數據集。

特征工程–從原始數據中提取列,提高預測性能。

模型選擇–比較不同的學習算法。

錯誤估計–在搜索空間上進行優化,找到最佳模型并估計其泛化誤差。

此過程會產生一些最佳的模型,然后將其部署到生產中。由于模型漂移具體是指所選模型的預測性能由于特征/目標數據分布的變化而下降,因此模型再訓練不應該帶來不同的模型生成過程。確切地說,重新訓練只是指在新的訓練數據集上重新運行生成先前選擇的模型的過程。功能、模型算法和超參數搜索空間都應保持相同。可以這樣想,再訓練不涉及任何代碼更改,只涉及改變訓練數據集。

這并不是說模型的未來迭代不應包含新特征或不考慮其他算法類型/體系結構。只是說,這些類型的更改會產生完全不同的模型——在部署到生產環境之前,應該對它們進行不同的測試。根據您的機器學習團隊的成熟程度,理想情況下,此類更改將與A / B測試一起引入,以測量新模型對預先確定的興趣指標(例如用戶參與度或保留率)的影響。

應該多久重新訓練一次模型

到目前為止,我們已經討論了什么是模型漂移以及識別它的多種方法。于是問題就變成了,我們該如何補救?如果模型的預測性能由于環境變化而下降,解決方案是在反映當前實際情況的新訓練集上對模型進行重新訓練。那么,您應該多久重新訓練一次模型?如何確定新的訓練集?對于最困難的問題,答案是視情況而定。但如何視情況而定呢?

有時機器學習問題本身會給出何時需要重新訓練模型的建議。例如,假設您正在一家大學招生辦工作,并負責建立一個可以預測學生下學期是否會回來的學生流失模型。該模型將在期中后直接用于對當前學生群體進行預測。被確定有流失風險的學生將自動被納入輔導課程或其他干預措施。

下面我們思考一下這種模型的時間范圍。由于我們每學期一次批量生成預測,因此沒有必要再頻繁地重新訓練模型,因為我們將無法訪問任何新的訓練數據。因此,在觀察上學期的哪些學生退學后,我們可能選擇在每個學期開始時重新訓練我們的模型。這就是定期再訓練計劃的一個示例。從這個簡單的策略開始,往往是一個好辦法,但是您需要確定重新訓練的頻率。快速更改的訓練集可能需要您每天或每周進行一次訓練。較慢的發行版本可能需要每月或每年進行重新訓練。

如果您的團隊已經具備了監控上一節中所討論的度量標準的基礎設施,那么將模型漂移的管理自動化可能是有意義的。這個解決方案需要跟蹤診斷,然后在實時數據上的診斷與訓練數據診斷不同時觸發模型再訓練。但這種方法也有其自身的挑戰。首先,您需要確定一個發散的閾值,它將觸發模型再訓練。如果閾值太低,則您可能會過于頻繁地進行再訓練,從而帶來高計算成本。如果閾值過高,則可能會因為不經常進行再訓練,而導致生產中的模型偏劣質。這比看起來要復雜得多,因為你必須去確定,要收集多少新的訓練數據,才能代表世界的新狀態。在世界已經發生改變時,用一個訓練集太小的模型來代替現有的模型也是沒有意義的。

如果您的模型已經在對抗性環境中運行,則需要特別考慮。在諸如欺詐檢測這樣的設置中,對抗方會改變數據分布以使自己獲利。這些問題可以從在線學習中受益,在這之中,模型隨著新數據的出現而不斷更新。

如何重新訓練模型?

最后,但并非最不重要的一點,我們需要討論如何重新訓練模型。您用于模型再訓練的方法與您決定再訓練的頻率直接相關。

如果您打算定期去重新訓練模型,那么批量進行重新訓練就完全足夠了。這種方法涉及使用工作調度程序(例如Jenkins或Kubernetes CronJobs)定期地調度模型訓練過程 。

如果您具有自動模型漂移檢測功能,那么在識別出漂移時觸發模型重新訓練就很有意義。例如,您可能有定期的工作,將實時數據集的特征分布與訓練數據的特征分布進行比較。當識別出明顯的偏差時,系統可以自動安排模型再訓練以自動部署新模型。同樣,這可以通過諸如Jenkins的作業調度程序或使用 Kubernetes Jobs來執行。

最后,利用在線學習技術更新當前正在生產的模型可能也是有意義的。這種方法依賴于使用當前部署的模型去“播種”一個新模型。隨著新數據的產生,模型參數將使用新的訓練數據進行更新。

結論

一般情況下,將模型部署到生產環境時,機器學習模型的預測性能往往都會下降。因此,工程師必須通過設置特定于ML的監視解決方案和工作流來啟用模型重新訓練,從而為性能下降做好準備。雖然重新訓練的頻率因具體問題而異,但ML工程師可以從簡單的策略開始,隨著新數據的到來,該策略會定期對模型進行重新訓練,并發展為對模型漂移進行量化和做出反應的更復雜的過程。

關鍵詞:




AI人工智能網聲明:

凡資訊來源注明為其他媒體來源的信息,均為轉載自其他媒體,并不代表本網站贊同其觀點,也不代表本網站對其真實性負責。您若對該文章內容有任何疑問或質疑,請立即與網站(www.migqewy.cn)聯系,本網站將迅速給您回應并做處理。


聯系電話:021-31666777   新聞、技術文章投稿QQ:3267146135   投稿郵箱:syy@gongboshi.com

工博士人工智能網
商城
服務機器人
智能設備
協作機器人
智慧場景
AI資訊
人工智能
智能機器人
智慧城市
智慧農業
視頻
工業機器人
教育機器人
清潔機器人
迎賓機器人
資料下載
服務機器人
工博士方案
品牌匯
引導接待機器人
配送機器人
酒店服務機器人
教育教學機器人
產品/服務
服務機器人
工業機器人
機器人零部件
智能解決方案
掃描二維碼關注微信
?掃碼反饋

掃一掃,反饋當前頁面

咨詢反饋
掃碼關注

微信公眾號

返回頂部
韩国三级香港三级日本三级la| 成人免费观看的视频黄页| 亚久久伊人精品青青草原2020| 欧美日本韩国| 亚洲爆爽| 久久成人综合网| 国产伦精品一区三区视频| 国产精品免费精品自在线观看| 国产一区二区精品尤物| 亚洲精品中文一区不卡| 日韩综合| 一级毛片视频免费| 国产不卡在线播放| 日韩中文字幕一区| 国产麻豆精品免费密入口| 国产麻豆精品hdvideoss| 国产麻豆精品免费密入口| 成人影院久久久久久影院| 免费国产一级特黄aa大片在线| 欧美激情一区二区三区中文字幕| 日韩中文字幕在线亚洲一区 | 成人在免费观看视频国产| 99久久精品国产国产毛片| 韩国毛片基地| 美国一区二区三区| 国产高清视频免费| 99色播| 国产精品自拍在线| 国产视频一区二区在线观看| 国产精品123| 日韩男人天堂| 欧美1卡一卡二卡三新区| 国产亚洲免费观看| 成人影院久久久久久影院| 国产精品自拍亚洲| 高清一级片| 国产综合成人观看在线| 一级片片| 久久国产影院| 日韩专区一区| 国产国语对白一级毛片| 久久精品道一区二区三区| 精品久久久久久影院免费| 国产伦久视频免费观看视频| 成人影院久久久久久影院| 国产不卡在线播放| 美女免费黄网站| 高清一级做a爱过程不卡视频| 精品国产一区二区三区久久久狼| 国产麻豆精品hdvideoss| 国产91精品一区| 亚洲 国产精品 日韩| 青青久久网| 99久久精品国产国产毛片| 一级片片| 国产麻豆精品视频| 99久久精品国产国产毛片| 色综合久久天天综合观看| 日本伦理片网站| 国产综合成人观看在线| 国产福利免费观看| 午夜久久网| 国产国语对白一级毛片| 国产精品免费精品自在线观看| 国产成人精品综合在线| 日韩一级黄色大片| 欧美日本韩国| 午夜激情视频在线播放| 国产极品精频在线观看| 精品国产一级毛片| 麻豆网站在线看| 一级毛片视频免费| 欧美另类videosbestsex视频| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 美女免费精品视频在线观看| 高清一级片| 麻豆网站在线看| 国产亚洲免费观看| 国产视频久久久| 亚洲 国产精品 日韩| 天天做人人爱夜夜爽2020 | 免费毛片播放| 午夜在线亚洲| 国产成人啪精品| 日本特黄特色aaa大片免费| 青青久久网| 国产不卡在线看| 国产伦久视频免费观看视频| 一 级 黄 中国色 片| 欧美激情一区二区三区中文字幕| 天天做日日爱| 国产伦久视频免费观看视频| 天天色色色| 午夜欧美福利| 成人免费福利片在线观看| 毛片电影网| 亚洲 男人 天堂| 国产视频一区二区在线观看| 亚洲 男人 天堂| 国产网站在线| 精品视频在线观看视频免费视频| 亚洲 男人 天堂| 国产亚洲免费观看| 韩国妈妈的朋友在线播放| 久久精品免视看国产明星| 四虎久久影院| 久久成人综合网| 国产一区二区精品久久| 日韩在线观看视频网站| 99久久精品国产国产毛片| 成人高清视频免费观看| 免费的黄色小视频| 国产一区二区精品| 韩国毛片基地| 午夜精品国产自在现线拍| 在线观看成人网| 国产一区二区精品| 精品国产一级毛片| 麻豆系列 在线视频| 日本免费看视频| 日韩在线观看视频黄| 国产一区二区精品尤物| 免费国产一级特黄aa大片在线| 亚欧视频在线| 久久久成人影院| 99久久精品国产国产毛片| 亚洲爆爽| 韩国三级视频网站| 欧美1卡一卡二卡三新区| 久久99中文字幕| 久久精品免视看国产明星| 国产91精品一区| 韩国三级视频网站| 欧美另类videosbestsex视频| 国产高清在线精品一区二区| 亚欧成人毛片一区二区三区四区 | 精品国产一区二区三区免费 | 成人在免费观看视频国产| 亚洲爆爽| 免费毛片播放| 天堂网中文在线| 香蕉视频久久| 日日日夜夜操| 国产伦精品一区三区视频| 一级女性大黄生活片免费| 欧美大片a一级毛片视频| 国产精品自拍亚洲| 国产网站麻豆精品视频| 你懂的国产精品| 日本在线www| 免费国产在线观看不卡| 精品国产一区二区三区久 | 欧美日本韩国| 成人在免费观看视频国产| 天天色色色| 欧美a级片免费看| 天堂网中文在线| 欧美爱色| 国产福利免费观看| 国产精品1024永久免费视频| 韩国三级视频网站| 日韩男人天堂| 国产a视频| 日本免费看视频| 久久精品免视看国产明星| 黄视频网站免费观看| 久久成人综合网| 国产一区免费在线观看| 国产成a人片在线观看视频| 日本免费看视频| 欧美日本免费| 二级特黄绝大片免费视频大片| 日韩中文字幕一区| 国产伦精品一区三区视频| 精品美女| 欧美1卡一卡二卡三新区| 99色播| 成人a大片高清在线观看| 999久久狠狠免费精品| 九九精品影院| 国产网站麻豆精品视频| 国产网站免费视频| 可以免费看毛片的网站| 日韩欧美一及在线播放| 欧美爱爱网| 日韩专区第一页| 亚洲女人国产香蕉久久精品| 精品久久久久久综合网| 久久精品欧美一区二区| 精品国产三级a| 麻豆系列 在线视频| 青草国产在线| 一级毛片视频播放| 精品国产亚洲一区二区三区| 欧美激情伊人| 色综合久久天天综合绕观看| 亚洲精品久久久中文字| 国产亚洲精品成人a在线| 午夜在线影院| 精品在线观看国产|