在線學習算法

順序地根據(jù)歷史數(shù)據(jù)和可用信息做出預測或者決策的過程。它是人工智能和機器學習的一個重要分支領(lǐng)域。

傳統(tǒng)機器學習（統(tǒng)計學習）通常的工作方式是先獲得批量的訓練數(shù)據(jù)并且離線地學習數(shù)據(jù)的有意義的模式，最后將學習到的模型固定不變地應用于測試數(shù)據(jù)中。與之不同，在線學習過程中的數(shù)據(jù)是順序地提供的。在線學習的工作模式是循環(huán)往復地根據(jù)歷史數(shù)據(jù)和當前可用信息做出預測或者決策，收集反饋數(shù)據(jù)（可能只有部分信息）以改善系統(tǒng)自身性能，并且獲得相應獎勵或者承受相應懲罰。簡而言之，傳統(tǒng)機器學習采取的是“先學習后使用”的工作模式，而在線學習則是采用“邊學習邊使用”的工作模式。

除了工作場景和模式不同外，它們的理論假設(shè)和學習目標也有區(qū)別。統(tǒng)計學習一般假定數(shù)據(jù)是獨立同分布的，其目標是使得學習到的模型與真實模型在該數(shù)據(jù)分布下的性能差距盡可能地小。但是在線學習一般并不對數(shù)據(jù)的分布做出假設(shè)，數(shù)據(jù)序列可以是確定性的、隨機的、甚至是對抗性的。最大化學習過程中的累積收益或者最小化累積懲罰是在線學習的一個自然目標。為了便于評價和分析在線學習算法的性能，人們提出了一個稱為悔（regret）的評價指標。它被定義為在線學習算法的累積收益（或者累積懲罰）與一直選取一個最優(yōu)的模型（在某個假設(shè)空間中）所取得的累積收益（或者累積懲罰）之差。一個好的在線學習算法應該是具有次線性的悔界，即隨著交互次數(shù)的增加，算法的性能逼近最優(yōu)模型的性能。

8509

免責聲明：本站詞條系由網(wǎng)友創(chuàng)建、編輯和維護，內(nèi)容僅供參考。

以上內(nèi)容均為商業(yè)內(nèi)容展示，僅供參考，不具備專業(yè)問題解決服務，

如果您需要解決具體問題（尤其在法律、醫(yī)學等領(lǐng)域），建議您咨詢相關(guān)領(lǐng)域的專業(yè)人士。

如您發(fā)現(xiàn)詞條內(nèi)容涉嫌侵權(quán)，請通過 948026894@qq.com 與我們聯(lián)系進行刪除處理！

上一篇：智慧城市大數(shù)據(jù)智能檢索

下一篇：貝葉斯學習

在线综合亚洲欧洲综合网站,亚洲熟妇无码八av在线播放,亚洲人成无码网www,亚洲精品久久久久一区二区,亚洲精品乱码久久久久久久久久久久

在線學習算法

熱門標簽