在線學習算法
順序地根據(jù)歷史數(shù)據(jù)和可用信息做出預測或者決策的過程。它是人工智能和機器學習的一個重要分支領(lǐng)域。
傳統(tǒng)機器學習(統(tǒng)計學習)通常的工作方式是先獲得批量的訓練數(shù)據(jù)并且離線地學習數(shù)據(jù)的有意義的模式,最后將學習到的模型固定不變地應用于測試數(shù)據(jù)中。與之不同,在線學習過程中的數(shù)據(jù)是順序地提供的。在線學習的工作模式是循環(huán)往復地根據(jù)歷史數(shù)據(jù)和當前可用信息做出預測或者決策,收集反饋數(shù)據(jù)(可能只有部分信息)以改善系統(tǒng)自身性能,并且獲得相應獎勵或者承受相應懲罰。簡而言之,傳統(tǒng)機器學習采取的是“先學習后使用”的工作模式,而在線學習則是采用“邊學習邊使用”的工作模式。
除了工作場景和模式不同外,它們的理論假設(shè)和學習目標也有區(qū)別。統(tǒng)計學習一般假定數(shù)據(jù)是獨立同分布的,其目標是使得學習到的模型與真實模型在該數(shù)據(jù)分布下的性能差距盡可能地小。但是在線學習一般并不對數(shù)據(jù)的分布做出假設(shè),數(shù)據(jù)序列可以是確定性的、隨機的、甚至是對抗性的。最大化學習過程中的累積收益或者最小化累積懲罰是在線學習的一個自然目標。為了便于評價和分析在線學習算法的性能,人們提出了一個稱為悔(regret)的評價指標。它被定義為在線學習算法的累積收益(或者累積懲罰)與一直選取一個最優(yōu)的模型(在某個假設(shè)空間中)所取得的累積收益(或者累積懲罰)之差。一個好的在線學習算法應該是具有次線性的悔界,即隨著交互次數(shù)的增加,算法的性能逼近最優(yōu)模型的性能。