[Submitted on 19 Jun 2020 (v1), last revised 22 Jun 2020 (this version, v2)]
回復 ts13 獲取論文及項目源碼
摘要
在過去十年中,時間序列研究引起了很多興趣,尤其是在時間序列分類(TSC)和時間序列預(yù)測(TSF)方面。 TSC的研究極大地受益于加利福尼亞大學河濱分校和東英吉利大學(UCR / UEA)時間序列檔案。另一方面,時間序列預(yù)測的進步依賴于時間序列預(yù)測競賽,例如Makridakis競賽,NN3和NN5神經(jīng)網(wǎng)絡(luò)競賽以及一些Kaggle競賽。
每年,成千上萬篇針對TSC和TSF提出新算法的論文都利用了這些基準測試檔案。這些算法是為解決這些特定問題而設(shè)計的,但是對于諸如使用光電容積描記圖(PPG)和加速度計數(shù)據(jù)預(yù)測人的心率之類的任務(wù)可能沒有用。我們將此問題稱為時間序列回歸(TSR),在此我們對從單變量或多變量時間序列預(yù)測單個連續(xù)值的更通用方法感興趣。此預(yù)測可以來自相同的時間序列,也可以與預(yù)測器時間序列不直接相關(guān),并且不一定需要是將來值或嚴重依賴于最新值。
據(jù)我們所知,時間序列研究界對TSR的研究很少受到關(guān)注,也沒有針對一般時間序列回歸問題開發(fā)模型。大多數(shù)模型都是針對特定問題開發(fā)的。因此,我們的目的是通過引入第一個TSR基準測試檔案庫來激發(fā)和支持對TSR的研究。該檔案庫包含來自不同領(lǐng)域的19個數(shù)據(jù)集,這些數(shù)據(jù)集的維數(shù),長度維數(shù)不相等以及值缺失。在本文中,我們介紹了此存檔中的數(shù)據(jù)集,并對現(xiàn)有模型進行了初步基準測試。
總結(jié)
我們發(fā)布了包含19個時間序列數(shù)據(jù)集的TSR存檔的第一版,并使用典型的機器學習回歸和最新的TSC模型為存檔設(shè)置了初始基準。我們的結(jié)果表明,Rocket是最先進的TSC模型之一,總體表現(xiàn)最佳。最先進的機器學習模型(例如XGBoost和Random Forest)也非常具有競爭力。這表明需要針對此類TSR問題開發(fā)更好的模型。最后,我們歡迎您提供任何數(shù)據(jù)捐贈,并將繼續(xù)擴展檔案庫,從而解決更多問題。
回復 ts13 獲取論文及項目源碼
19套數(shù)據(jù)集介紹
表1:當前TSR存檔中的時間序列數(shù)據(jù)集。用星號(*)標記的那些在維度之間具有不同的長度,但是在數(shù)據(jù)集中的所有實例之間長度仍然相等。
TSR歸檔中的數(shù)據(jù)集。當前存檔包含19個時間序列數(shù)據(jù)集,如表1所示。你可以在http://timeseriesregression.org/上找到它們。檔案包含8個數(shù)據(jù)集改編自UCI機器學習知識庫[1],3個來自Physionet, 1個來自信號處理競賽[29],1個來自世界衛(wèi)生組織(WHO), 1個來自澳大利亞氣象局(BOM),其余的都是捐贈的。
本檔案目前涵蓋了5個應(yīng)用領(lǐng)域:能源監(jiān)測、環(huán)境監(jiān)測、健康監(jiān)測、情緒分析與預(yù)測。
ts格式用于tsml和sktime時間序列機器學習知識庫。
sktime網(wǎng)站和我們的github頁面上可以找到一個將數(shù)據(jù)加載到Python的例子。
原始數(shù)據(jù)集中的缺失值不被注入和表示為“?”符號,遵循UCR/UEA檔案中使用的.ts慣例[5,6]。為了對回歸模型進行公平的比較,我們將存檔中的數(shù)據(jù)集分割為預(yù)定義的訓練集和測試集。






