AI的未來?你不能不認識的人工智慧與資料科學自動化技術—AutoML(2/10)
一、資料前處理(Data Pre-processing)
資料前處理是機器學習過程中的重要步驟。資料收集方法通常比較寬鬆、缺乏控制,導致收集到的值超出範圍或不合邏輯(例如,收入出現-100),不可能的資料組合(例如,「性別:男性」加上「懷孕:是」的組合)以及缺失值(missing value)等。未經仔細篩選此類問題可能會產生誤導性結果。因此,在進行分析之前,資料的表示形式和品質是首要確認的目標。一般來說,資料前處理是機器學習項目中最重要的階段。
如果存在大量不相關和多餘的訊息,或者存在噪音(noisy)且不可靠的資料,則在訓練階段發現知識將變得更加困難。資料準備和過濾的步驟可能會花費大量的處理時間。資料前處理包括清理(cleaning)、實例選擇(instance selection)、標準化(normalization)、轉換(transformation)、特徵提取和選擇(feature extraction and selection)等。資料前處理的產出是最終的訓練集。MLBox(machine learning box)AutoML套件就提供了許多資料前處理的功能,甚至提供具高穩健性的特徵選擇與資料洩漏(data leakage,意旨資料特徵與預測目標之因果關係的瑕疵,導致得到非常好的預測結果)偵測功能。
Search