data leakage machine learning工研院巨量資訊科技中心 - ITRI 在Facebook 的評價

Q: data leakage machine learning工研院巨量資訊科技中心 - ITRI 在Facebook 的評價

AI的未來？你不能不認識的人工智慧與資料科學自動化技術—AutoML(2/10)一、資料前處理（Data Pre-processing）資料前處理是機器學習過程中的重要步驟。資料收集方法通常比較寬鬆、缺乏控制，導致收集到的值超出範圍或不合邏輯（例如，收入出現-100），不可能的資料組合（例如，「性別：男性」加上「懷孕：是」的組合）以及缺失值（missing value）等。未經仔細篩選此類問題可能會產生誤導性結果。因此，在進行分析之前，資料的表示形式和品質是首要確認的目標。一般來說，資料前處理是機器學習項目中最重要的階段。如果存在大量不相關和多餘的訊息，或者存在噪音（noisy）且不可靠的資料，則在訓練階段發現知識將變得更加困難。資料準備和過濾的步驟可能會花費大量的處理時間。資料前處理包括清理（cleaning）、實例選擇（instance selection）、標準化（normalization）、轉換（transformation）、特徵提取和選擇（feature extraction and selection）等。資料前處理的產出是最終的訓練集。MLBox（machine learning box）AutoML套件就提供了許多資料前處理的功能，甚至提供具高穩健性的特徵選擇與資料洩漏（data leakage，意旨資料特徵與預測目標之因果關係的瑕疵，導致得到非常好的預測結果）偵測功能。

Question

Accepted Answer

AI的未來？你不能不認識的人工智慧與資料科學自動化技術—AutoML(2/10)
一、資料前處理（Data Pre-processing）
資料前處理是機器學習過程中的重要步驟。資料收集方法通常比較寬鬆、缺乏控制，導致收集到的值超出範圍或不合邏輯（例如，收入出現-100），不可能的資料組合（例如，「性別：男性」加上「懷孕：是」的組合）以及缺失值（missing value）等。未經仔細篩選此類問題可能會產生誤導性結果。因此，在進行分析之前，資料的表示形式和品質是首要確認的目標。一般來說，資料前處理是機器學習項目中最重要的階段。
如果存在大量不相關和多餘的訊息，或者存在噪音（noisy）且不可靠的資料，則在訓練階段發現知識將變得更加困難。資料準備和過濾的步驟可能會花費大量的處理時間。資料前處理包括清理（cleaning）、實例選擇（instance selection）、標準化（normalization）、轉換（transformation）、特徵提取和選擇（feature extraction and selection）等。資料前處理的產出是最終的訓練集。MLBox（machine learning box）AutoML套件就提供了許多資料前處理的功能，甚至提供具高穩健性的特徵選擇與資料洩漏（data leakage，意旨資料特徵與預測目標之因果關係的瑕疵，導致得到非常好的預測結果）偵測功能。

關於 data leakage machine learning ，我們在網路上蒐集到這些相關的討論、資訊與評價

「data leakage machine learning」的推薦目錄：

data leakage machine learning 在 工研院巨量資訊科技中心 - ITRI Facebook 的最佳貼文

About author

你可能也想看看

搜尋相關連結

data leakage machine learning 在工研院巨量資訊科技中心 - ITRI Facebook 的最佳貼文