大數(shù)據(jù)時代,數(shù)據(jù)分析早已成為能夠幫助管理者和企業(yè)做出正確決策的必備法寶.越來越多的企業(yè)在面對應聘者時,會優(yōu)先錄取既懂業(yè)務又懂數(shù)據(jù)的人才。
如何處理可疑或缺失數(shù)據(jù)
區(qū)別在于數(shù)據(jù)分析是針對個別屬性的實例分析,并提供值范圍,離散值及其頻率,空值發(fā)生,數(shù)據(jù)類型,長度等信息。而數(shù)據(jù)挖掘是重點關注聚類分析,異常記錄檢測,依賴關系,序列發(fā)現(xiàn),多個屬性之間的關系控制等。
如何處理可疑或缺失數(shù)據(jù)
準備提供所有可疑數(shù)據(jù)信息的驗證報告。它應該提供信息,如失敗的驗證標準以及發(fā)生的日期和時間,有經(jīng)驗的數(shù)據(jù)分析師應該檢查可疑數(shù)據(jù)以確定其可接受性。應該找出無效數(shù)據(jù)并用驗證碼替換,對缺失數(shù)據(jù)進行處理,使用最佳分析策略,如刪除,單一插補方法,基于模型的方法等。
列出清理數(shù)據(jù)的最佳實踐
首先按不同的屬性排序數(shù)據(jù),對于大數(shù)據(jù)集,逐步清理并改進數(shù)據(jù),直到獲得良好的數(shù)據(jù)質(zhì)量;對大型數(shù)據(jù)集,可以先將其分解為小數(shù)據(jù)集,使用更少的數(shù)據(jù)將增加迭代速度。
要處理常見的清理任務,請創(chuàng)建一組實用程序函數(shù)/工具/腳本。它可能包括基于CSV文件或SQL數(shù)據(jù)庫重映射值,或者正則表達式搜索和替換,消除所有不匹配正則表達式的值。最后分析每列的匯總統(tǒng)計數(shù)據(jù)(標準差,均值,缺失值的數(shù)量)。