企業(yè)數(shù)字化是眾所周知的一個(gè)概念,我們在強(qiáng)調(diào)通過數(shù)據(jù)發(fā)現(xiàn)問題,解決問題和預(yù)測未來的同時(shí),保證數(shù)據(jù)源的準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性和解釋性,才是數(shù)據(jù)分析過程中最值得注意的事項(xiàng)。但往往在企業(yè)真實(shí)數(shù)據(jù)中,一般都是存在一定問題的數(shù)據(jù),需要經(jīng)過一定的數(shù)據(jù)預(yù)處理和數(shù)據(jù)治理才能被應(yīng)用于業(yè)務(wù)分析。數(shù)據(jù)的質(zhì)量,直接決定了分析結(jié)果的可用性、模型預(yù)測的準(zhǔn)確性。因此,我們有必要對(duì)數(shù)據(jù)分析中的數(shù)據(jù)預(yù)處理部分給予重視。
下面看看有哪些數(shù)據(jù)預(yù)處理的方法?
數(shù)據(jù)預(yù)處理的主要步驟分為:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)變換。本文將從這四個(gè)方面詳細(xì)的介紹具體的方法。如果在一個(gè)項(xiàng)目中,你在這幾個(gè)方面的數(shù)據(jù)處理做的都很不錯(cuò),對(duì)于之后的建模具有極大的幫助,并且能快速達(dá)到一個(gè)還不錯(cuò)的結(jié)果。
一、 數(shù)據(jù)清理
現(xiàn)實(shí)世界中由于數(shù)據(jù)在收集過程中不可避免的會(huì)出現(xiàn)異常值或者數(shù)值缺失,但為了保證數(shù)據(jù)分析結(jié)果和預(yù)測的準(zhǔn)確性,我們往往需要對(duì)這些數(shù)據(jù)進(jìn)行特定處理
后使用。缺失值填充我們可以采用均值法、隨機(jī)差值、中位數(shù)等方法進(jìn)行填充;對(duì)于偏離常態(tài)的異常值處理我們處理手段有:刪除記錄、數(shù)值替代等方式。
二、數(shù)據(jù)集成
數(shù)據(jù)集成主要是把多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行合并,形成數(shù)據(jù)倉庫。在數(shù)據(jù)集成的過程中,常見的問題主要有數(shù)據(jù)冗余和數(shù)據(jù)規(guī)范的問題。
三、數(shù)據(jù)變換
通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。
四、數(shù)據(jù)歸約
數(shù)據(jù)挖掘時(shí)往往數(shù)據(jù)量非常大,在少量數(shù)據(jù)上進(jìn)行挖掘分析需要很長的時(shí)間,數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并結(jié)果與歸約前結(jié)果相同或幾乎相同。
?