我們上一篇講到數(shù)據(jù)預(yù)處理直接會影響數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,數(shù)據(jù)預(yù)處理也是開始數(shù)據(jù)挖掘工作的重要一步,那么數(shù)據(jù)挖掘到底能幫助我們解決哪些更深層的數(shù)據(jù)分析工作呢,下面我們就做簡單介紹。
數(shù)據(jù)挖掘最重要的要素是分析人員的相關(guān)業(yè)務(wù)知識和思維模式。一般來說,數(shù)據(jù)挖掘主要側(cè)重解決四類問題:分類、聚類、關(guān)聯(lián)、預(yù)測。數(shù)據(jù)挖掘非常清晰的界定了它所能解決的幾類問題。
一、 分類問題
通過預(yù)測模型及對變量的分析,找出其與目標(biāo)變量的相關(guān)特征,并篩選出兩者間的聯(lián)系。大前提是通過對歷史數(shù)據(jù)的收集,明確了具體的分類項(xiàng)目、用戶的分類結(jié)果。
分類技術(shù)在很多領(lǐng)域都有應(yīng)用,市場營銷中十分注重對客戶的細(xì)分,針對客戶的特點(diǎn),將他們分為不同的類別。這樣不僅可以找出不同類型客戶的特征,同樣可以進(jìn)一步了解不同行為類別客戶的分布特征。
下面這些問題可以用分類和回歸技術(shù)來解決:
• 如何將信用卡申請人分為低、中、高風(fēng)險(xiǎn)群?
• 如何預(yù)測銀行可以安全地貸給貸款人的貸款量?
• 如何有效預(yù)測房地產(chǎn)開發(fā)中存在的風(fēng)險(xiǎn)?
• 如何預(yù)測哪些顧客在未來半年內(nèi)會取消該公司服務(wù),哪些電話用戶會申請?jiān)鲋捣?wù)?
• 如何預(yù)測具有某些特征的顧客是否會購買一臺新的計(jì)算機(jī)?
• 使用3G通信網(wǎng)絡(luò)的手機(jī)用戶哪些有可能轉(zhuǎn)換到 4G通信網(wǎng)絡(luò)?
• 如何預(yù)測一位顧客在一次銷售期間將花多少錢?
• 如何預(yù)測病人應(yīng)當(dāng)接受三種具體治療方案的哪一種?
二、聚類問題
顧名思義,聚類即“物以類聚”,按照不同的對象,劃分若干不同的問題。聚類問題的核心是其劃分的依據(jù),經(jīng)過處理后的同一類對象相似度較高,不同的對象則具有較低的相似度。
分類問題與聚類問題是有本質(zhì)區(qū)別的:分類問題是預(yù)測一個(gè)未知類別的用戶屬于哪個(gè)類別,而聚類問題是根據(jù)選定的指標(biāo),對一群用戶進(jìn)行劃分,它不屬于預(yù)測問題。
聚類問題在商業(yè)案例中也是一個(gè)非常常見的,例如需要選擇若干個(gè)指標(biāo)(如價(jià)值、成本、使用的產(chǎn)品等)對已有的用戶群進(jìn)行劃分:特征相似的用戶聚為一類,特征不同的用戶分屬于不同的類。
三、關(guān)聯(lián)問題
關(guān)聯(lián)分析是在各類數(shù)據(jù)挖掘算法中比較重要的一種,關(guān)聯(lián)規(guī)則與聚類算法一樣,屬于無監(jiān)督學(xué)習(xí)方法。它在許多實(shí)際業(yè)務(wù)中都有應(yīng)用,最廣泛的應(yīng)用便是在超市中, 重點(diǎn)是研究用戶同一次購買的產(chǎn)品間的相關(guān)性,若購買的產(chǎn)品時(shí)間不同,則可以分析出時(shí)間先后上的關(guān)聯(lián)性,“啤酒與尿布”是其中一個(gè)著名的案例。
四、預(yù)測問題
預(yù)測問題的解決更多的是采用統(tǒng)計(jì)學(xué)的技術(shù),例如回歸分析和時(shí)間序列分析。它的主要目的是研究目標(biāo)變量與影響它的若干相關(guān)變量之間的關(guān)系。
數(shù)據(jù)挖掘中的預(yù)測問題通過對歷史數(shù)據(jù)的統(tǒng)計(jì)和學(xué)習(xí)得到預(yù)測模型(通過機(jī)器學(xué)習(xí)建立),再利用此模型對未來的輸入輸出值進(jìn)行預(yù)測。預(yù)測問題多采用統(tǒng)計(jì)學(xué)技術(shù)解決,如回歸分析和時(shí)間序列分析等?;貧w分析的主要目的是用來研究目標(biāo)變量和影響它的相關(guān)變量間的關(guān)系,用于解決預(yù)測問題的回歸分析和關(guān)聯(lián)分析不同,它較少應(yīng)用于商業(yè)中,更多地應(yīng)用于自然科學(xué)、醫(yī)學(xué)、心理學(xué)等。
?