我們上一篇講到數(shù)據(jù)預(yù)處理直接會(huì)影響數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,數(shù)據(jù)預(yù)處理也是開(kāi)始數(shù)據(jù)挖掘工作的重要一步,那么數(shù)據(jù)挖掘到底能幫助我們解決哪些更深層的數(shù)據(jù)分析工作呢,下面我們就做簡(jiǎn)單介紹。
數(shù)據(jù)挖掘最重要的要素是分析人員的相關(guān)業(yè)務(wù)知識(shí)和思維模式。一般來(lái)說(shuō),數(shù)據(jù)挖掘主要側(cè)重解決四類問(wèn)題:分類、聚類、關(guān)聯(lián)、預(yù)測(cè)。數(shù)據(jù)挖掘非常清晰的界定了它所能解決的幾類問(wèn)題。
一、 分類問(wèn)題
通過(guò)預(yù)測(cè)模型及對(duì)變量的分析,找出其與目標(biāo)變量的相關(guān)特征,并篩選出兩者間的聯(lián)系。大前提是通過(guò)對(duì)歷史數(shù)據(jù)的收集,明確了具體的分類項(xiàng)目、用戶的分類結(jié)果。
分類技術(shù)在很多領(lǐng)域都有應(yīng)用,市場(chǎng)營(yíng)銷中十分注重對(duì)客戶的細(xì)分,針對(duì)客戶的特點(diǎn),將他們分為不同的類別。這樣不僅可以找出不同類型客戶的特征,同樣可以進(jìn)一步了解不同行為類別客戶的分布特征。
下面這些問(wèn)題可以用分類和回歸技術(shù)來(lái)解決:
• 如何將信用卡申請(qǐng)人分為低、中、高風(fēng)險(xiǎn)群?
• 如何預(yù)測(cè)銀行可以安全地貸給貸款人的貸款量?
• 如何有效預(yù)測(cè)房地產(chǎn)開(kāi)發(fā)中存在的風(fēng)險(xiǎn)?
• 如何預(yù)測(cè)哪些顧客在未來(lái)半年內(nèi)會(huì)取消該公司服務(wù),哪些電話用戶會(huì)申請(qǐng)?jiān)鲋捣?wù)?
• 如何預(yù)測(cè)具有某些特征的顧客是否會(huì)購(gòu)買一臺(tái)新的計(jì)算機(jī)?
• 使用3G通信網(wǎng)絡(luò)的手機(jī)用戶哪些有可能轉(zhuǎn)換到 4G通信網(wǎng)絡(luò)?
• 如何預(yù)測(cè)一位顧客在一次銷售期間將花多少錢?
• 如何預(yù)測(cè)病人應(yīng)當(dāng)接受三種具體治療方案的哪一種?
二、聚類問(wèn)題
顧名思義,聚類即“物以類聚”,按照不同的對(duì)象,劃分若干不同的問(wèn)題。聚類問(wèn)題的核心是其劃分的依據(jù),經(jīng)過(guò)處理后的同一類對(duì)象相似度較高,不同的對(duì)象則具有較低的相似度。
分類問(wèn)題與聚類問(wèn)題是有本質(zhì)區(qū)別的:分類問(wèn)題是預(yù)測(cè)一個(gè)未知類別的用戶屬于哪個(gè)類別,而聚類問(wèn)題是根據(jù)選定的指標(biāo),對(duì)一群用戶進(jìn)行劃分,它不屬于預(yù)測(cè)問(wèn)題。
聚類問(wèn)題在商業(yè)案例中也是一個(gè)非常常見(jiàn)的,例如需要選擇若干個(gè)指標(biāo)(如價(jià)值、成本、使用的產(chǎn)品等)對(duì)已有的用戶群進(jìn)行劃分:特征相似的用戶聚為一類,特征不同的用戶分屬于不同的類。
三、關(guān)聯(lián)問(wèn)題
關(guān)聯(lián)分析是在各類數(shù)據(jù)挖掘算法中比較重要的一種,關(guān)聯(lián)規(guī)則與聚類算法一樣,屬于無(wú)監(jiān)督學(xué)習(xí)方法。它在許多實(shí)際業(yè)務(wù)中都有應(yīng)用,最廣泛的應(yīng)用便是在超市中, 重點(diǎn)是研究用戶同一次購(gòu)買的產(chǎn)品間的相關(guān)性,若購(gòu)買的產(chǎn)品時(shí)間不同,則可以分析出時(shí)間先后上的關(guān)聯(lián)性,“啤酒與尿布”是其中一個(gè)著名的案例。
四、預(yù)測(cè)問(wèn)題
預(yù)測(cè)問(wèn)題的解決更多的是采用統(tǒng)計(jì)學(xué)的技術(shù),例如回歸分析和時(shí)間序列分析。它的主要目的是研究目標(biāo)變量與影響它的若干相關(guān)變量之間的關(guān)系。
數(shù)據(jù)挖掘中的預(yù)測(cè)問(wèn)題通過(guò)對(duì)歷史數(shù)據(jù)的統(tǒng)計(jì)和學(xué)習(xí)得到預(yù)測(cè)模型(通過(guò)機(jī)器學(xué)習(xí)建立),再利用此模型對(duì)未來(lái)的輸入輸出值進(jìn)行預(yù)測(cè)。預(yù)測(cè)問(wèn)題多采用統(tǒng)計(jì)學(xué)技術(shù)解決,如回歸分析和時(shí)間序列分析等。回歸分析的主要目的是用來(lái)研究目標(biāo)變量和影響它的相關(guān)變量間的關(guān)系,用于解決預(yù)測(cè)問(wèn)題的回歸分析和關(guān)聯(lián)分析不同,它較少應(yīng)用于商業(yè)中,更多地應(yīng)用于自然科學(xué)、醫(yī)學(xué)、心理學(xué)等。
?