作者: 永洪BI??來源: 永洪科技??時(shí)間:2022年06月30日
前幾天,朋友問了我一個(gè)問題,大概是說,他們正在做一個(gè)大數(shù)據(jù)相關(guān)的分析,場景類似這樣,每天有大量的酒店入住人的信息,怎么從這些信息中,篩選出某幾個(gè)人是可能存在某種特定關(guān)系的。
(因?yàn)檎鎸?shí)場景需要保密,所以這里采用類比的方式舉例,但是并不妨礙進(jìn)行進(jìn)一步的分析。)
聽完需求后,我的第一反應(yīng)就是使用關(guān)聯(lián)規(guī)則的算法就可以實(shí)現(xiàn)想要得結(jié)果。
為了方便朋友理解,我使用Yonghong Desktop軟件做了一個(gè)案例。
首先準(zhǔn)備測試數(shù)據(jù)。
該數(shù)據(jù)中,同一個(gè)酒店和同一個(gè)日期入住的人,我們認(rèn)為屬于同一個(gè)批次,給與相同的ID進(jìn)行標(biāo)識(shí)。然后上傳到Yonghong Desktop保存為數(shù)據(jù)集。
再在深度分析模塊新建實(shí)驗(yàn)?zāi)P停先雱?chuàng)建好的數(shù)據(jù)集,再拖入關(guān)聯(lián)規(guī)則算法,設(shè)置最小支持?jǐn)?shù)和最小置信度,最后再拖入數(shù)據(jù)集視圖。至此,模型建立完畢。是不是特別簡單。
我們運(yùn)行一下,幾秒后遍得到了結(jié)果,是不是很驚喜,so easy。
不過接下來就是朋友的四連問。
1:這個(gè)結(jié)果怎么看?
2:數(shù)據(jù)維度為什么只有這幾個(gè),加幾個(gè)行嗎?
3:數(shù)據(jù)量大的話,怎么處理?
4:篩選出來的結(jié)果集比較大,怎么進(jìn)一步提取關(guān)聯(lián)結(jié)果?
第一個(gè)問題
置信度,left 和right, 當(dāng) left出現(xiàn)時(shí),right出現(xiàn)的概率,為置信度。
Support 為 left和right ,同時(shí)出現(xiàn)的概率,受整體樣本行數(shù)影響,這個(gè)值可能不會(huì)太高。最小支持?jǐn)?shù),數(shù)據(jù)重復(fù)出現(xiàn)的最小次數(shù)。
這里我們需要研究的是某人或者某些人之間的關(guān)聯(lián)關(guān)系,所以首先置信度要高,再者,left和right一定有關(guān)系的話,還必須是充分且必要,也就是說老李出現(xiàn)時(shí),小李一定出現(xiàn),反之小李出現(xiàn)時(shí),老李一定出現(xiàn),則我們可以認(rèn)定他倆存在某種特定的關(guān)系。
第二個(gè)問題
我們研究的目的是找出可能存在的特定關(guān)系,在這個(gè)案例中,我們并不關(guān)心任何因果關(guān)系,只關(guān)心概率,也就是說如果反復(fù)匹配出現(xiàn),則認(rèn)為存在關(guān)聯(lián)關(guān)系。所以其他維度可以不要,只要能夠標(biāo)識(shí)清楚這個(gè)ID和姓名就足夠了。
第三個(gè)問題
這里需要說回關(guān)聯(lián)規(guī)則的一個(gè)基本概念,頻繁項(xiàng)集,也就是說如果只出現(xiàn)1次,那么他肯定不能算頻繁項(xiàng)集。所以數(shù)據(jù)處理的時(shí)候可以直接排除掉只出現(xiàn)1次記錄。
最后一個(gè)問題,將結(jié)果集導(dǎo)入MySQL,再進(jìn)行SQL處理,表1和表2相同,where 表1.left=表2.right and 表1.right = 表2.left,因?yàn)闃颖緮?shù)據(jù)較少,這里沒有做驗(yàn)證。但是理論上應(yīng)該可以行。
到這里是不是就結(jié)束了呢,其實(shí),研究他們的關(guān)系還不是最終目的。
這里我提出1種假設(shè),,找出了特定關(guān)系的數(shù)據(jù)后,還不知道它們是哪種特殊關(guān)系,怎么辦,以本案例來講,老李和小李,出現(xiàn)的時(shí)間是五一和國慶,所以他們大概率是一家人,是出來旅游的,那么就可以有針對(duì)性的推旅游線路,酒店,美食,特產(chǎn)相關(guān)的信息,也就是精準(zhǔn)營銷。
至于應(yīng)該怎么來猜,這里需要回歸到第二問題中,把數(shù)據(jù)放回多維度記錄中,去找比較突出的維度(也可以是打標(biāo)簽),或者使用聚類分析(數(shù)據(jù)多的時(shí)候),然后再進(jìn)行業(yè)務(wù)解析,這里做聚類和業(yè)務(wù)解析可能需要下次有機(jī)會(huì)再進(jìn)一步展開了。
?