對(duì)于選型軟件類產(chǎn)品來(lái)說(shuō),了解軟件平臺(tái)架構(gòu)是必要的。平臺(tái)架構(gòu)是為用戶提供一個(gè)整體解決方案的基礎(chǔ),從技術(shù)層面實(shí)現(xiàn)業(yè)務(wù)層面的落地。包含了對(duì)研發(fā)過(guò)程的整理和規(guī)范、對(duì)軟件產(chǎn)品的整合和定義、對(duì)積累成果的融合和優(yōu)化、對(duì)以往經(jīng)驗(yàn)的總結(jié)和封裝、對(duì)技術(shù)路線的規(guī)劃和升級(jí)、對(duì)實(shí)現(xiàn)方案的提升和突破、對(duì)產(chǎn)品發(fā)展的探索和預(yù)見。因此軟件平臺(tái)架構(gòu)決定了軟件解決問(wèn)題的能力。
隨著大數(shù)據(jù)在越來(lái)越多的企業(yè)當(dāng)中落地,企業(yè)要開展大數(shù)據(jù)相關(guān)的業(yè)務(wù),那么首先要搭建起自身的數(shù)據(jù)平臺(tái)。而企業(yè)搭建
大數(shù)據(jù)分析平臺(tái),就需要對(duì)大數(shù)據(jù)平臺(tái)架構(gòu)有一定的了解,今天我們就來(lái)聊聊主流的一些大數(shù)據(jù)分析平臺(tái)架構(gòu)及其數(shù)據(jù)分析能力如何。
主流大數(shù)據(jù)分析平臺(tái)架構(gòu)及其數(shù)據(jù)分析能力
從市場(chǎng)主流選擇來(lái)看,主流的企業(yè)大數(shù)據(jù)分析平臺(tái)架構(gòu),目前大致有以下幾種:
1、 傳統(tǒng)BI架構(gòu),基于cube實(shí)現(xiàn)
BI系統(tǒng)里面,核心的模塊是Cube。Cube是一個(gè)更高層的業(yè)務(wù)模型抽象,在Cube之上可以進(jìn)行多種操作,例如上鉆、下鉆、切片等操作。
BI系統(tǒng)更多以分析業(yè)務(wù)數(shù)據(jù)產(chǎn)生的密度高、價(jià)值高的結(jié)構(gòu)化數(shù)據(jù)為主,對(duì)于非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的處理非常乏力。
2、MPP(大規(guī)模并行處理)架構(gòu)
進(jìn)入大數(shù)據(jù)時(shí)代以來(lái),傳統(tǒng)的主機(jī)計(jì)算模式已經(jīng)不能滿足需求了,分布式存儲(chǔ)和分布式計(jì)算才是王道。大家所熟悉的Hadoop MapReduce框架以及MPP計(jì)算框架,都是基于這一背景產(chǎn)生。
MPP架構(gòu)的代表產(chǎn)品,就是Greenplum。Greenplum的數(shù)據(jù)庫(kù)引擎是基于Postgresql的,并且通過(guò)Interconnnect神器實(shí)現(xiàn)了對(duì)同一個(gè)集群中多個(gè)Postgresql實(shí)例的高效協(xié)同和并行計(jì)算。
3、Hadoop分布式系統(tǒng)架構(gòu)
當(dāng)然,大規(guī)模分布式系統(tǒng)架構(gòu),Hadoop依然站在不可代替的關(guān)鍵位置上。雅虎、Facebook、百度、淘寶等國(guó)內(nèi)外大企,最初都是基于Hadoop來(lái)展開的。
Hadoop生態(tài)體系龐大,企業(yè)基于Hadoop所能實(shí)現(xiàn)的需求,也不僅限于數(shù)據(jù)分析,也包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、實(shí)時(shí)系統(tǒng)等。企業(yè)搭建大數(shù)據(jù)系統(tǒng)平臺(tái),Hadoop的大數(shù)據(jù)處理能力、高可靠性、高容錯(cuò)性、開源性以及低成本,都使得它成為首選。
以上為目前大數(shù)據(jù)領(lǐng)域使用較多的幾種架構(gòu),當(dāng)然還有非常多其他架構(gòu),不過(guò)這些架構(gòu)也會(huì)迭代更新,我們還是要與時(shí)俱進(jìn),不斷更新自己的知識(shí)庫(kù)。
?