對于選型軟件類產(chǎn)品來說,了解軟件平臺架構(gòu)是必要的。平臺架構(gòu)是為用戶提供一個整體解決方案的基礎(chǔ),從技術(shù)層面實現(xiàn)業(yè)務(wù)層面的落地。包含了對研發(fā)過程的整理和規(guī)范、對軟件產(chǎn)品的整合和定義、對積累成果的融合和優(yōu)化、對以往經(jīng)驗的總結(jié)和封裝、對技術(shù)路線的規(guī)劃和升級、對實現(xiàn)方案的提升和突破、對產(chǎn)品發(fā)展的探索和預(yù)見。因此軟件平臺架構(gòu)決定了軟件解決問題的能力。
隨著大數(shù)據(jù)在越來越多的企業(yè)當(dāng)中落地,企業(yè)要開展大數(shù)據(jù)相關(guān)的業(yè)務(wù),那么首先要搭建起自身的數(shù)據(jù)平臺。而企業(yè)搭建
大數(shù)據(jù)分析平臺,就需要對大數(shù)據(jù)平臺架構(gòu)有一定的了解,今天我們就來聊聊主流的一些大數(shù)據(jù)分析平臺架構(gòu)及其數(shù)據(jù)分析能力如何。
主流大數(shù)據(jù)分析平臺架構(gòu)及其數(shù)據(jù)分析能力
從市場主流選擇來看,主流的企業(yè)大數(shù)據(jù)分析平臺架構(gòu),目前大致有以下幾種:
1、 傳統(tǒng)BI架構(gòu),基于cube實現(xiàn)
BI系統(tǒng)里面,核心的模塊是Cube。Cube是一個更高層的業(yè)務(wù)模型抽象,在Cube之上可以進(jìn)行多種操作,例如上鉆、下鉆、切片等操作。
BI系統(tǒng)更多以分析業(yè)務(wù)數(shù)據(jù)產(chǎn)生的密度高、價值高的結(jié)構(gòu)化數(shù)據(jù)為主,對于非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的處理非常乏力。
2、MPP(大規(guī)模并行處理)架構(gòu)
進(jìn)入大數(shù)據(jù)時代以來,傳統(tǒng)的主機(jī)計算模式已經(jīng)不能滿足需求了,分布式存儲和分布式計算才是王道。大家所熟悉的Hadoop MapReduce框架以及MPP計算框架,都是基于這一背景產(chǎn)生。
MPP架構(gòu)的代表產(chǎn)品,就是Greenplum。Greenplum的數(shù)據(jù)庫引擎是基于Postgresql的,并且通過Interconnnect神器實現(xiàn)了對同一個集群中多個Postgresql實例的高效協(xié)同和并行計算。
3、Hadoop分布式系統(tǒng)架構(gòu)
當(dāng)然,大規(guī)模分布式系統(tǒng)架構(gòu),Hadoop依然站在不可代替的關(guān)鍵位置上。雅虎、Facebook、百度、淘寶等國內(nèi)外大企,最初都是基于Hadoop來展開的。
Hadoop生態(tài)體系龐大,企業(yè)基于Hadoop所能實現(xiàn)的需求,也不僅限于數(shù)據(jù)分析,也包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、實時系統(tǒng)等。企業(yè)搭建大數(shù)據(jù)系統(tǒng)平臺,Hadoop的大數(shù)據(jù)處理能力、高可靠性、高容錯性、開源性以及低成本,都使得它成為首選。
以上為目前大數(shù)據(jù)領(lǐng)域使用較多的幾種架構(gòu),當(dāng)然還有非常多其他架構(gòu),不過這些架構(gòu)也會迭代更新,我們還是要與時俱進(jìn),不斷更新自己的知識庫。
?