作者: 數(shù)據(jù)分析專家??來(lái)源: 研究院??時(shí)間:2020年06月03日
當(dāng)今社會(huì)是一個(gè)大數(shù)據(jù)社會(huì),但是在浩瀚的數(shù)據(jù)中,如果放置這些數(shù)據(jù),不加以分析整理,那就相當(dāng)于一堆廢的數(shù)據(jù),對(duì)人類的發(fā)展沒(méi)有任何意義,因此就有了數(shù)據(jù)分析工具的出現(xiàn)。因?yàn)樵诜治龊A康臄?shù)據(jù)時(shí),免不了要借助一些大數(shù)據(jù)分析工具軟件,那數(shù)據(jù)分析工具除了上層應(yīng)用層面之外,它的底層核心技術(shù)到底有哪些呢?
首先要介紹的是一款由于成本低,任何人都可以使用的數(shù)據(jù)分析工具軟件——Hadoop。這是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架??梢詫?duì)從GB到PB級(jí)的數(shù)據(jù)量實(shí)現(xiàn)復(fù)雜的查詢和分析,具有高可擴(kuò)展性,用戶可以通過(guò)增加集群節(jié)點(diǎn)數(shù)量,線性提高系統(tǒng)的處理能力。
其次是HPPC,與Hadoop不同的是它擁有先進(jìn)軟件技術(shù)與算法,主要應(yīng)用于國(guó)家科研與教育網(wǎng)絡(luò),促進(jìn)教育更加個(gè)性化、精細(xì)化、智能化、并提高行政管理效率。
而另外一款基于Hadoop的軟件,是一個(gè)分布式的,容錯(cuò)的系統(tǒng)——Storm。這是一個(gè)自由的開(kāi)源軟件,人們都追求可靠的數(shù)據(jù)分析工具,而Storm擁有非常強(qiáng)大可靠的處理龐大的數(shù)據(jù)流,敏捷分析、打造數(shù)據(jù)可視化與數(shù)據(jù)應(yīng)用場(chǎng)景。
還有Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎。Spark 是一種與Hadoop 相似的開(kāi)源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說(shuō),Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。
軟件的底層架構(gòu)的重要性不言而喻,無(wú)論是在性能、可修改性、安全性、可擴(kuò)展性等方面都影響著系統(tǒng)最終的質(zhì)量屬性和性能。
隨著用戶對(duì)數(shù)據(jù)分析應(yīng)用的意識(shí)不斷提高,對(duì)數(shù)據(jù)分析工具的需求也在不斷加大,而在選擇數(shù)據(jù)分析工具的時(shí),不但要考察該工具是否可以在統(tǒng)一的平臺(tái)上完成全流程數(shù)據(jù)分析任務(wù),一站式實(shí)現(xiàn)用戶數(shù)據(jù)應(yīng)用,而且要看考察該工具的底層技術(shù)架構(gòu)是否有更高的性能,因?yàn)樗苯記Q定了數(shù)據(jù)分析工具上層應(yīng)用的便利性。
?