根據(jù)數(shù)據(jù)集的結(jié)構(gòu)和建索引的難易程度,數(shù)據(jù)集通常被分為三類。
結(jié)構(gòu)化數(shù)據(jù)
這類數(shù)據(jù)最容易整理和搜索,主要包括財務(wù)數(shù)據(jù)、機(jī)器日志和人口統(tǒng)計明細(xì)等。結(jié)構(gòu)化數(shù)據(jù)很好理解,類似于 Excel 電子表格中預(yù)定義的行列布局。這種結(jié)構(gòu)下的數(shù)據(jù)很容易分門別類,數(shù)據(jù)庫設(shè)計人員和管理員只需要定義簡單的算法就能實(shí)現(xiàn)搜索和分析。不過,即使結(jié)構(gòu)化數(shù)據(jù)數(shù)量非常大,也不一定稱得上大數(shù)據(jù),因?yàn)榻Y(jié)構(gòu)化數(shù)據(jù)本身比較易于管理,不符合大數(shù)據(jù)的定義標(biāo)準(zhǔn)。一直以來,數(shù)據(jù)庫都是使用 SQL 編程語言管理結(jié)構(gòu)化數(shù)據(jù)。SQL 是由 IBM 在 20 世紀(jì) 70 年代開發(fā)的,旨在幫助開發(fā)人員構(gòu)建和管理當(dāng)時正逐步興起的關(guān)系型(電子表格式)數(shù)據(jù)庫。
非結(jié)構(gòu)化數(shù)據(jù)
這類數(shù)據(jù)包括社交媒體內(nèi)容、音頻文件、圖片和開放式客戶評論等。這些數(shù)據(jù)通常很難用標(biāo)準(zhǔn)的行列關(guān)系型數(shù)據(jù)庫捕獲。一直以來,企業(yè)若想搜索、管理或分析大量非結(jié)構(gòu)化數(shù)據(jù),只能依靠繁瑣的手動流程。毫無疑問,分析和理解這類數(shù)據(jù)能夠?yàn)槠髽I(yè)帶來價值,但是執(zhí)行成本往往太過高昂。而且,由于耗時太長,分析結(jié)果往往還未交付就已經(jīng)過時。因?yàn)闊o法存儲在電子表格或關(guān)系型數(shù)據(jù)庫中,所以非結(jié)構(gòu)化數(shù)據(jù)通常存儲在數(shù)據(jù)湖、數(shù)據(jù)倉庫和 NoSQL 數(shù)據(jù)庫中。
半結(jié)構(gòu)化數(shù)據(jù)
顧名思義,半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的混合體。電子郵件就是一個很好的例子,因?yàn)槠渲械恼膶儆诜墙Y(jié)構(gòu)化數(shù)據(jù),而發(fā)件人、收件人、主題和日期等則屬于結(jié)構(gòu)化數(shù)據(jù)。使用地理標(biāo)記、時間戳或語義標(biāo)記的設(shè)備也可以同時提供結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化內(nèi)容。例如,一張未做標(biāo)識的智能手機(jī)圖片仍然可以告訴你,這是一張自拍照,以及拍攝的時間和地點(diǎn)。采用人工智能技術(shù)的現(xiàn)代數(shù)據(jù)庫不僅能夠即時識別不同類型的數(shù)據(jù),還能夠?qū)崟r生成算法,有效地管理和分析各種相關(guān)的數(shù)據(jù)集。
?