根據(jù)數(shù)據(jù)集的結(jié)構(gòu)和建索引的難易程度,數(shù)據(jù)集通常被分為三類。
結(jié)構(gòu)化數(shù)據(jù)
這類數(shù)據(jù)最容易整理和搜索,主要包括財(cái)務(wù)數(shù)據(jù)、機(jī)器日志和人口統(tǒng)計(jì)明細(xì)等。結(jié)構(gòu)化數(shù)據(jù)很好理解,類似于 Excel 電子表格中預(yù)定義的行列布局。這種結(jié)構(gòu)下的數(shù)據(jù)很容易分門別類,數(shù)據(jù)庫(kù)設(shè)計(jì)人員和管理員只需要定義簡(jiǎn)單的算法就能實(shí)現(xiàn)搜索和分析。不過(guò),即使結(jié)構(gòu)化數(shù)據(jù)數(shù)量非常大,也不一定稱得上大數(shù)據(jù),因?yàn)榻Y(jié)構(gòu)化數(shù)據(jù)本身比較易于管理,不符合大數(shù)據(jù)的定義標(biāo)準(zhǔn)。一直以來(lái),數(shù)據(jù)庫(kù)都是使用 SQL 編程語(yǔ)言管理結(jié)構(gòu)化數(shù)據(jù)。SQL 是由 IBM 在 20 世紀(jì) 70 年代開(kāi)發(fā)的,旨在幫助開(kāi)發(fā)人員構(gòu)建和管理當(dāng)時(shí)正逐步興起的關(guān)系型(電子表格式)數(shù)據(jù)庫(kù)。
非結(jié)構(gòu)化數(shù)據(jù)
這類數(shù)據(jù)包括社交媒體內(nèi)容、音頻文件、圖片和開(kāi)放式客戶評(píng)論等。這些數(shù)據(jù)通常很難用標(biāo)準(zhǔn)的行列關(guān)系型數(shù)據(jù)庫(kù)捕獲。一直以來(lái),企業(yè)若想搜索、管理或分析大量非結(jié)構(gòu)化數(shù)據(jù),只能依靠繁瑣的手動(dòng)流程。毫無(wú)疑問(wèn),分析和理解這類數(shù)據(jù)能夠?yàn)槠髽I(yè)帶來(lái)價(jià)值,但是執(zhí)行成本往往太過(guò)高昂。而且,由于耗時(shí)太長(zhǎng),分析結(jié)果往往還未交付就已經(jīng)過(guò)時(shí)。因?yàn)闊o(wú)法存儲(chǔ)在電子表格或關(guān)系型數(shù)據(jù)庫(kù)中,所以非結(jié)構(gòu)化數(shù)據(jù)通常存儲(chǔ)在數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)和 NoSQL 數(shù)據(jù)庫(kù)中。
半結(jié)構(gòu)化數(shù)據(jù)
顧名思義,半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的混合體。電子郵件就是一個(gè)很好的例子,因?yàn)槠渲械恼膶儆诜墙Y(jié)構(gòu)化數(shù)據(jù),而發(fā)件人、收件人、主題和日期等則屬于結(jié)構(gòu)化數(shù)據(jù)。使用地理標(biāo)記、時(shí)間戳或語(yǔ)義標(biāo)記的設(shè)備也可以同時(shí)提供結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化內(nèi)容。例如,一張未做標(biāo)識(shí)的智能手機(jī)圖片仍然可以告訴你,這是一張自拍照,以及拍攝的時(shí)間和地點(diǎn)。采用人工智能技術(shù)的現(xiàn)代數(shù)據(jù)庫(kù)不僅能夠即時(shí)識(shí)別不同類型的數(shù)據(jù),還能夠?qū)崟r(shí)生成算法,有效地管理和分析各種相關(guān)的數(shù)據(jù)集。
?