7.3 非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)質(zhì)量管理
非結(jié)構(gòu)化數(shù)據(jù)由于格式和內(nèi)容的多樣性,一般不會直接用于分析,即單個非結(jié)構(gòu)化數(shù)據(jù)難以產(chǎn)生價值。只有將非結(jié)構(gòu)化數(shù)據(jù)的相關(guān)元數(shù)據(jù)(或標簽)、主要內(nèi)容抽取出來,并以類似結(jié)構(gòu)化數(shù)據(jù)存儲后,才能發(fā)揮價值。因此,非結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量管理主要在于提升數(shù)據(jù)可用度,一般通過對數(shù)據(jù)的清洗、映射、關(guān)聯(lián)等機制,把繁雜的大數(shù)據(jù)變成能應對的、有效的“小數(shù)據(jù)”,構(gòu)建干凈、完備的數(shù)據(jù)集,從而提高數(shù)據(jù)質(zhì)量。
1)通過清洗規(guī)則庫識別并標識出非結(jié)構(gòu)數(shù)據(jù)的可疑或無效信息,必要時可結(jié)合數(shù)據(jù)生命周期管理策略及時清理。
2)通過與相關(guān)的數(shù)據(jù)標準進行映射,將非結(jié)構(gòu)化數(shù)據(jù)的“基本屬性”轉(zhuǎn)換為商業(yè)銀行的標準信息進行存儲(如將“建行” “建設(shè)銀行” “中國建設(shè)銀行”等轉(zhuǎn)換成標準代碼JGOO01),并作為結(jié)構(gòu)化數(shù)據(jù)存儲在系統(tǒng)中。
3)通過關(guān)鍵信息與商業(yè)銀行其他結(jié)構(gòu)化數(shù)據(jù)進行關(guān)聯(lián)(如通過客戶姓名、手機號等辨識其是否為本行客戶),提高非結(jié)構(gòu)化數(shù)據(jù)入庫質(zhì)量和數(shù)據(jù)價值。