2.非結(jié)構(gòu)化數(shù)據(jù)的采集和存儲(chǔ)
(1)非結(jié)構(gòu)化數(shù)據(jù)的采集商業(yè)銀行的非結(jié)構(gòu)化數(shù)據(jù)主要來(lái)源于行內(nèi)和行外兩類途徑。
其采集方法主要有以下幾種:
1)行內(nèi)文檔信息的采集。對(duì)于行內(nèi)業(yè)務(wù)系統(tǒng)信息的采集,商業(yè)銀行一般會(huì)有統(tǒng)一的工具或系統(tǒng)從各類業(yè)務(wù)系統(tǒng)中獲取信息。對(duì)于被采集業(yè)務(wù)系統(tǒng)會(huì)提供數(shù)據(jù)庫(kù)、文件存儲(chǔ)等模塊的只讀用戶,提供統(tǒng)一的工具或數(shù)據(jù)采集模塊來(lái)獲取數(shù)據(jù),而且采集工具或系統(tǒng)一般僅存儲(chǔ)索引信息,而不存儲(chǔ)業(yè)務(wù)系統(tǒng)信息實(shí)體。
2)行內(nèi)系統(tǒng)日志的采集。很多商業(yè)銀行都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,這些工具一般都采用分布式架構(gòu),能滿足每秒數(shù)百兆字節(jié)的日志數(shù)據(jù)采集和傳輸需求。