背景介紹: 據 IDC 預測,全球大數據市場規模有望在 2017 年達 530 億美元,并在未來幾年內依然保持30%以上的年復合增長率。中國市場大數據研究雖然起步較晚,但是近幾年來在國家政策指引下,市場需求處于爆發期,發展迅速。 從細分產業來看,各大產業對大數據的呼聲越來越高,希望加快傳統產業數字化、智能化,做大做強數字經濟,為產業轉型升級提供新動力。大數據需求旺盛,在金融、電信、政務、醫療、能源等行業已經起步,并逐步向其他行業擴展。 然而,由于大數據相關技術更新速度快、技術門檻高,多數傳統產業在這方面積累不足,大數據轉型過程中僅依靠自身力量困難重重,并且成本高昂。因此,希望有相關廠商提供成熟的大數據產品和一體化的解決方案。 解決方案介紹: 大數據平臺架構  由于數據的多源異構、數據量大以及各種業務處理時間的不一致性,給大數據處理帶來了巨大挑戰,僅靠單一的大數據處理技術無法滿足大數據處理需求。大數據平臺項目的建設,應采用當前主流的技術架構體系;技術工具自主可控,成熟先進;能支撐三到五年內各類實時、近線、離線數據計算場景;隨著業務和數據規模的增加,通過分布式架構可水平擴充計算設備和存儲設備,實現資源的水平擴展。 由大數據處理平臺總體架構可以看出,其應具備完整的大數據采集、整合、存儲、處理、分析、展現和管理能力。 大數據平臺建設 數據集成 平臺提供統一的數據總線,在傳統ETL基礎上增加對非結構化數據、流數據、互聯網數據的支撐,通過實時數據預處理或單獨的批量數據離線處理腳本,協同完成數據清洗、去重、打標簽、索引化、分發等大數據管控和治理體系建設。 對于結構化數據,從技術實現上通過ETL工具進行數據抽取。ETL工具基于業界主流的ETL產品Kettle來實現,支持Oracle、DB2、SqlServer、MySQL等主流關系數據庫之間以及到Hadoop的數據抽取。 對于非結構化數據,特別是互聯網相關的網頁、圖片、視音頻文件等,主要通過分布式網絡爬蟲進行獲取。該工具可實現數據采集、抽取、預處理、任務優先級、任務監控的靈活定義。通過與后端的智能化語義處理模塊協作,可實現高效的互聯網數據價值挖掘。 數據存儲 在數據存儲層面,傳統數據存儲方式在海量數據場景下,存儲容量和讀取性能方面都出現了明顯的弊端。數據通過不同渠道采集集成到平臺之后,平臺根據數據的使用方式等采用不同的分布式存儲技術進行存儲,使得整個數據環境具備高度的伸縮性和擴展性,滿足未來快速增長的數據規模,并充分保證數據存儲方式的合理性及將來軟硬件的擴展能力。除了原來的關系型數據庫外,大數據平臺還提供如下幾種存儲方式: 基于HDFS分布式文件系統,將數據的訪問和存儲分布在大量服務器之中,在可靠的多備份存儲的同時還能將訪問分布在集群中的各個服務器之上,通過分布式存儲實現數據的冗余備份,并提升大數據的訪問存取性能,高效低成本地應對海量非結構化數據和不需要關聯分析、Ad-hoc查詢較少的低價值密度結構化數據的存儲和處理工作。 KV列式數據存儲,針對結構化數據,采用與傳統數據庫類似的設計模型,支持數字、字符串、二進制和布爾值等多種數據類型;針對半結構化數據,則允許開發者自定義數據模型,提供多種數據訪問方式,助力高性能應用程序的開發。 MPP數據存儲,針對海量數據提供無共享的分布式、并行處理架構,應對海量結構化數據的分析挖掘場景。 內存數據存儲,基于全部數據都在內存中的體系結構,在數據緩存、快速算法、并行操作方面進行了相應的改進,數據處理速度比傳統數據庫的數據處理速度提升很多,可以有效解決數據訪問延時的問題。 數據計算 集成豐富的計算框架 大規模數據計算與處理的場景復雜,性能要求高,因此需要采用分布式、可擴展的計算和調度架構。 離線計算:需要調度批量任務來操作大規模靜態數據,適合實時性要求不高的場景。通過將一個大的任務劃分成多個部分,分別交給多個計算節點進行處理,綜合得到最終結果。 流式計算:在數據的有效時間內獲取其價值,是流式計算系統的首要設計目標。因此,當數據到來后將立即對其進行計算,而不再對其進行緩存等待后續全部數據到來再進行計算。流式計算主要用在搜索、實時監控統計、實時推薦、垃圾郵件處理等場景。 內存計算:面對海量信息,傳統的技術架構中需要讀取數據,然后再進行運算,性能和效率不盡人如意。而內存計算,將整個數據放入內存,使每個事務在執行過程中沒有I/O,相對于磁盤操作,內存的數據讀寫速度要高出幾個數量級。 圖計算:分布式圖計算通過抽象分布式存儲、并行計算等復雜問題,高效處理巨型圖的各種操作,從噪音很多的海量數據中抽取有用的信息,可以挖掘人、物和實體之間的潛在、不易觀察的行為和聯系。 統一的調度管理和標準的開放服務 通過統一的資源調度框架,實現了不同計算框架的共享管理模式。通過這種共享管理模式,可以感知各節點的資源情況和計算壓力,自動平衡和調度計算任務,大大提升計算效率和資源有效利用率。 提供標準的開放服務接口,將計算能力以服務接口的方式進行暴露,易理解、易調用。服務接口提供統一認證,接口調用時需提供賬號、密碼、密鑰、租戶信息等獲取訪問憑證,保證服務訪問的安全可靠。 數據分析挖掘 智能搜索 智能搜索引擎把相關的結構化和非結構化內容信息抽取出來并進行建模,經過中文分詞技術建立起索引,讓用戶通過搜索快速地訪問到這些信息,并能做到根據用戶的個性化做出合理的排序結果。 機器學習 機器學習提供方便易用的交互式界面,幫助使用者進行離線批量預測或在線實時預測。預測過程運行在分布式系統中,基于內存進行迭代式計算,可以對海量數據進行預測,具備極強的擴展性,每天可以生成十幾億條預測結果。針對預制值,允許人工調整和修改,以確保數據讀取的準確性,從而提升預測命中率。支持成熟、豐富的數據挖掘算法,可以生成分類、聚集、回歸模型,適應在多種行業的機器學習場景。 客戶收益: Insight將業界主流的新型數據處理技術、架構框架、分析模型、服務理念等內置在產品中,各行業客戶可以基于該產品快速搭建起安全可靠、高效智能的大數據平臺,快速實現傳統產業數字化、智能化,做大做強數字經濟,為產業轉型升級提供新動力。 快速實現多源數據整合,挖掘數據全新價值 實現內外部信息資源的有效整合,全面提升數據共享和信息聯動的運轉效率,挖掘數據全新價值,支持決策管理。 大幅減少數據計算時間,提升業務效率 具有并行處理架構、內存計算等多重機制,保證數據加載、計算、訪問等各個環節數據處理效率最大化,提升業務效率。 實現在線擴容,提升系統穩定性 支持集群在線擴展,支持數據存儲、加載和查詢性能線性增長,并具備多層次的容錯、自動檢測和自動恢復機制,保證系統安全可用,降低業務停頓和運維風險。 提供大數據分析能力,提升業務價值 在海量多源數據的有效整合基礎上,結合智能搜索、機器學習等大數據分析手段,實現自動高效的智能檢索、推薦預測,全面提升數據共享和信息聯動的運轉效率,挖掘數據全新業務價值,支持決策管理。
|