培訓背景
針對貴方培訓需求之R語言與Hadoop環(huán)境下大數(shù)據(jù)分析與挖掘課程,特編制此課程的方案。課程要點應答方案包括課程目標設計、課程實施大綱與框架、師資隊伍配備、課程訓后評估及手段、課程質量控制流程、課程后期服務承諾、課程培訓承諾、課程培訓優(yōu)勢、課程成功案例等內容。
培訓收益
1.本課程盡量避開數(shù)學公式,按照“講清思想方法原理—結合具體案例—R語言實現(xiàn)細節(jié)”思路,讓即使是幾乎沒有什么基礎的學員,掌握R語言數(shù)據(jù)挖掘的基本思路和模式,打下未來深入的良好基礎,能在工作和學習中結合具體問題立馬上手操作解決;
2.課程注重學練結合的方法,會采取小組討論的方法,充分調動大家思考的積極性,在做中掌握相關知識和技能;
3.課程緊緊抓住R語言和數(shù)據(jù)挖掘的重點和難點,詳細的分析和講解,在理解難、容易出錯的地方反復提醒,以便學員在課后容易的進行自己復習和相關拓展;
4.本課程讓學員領略大數(shù)據(jù)技術的魅力和廣闊前景,使學員掌握主流的大數(shù)據(jù)(包括結構化、半結構化和非結構化數(shù)據(jù))的表示、建模、存儲、管理、分析處理、挖掘、推薦技術、匹配技術與關聯(lián)分析技術,以及機器學習平臺的原理與應用實戰(zhàn);
5.課程緊密結合行業(yè)市場需求和國際國內最新技術發(fā)展潮流,讓學員掌握大數(shù)據(jù)分析挖掘平臺架構和應用部署,分享成功的大數(shù)據(jù)應用項目實施經驗,學習大數(shù)據(jù)分析應用項目解決方案咨詢服務;
6.讓學員掌握常見的大數(shù)據(jù)分析方法和數(shù)據(jù)挖掘算法使用方法,以及大數(shù)據(jù)開發(fā)與運維技術。讓學員掌握基于Hadoop大數(shù)據(jù)平臺的數(shù)據(jù)挖掘平臺Mahout、MLbase機器學習算法庫應用、數(shù)據(jù)倉庫HIVE、實時分析平臺Spark、實時挖掘平臺Shark、分布式機器學習與推薦系統(tǒng)平臺Oryx的入門、中級以及高級應用,并對主流的大數(shù)據(jù)分析建模與挖掘推薦平臺產品剖析。
培訓特色
本次培訓從案例分析與行業(yè)應用穿插;專家精彩內容解析、學員專題討論、分組研究;通過全面知識理解、專題技能演示和實踐引導學員掌握課程內容。
課程大綱
日程 | 培訓模塊 | 內容 |
---|---|---|
第一天 上午 | 大數(shù)據(jù)概述 |
1.大數(shù)據(jù)基本概念、技術梗概、技術沿革,以及大數(shù)據(jù)技術是如何改變人工智能技術、語音識別技術、圖像識別/視頻理解、自然語言處理技術等,以及大數(shù)據(jù)技術在政府、金融、石油、教育、交通、醫(yī)療衛(wèi)生等行業(yè)的成功案例; 2.Hadoop大數(shù)據(jù)平臺的生態(tài)系統(tǒng)組件、平臺架構以及工作原理;分布式文件系統(tǒng)HDFS、并行處理系統(tǒng)Hadoop MapReduce的系統(tǒng)架構、核心功能模塊、工作原理以及應用開發(fā); 3.大數(shù)據(jù)的結構化數(shù)據(jù)模型、半結構化模型和非結構化數(shù)據(jù)的存儲模型,邏輯模型,以及分析建模工具的常用方法。 |
第一天 下午 | 數(shù)據(jù)挖掘及Mahout |
1.十大常用的并行數(shù)據(jù)挖掘算法、原理、應用場景,以及技術實戰(zhàn); 2.并行數(shù)據(jù)挖掘平臺Mahout的技術架構、核心組件的工作原理以及技術; 3.Mahout應用開發(fā)技術; 4.Mahout項目實戰(zhàn)。 |
第二天 上午 | R語言精要 |
本著循序漸進而又覆蓋R語言重要而有用的基本內容原則,本講從R語言入門開始,以前期的數(shù)據(jù)處理為核心,以實際案例為載體,內容包括R語言的向量、數(shù)據(jù)框、矩陣運算、缺失值和零值的處理、特別注重用R語言構造函數(shù)編程解決實際問題,詳細介紹強大的數(shù)據(jù)清洗整理plyr、zoo、car等常用包和強大的作圖ggplot2包,為使用R語言進行數(shù)據(jù)挖掘打下扎實的工具基礎。 主要案例: 案例1:如何用R語言plyr等包合并、排序、分析數(shù)據(jù)并編制香農-威納指數(shù); 案例2:如何用R語言編程同時實現(xiàn)幾十個高難度數(shù)據(jù)分析可視化圖片的jpeg格式輸出; 案例3:如何使用R語言進行分層或者整群抽樣構建訓練集與測試集; 案例4:使用ggplot2畫出各種復雜的圖形。 |
第二天 下午 |
Logistic回歸與 商業(yè)大數(shù)據(jù)建模 |
Logistic回歸是商業(yè)建模的常用重要數(shù)據(jù)挖掘方法,本講要講清楚Logistic回歸的建模原理、與多元線性模型的區(qū)別、R語言實現(xiàn)過程及回歸診斷注意事項、預測方法和結果解釋,讓學員徹底地掌握Logistic回歸解決問題的R語言方法。 主要案例: 案例1:利用Logistic回歸幫助商業(yè)銀行完成對客戶提前還貸款情況的預測; 案例2:利用Logistic回歸幫助醫(yī)生對病人選擇最佳治療方案; 案例3:利用Logistic回歸幫助廠家分析顧客做出購買決策的重要因素; 案例4:利用Logistic回歸幫助壽險公司進行目標客戶精準電話營銷; 案例5:利用Logistic回歸幫助商業(yè)銀行完成對客戶的信用評分; 案例6:利用Logistic回歸幫助公司分析客戶流失的原因并做好預測。 |
第三天 上午 |
關聯(lián)規(guī)則和 R語言實現(xiàn) |
關聯(lián)規(guī)則(著名的“啤酒和尿布”)是數(shù)據(jù)挖掘的基礎和核心技術之一,本講將著重圍繞經典的Apriori算法和eclat算法,闡明關聯(lián)規(guī)則的支持、置信和提升程度與控制,使用R語言快速完成關聯(lián)規(guī)則分析。 主要案例: 案例1:使用R語言關聯(lián)規(guī)則方法幫助各個超市實現(xiàn)商品的最佳捆綁銷售方案(即“購物籃”分析); 案例2:泰坦尼克號乘客幸存的關聯(lián)規(guī)則分析; 案例3:提高個人收入的關聯(lián)分析。 |
第三天 下午 |
決策樹(回歸樹) 分析和R語言實現(xiàn) |
決策樹是數(shù)據(jù)挖掘的經典方法,其原理容易被理解。本講主要講授兩種最為普遍的決策樹算法:CART和C4.5算法,使用rpart和J48函數(shù)進行R語言分析。 主要案例: 案例1:對汽車耗油量進行決策樹分析并完成相關目標變量的預測; 案例2:使用決策樹幫助電信局判斷和預測客戶辦理寬帶業(yè)務。 |
第四天 上午 |
機器集成學習的 Bagging和AdaBoost算法 |
這兩種方法將許多分類器的預測結果進行匯總分析,從而達到顯著提升分類效果。本講介紹這2種算法的思想,在R語言中構造訓練集和測試集進一步進行分析。 主要案例: 案例1:用R語言的Bagging和AdaBoost進行商業(yè)銀行定期存款的分析和預測; 案例2:用R語言的Bagging和AdaBoost識別有毒蘑菇。 |
第四天 下午 |
R語言隨機森林 (RandomForest)算法 |
在機器學習中,隨機森林是一個包含多個決策樹的分類器,本講講清隨機森林方法的原理,以致在實際中幫助學員判斷適合進行隨機森林分析的情況,最終熟練掌握R語言隨機森林分析的方法。 主要案例: 案例1:對皮膚病進行隨機森林的分類和預測; 案例2:對酒的品質和種類進行分類和評價。 |
第五天 上午 |
支持向量機和 R語言的實現(xiàn) |
本講將分析支持向量機的結構風險最小原理、間隔和核函數(shù),從而幫助學員深刻理解支持向量機的思想和算法,以及使用中注意的問題,從而幫助學員靈活地應用于各個領域。 主要案例: 案例1:對著名的鳶尾花數(shù)據(jù)進行支持向量機的分析; 案例2:使用支持向量機識別有毒蘑菇; 案例3:使用支持向量機進行股票指數(shù)預測。 |
第五天 下午 |
神經網絡和 R語言的實現(xiàn) |
神經網絡由大量的節(jié)點和輸出函數(shù)構成邏輯策略,本講介紹其原理,主要通過案例的方式講解R語言實現(xiàn)神經網絡算法的過程和注意的事項。 主要案例: 案例1:酒的品質和種類的神經網絡的分析和預測; 案例2:公司財務預警建模。 |
交叉驗證比較 各個模型 |
對于同一個數(shù)據(jù),可能有很多模型來擬合,如何衡量和比較模型的精度呢?本講將介紹交叉驗證訓練集和測試集的方法來幫助大家在實際中選取最佳模型進行擬合和預測。 | |
使用R語言結合KNN 算法進行文本挖掘 |
文本挖掘,特別是對中文的文本挖掘日趨重要。本講介紹文本挖掘的原理和方法,幫助大家使用R語言在大量的非結構化的數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,抽取潛在有用的數(shù)據(jù),發(fā)現(xiàn)適合模式,實現(xiàn)可視化結果展示。 主要案例: 案例:使用R語言結合KNN算法對網頁(Web)進行文本挖掘(含分詞、分類、可視化等)。 |