培訓(xùn)搜索引擎

數(shù)據(jù)分析培訓(xùn)班

內(nèi)訓(xùn)講師:劉暉 需要此內(nèi)訓(xùn)課程請聯(lián)系中華企管培訓(xùn)網(wǎng)
數(shù)據(jù)分析培訓(xùn)班內(nèi)訓(xùn)基本信息:
劉暉
劉暉
(擅長:其他課程 )

內(nèi)訓(xùn)時長:40天

邀請劉暉 給劉暉留言

內(nèi)訓(xùn)咨詢熱線:010-68630945; 88682348

內(nèi)訓(xùn)課程大綱

數(shù)據(jù)分析培訓(xùn)班(9門課程,共40天)

(1)培訓(xùn)背景

隨著互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等科技的快速發(fā)展,經(jīng)濟發(fā)展已經(jīng)進入全球化時代,企業(yè)的命運與國際經(jīng)濟環(huán)境緊密聯(lián)系,如美國的經(jīng)濟危機會波及到全球各個國家與地區(qū)和企業(yè),國家和企業(yè)已經(jīng)不是孤立的存在。在經(jīng)濟全球化時代商業(yè)環(huán)境極其復(fù)雜,不僅要考慮國內(nèi)、國外經(jīng)濟環(huán)境,同時還要考慮不同國家的國家政策,不同民族的民族文化,不同宗教的宗教信仰等,更加加深入了商業(yè)環(huán)境的復(fù)雜程度。在極其復(fù)雜的國際商業(yè)環(huán)境中,作為大型企業(yè)領(lǐng)導(dǎo)者僅憑經(jīng)驗與智慧無法全面了解與掌控企業(yè)、了解國際化的商業(yè)環(huán)境,因此很難做出正確的企業(yè)戰(zhàn)略決策,甚至更無法做到企業(yè)精細化管理,更不可能做到高效運營,那么,如何突破因商業(yè)環(huán)境復(fù)雜度而導(dǎo)致的企業(yè)失控呢?并在復(fù)雜的商業(yè)競爭環(huán)境中脫穎而出并獲得最大利潤呢?答案是掌握企業(yè)數(shù)據(jù)和掌握國際化數(shù)據(jù),并建立高效的數(shù)據(jù)分析體系,探索數(shù)據(jù)、挖掘數(shù)據(jù)高效準確的獲取國際化的經(jīng)濟環(huán)境狀況,洞察市場趨勢提前做出有利于企業(yè)的戰(zhàn)略決策,提高企業(yè)競爭力,規(guī)避市場風(fēng)險,數(shù)據(jù)分析則是提升企業(yè)管理水平,實現(xiàn)上述目標的一種行之有效的方法。國際化的競爭就是信息的國際化競爭。
隨著大數(shù)據(jù)、人工智能的快速發(fā)展,數(shù)據(jù)的價值越發(fā)突顯,并為海量的高并發(fā)的數(shù)據(jù)分析提供了新的工具與可行性,較以往的傳統(tǒng)數(shù)據(jù)分析工具更為有效,甚至傳統(tǒng)數(shù)據(jù)分析工具做不到的,大數(shù)據(jù)、人工智能都能做到。因此不僅僅企業(yè),社會各個方面也因大數(shù)據(jù)的價值而提高了對數(shù)據(jù)的關(guān)注程度,也加大了數(shù)據(jù)分析的投入力度。無論是企業(yè)管理、戰(zhàn)略決策、精準營銷、精細化管理等都無處不體現(xiàn)著數(shù)據(jù)分析的重要性。
數(shù)據(jù)如此重要,如何建設(shè)一個高效的數(shù)據(jù)分析體系呢?至少要具備以下兩個條件:一是在宏觀層面上正確理解數(shù)據(jù)分析;二是豐富的IT系統(tǒng)建設(shè)經(jīng)驗、分布式技術(shù)和較強的數(shù)據(jù)技術(shù)能力。第一點尤為重要,因為一旦在思想和認識層面對數(shù)據(jù)分析體系理解有誤,那么即使精通于各種技術(shù)方案,所建立起來的也只是一堆技術(shù)架構(gòu)的粗糙堆砌,雖然也能達到部分數(shù)據(jù)分析的效果,但必定會事倍功半。構(gòu)建數(shù)據(jù)分析體系包括四個層面:一是數(shù)據(jù)基礎(chǔ)平臺;二是數(shù)據(jù)報表與可視化;三是精細化業(yè)務(wù)分析;四是戰(zhàn)略分析與決策。如下圖為數(shù)據(jù)分析體系結(jié)構(gòu)圖。
大數(shù)據(jù)體系構(gòu)建
那么在數(shù)據(jù)基礎(chǔ)平臺建設(shè)層面,均采用大數(shù)據(jù)平臺,如Hadoop、Spark等大數(shù)據(jù)平臺,其好處是開源、可控,無需從零開始搭建平臺節(jié)約成本;也避免了因大數(shù)據(jù)的多樣性、隱私性等特點導(dǎo)致供應(yīng)無法深入挖掘數(shù)據(jù)的問題。為什么要自建數(shù)據(jù)分析平臺呢?不能采購嗎?答案是不能采購,只能自建!因為數(shù)據(jù)挖掘一個持續(xù)的過程,日常企業(yè)經(jīng)常過程產(chǎn)生的數(shù)據(jù)、市場數(shù)據(jù)都是需要分析的,是一個持續(xù)不斷的工作,不是編寫幾個算法了事的,所以如果從供應(yīng)商采購必然會導(dǎo)致分析工作不夠深入與不夠?qū)I(yè),數(shù)據(jù)的價值是隱藏在數(shù)據(jù)中的,需要不斷的持續(xù)的挖掘才能找的,不是算法和分析工具能做到的。因此企業(yè)需要自建數(shù)據(jù)分析平臺,而不采購分析工具。
Hadoop、Spark生態(tài)系統(tǒng)是大數(shù)據(jù)技術(shù)事實標準,是大數(shù)據(jù)思想、理念、機制的具體實現(xiàn),是整個大數(shù)據(jù)技術(shù)中公認的核心框架和具有極強的使用價值與研究價值。Hadoop 系統(tǒng)是一款開源軟件,能夠處理海量的各種結(jié)構(gòu)(包括結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化)的數(shù)據(jù)。
Hadoop是分布式集群框架,可以管理成百上千臺x86服務(wù)器集群?;贖adoop 的解決方案能夠幫助企業(yè)應(yīng)對多種大數(shù)據(jù)挑戰(zhàn),包括:
             1、      分析海量(PB 級或者更多)的數(shù)據(jù)
Hadoop 能夠分析所有數(shù)據(jù),使得分析更準確,預(yù)測更精確;
             2、      從多個數(shù)據(jù)類型的組合中獲得新的洞察力
將來自多個數(shù)據(jù)源的不同類型的數(shù)據(jù)進行結(jié)合分析,發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系和洞察力;
             3、      存儲大量的數(shù)據(jù)
由于它不依賴于高端硬件,且是可擴展的,所以使存儲大量數(shù)據(jù)變得經(jīng)濟有效;
             4、      數(shù)據(jù)發(fā)現(xiàn)(data discovery)和研究的沙箱
Hadoop 提供了一個地方,數(shù)據(jù)科學(xué)家可在此發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系和相互依賴性。
 
工業(yè)和信息化部電信研究院于2014年5月發(fā)布的“大數(shù)據(jù)白皮書”中指出:
“2012 年美國聯(lián)邦政府就在全球率先推出“大數(shù)據(jù)行動計劃(Big data initiative)”,重點在基礎(chǔ)技術(shù)研究和公共部門應(yīng)用上加大投入。在該計劃支持下,加州大學(xué)伯克利分校開發(fā)了完整的大數(shù)據(jù)開源軟件平臺“伯克利數(shù)據(jù)分析軟件棧(Berkeley Data Analytics Stack),其中的內(nèi)存計算軟件Spark的性能比Hadoop 提高近百倍,對產(chǎn)業(yè)界大數(shù)據(jù)技術(shù)走向產(chǎn)生巨大影響”
                                          ----來源:工業(yè)和信息化部電信研究院
 
S9~GWDRI[C7VX(O{4OSS9Y1
 
Spark是成為替代MapReduce架構(gòu)的大數(shù)據(jù)分析技術(shù),Spark的大數(shù)據(jù)生態(tài)體系包括流處理、圖技術(shù)、機器學(xué)習(xí)等各個方面,并且已經(jīng)成為Apache頂級項目,可以預(yù)計的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會有爆發(fā)式的增長。
US9R2XIE39V0U`OTT9S}A7I
 
國內(nèi)外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark,并且它的高性能已經(jīng)得到實踐的證明。國外Yahoo已在多個項目中部署Spark,尤其在信息推薦的項目中得到深入的應(yīng)用;國內(nèi)的淘寶、愛奇異、優(yōu)酷土豆、網(wǎng)易、baidu、騰訊等大型互聯(lián)網(wǎng)企業(yè)已經(jīng)將Spark應(yīng)用于自己的生產(chǎn)系統(tǒng)中。國內(nèi)外的應(yīng)用開始越來越廣泛。Spark正在逐漸走向成熟,并在這個領(lǐng)域扮演更加重要的角色。
 

(2)培訓(xùn)目標

本次數(shù)據(jù)分析技術(shù)培訓(xùn)課程,整個課程體系設(shè)計完備,思路清晰,學(xué)員通過本次課程的系統(tǒng)性學(xué)習(xí)可以掌握如下技能:
1)    了解數(shù)據(jù)分析基本概念及產(chǎn)業(yè)鏈,數(shù)據(jù)分析與大數(shù)據(jù)等內(nèi)容;
2)    學(xué)會數(shù)據(jù)的產(chǎn)生、導(dǎo)入與預(yù)處理。掌握大數(shù)據(jù)生成與導(dǎo)入,數(shù)據(jù)分析流程與建模思想,數(shù)據(jù)清洗與數(shù)據(jù)加工等內(nèi)容;
3)    掌握數(shù)據(jù)分析與挖掘基礎(chǔ)。學(xué)習(xí)常見數(shù)據(jù)分析方法與數(shù)據(jù)挖掘概述,描述型數(shù)據(jù)分析,常見數(shù)據(jù)分析與挖掘算法(Kmeans、購物籃、決策樹、樸素貝葉斯等)等內(nèi)容。
4)    學(xué)習(xí)數(shù)據(jù)分析工具R語言的數(shù)據(jù)分析實戰(zhàn)。學(xué)習(xí)R語言入門基礎(chǔ),描述性統(tǒng)計分析, 用R語言做數(shù)據(jù)挖掘?qū)崙?zhàn)等內(nèi)容。
5)    介紹大數(shù)據(jù)工具之Hadoop。深入理解Hadoop原理及組件介紹,Hadoop數(shù)據(jù)分析入門等內(nèi)容。
6)    介紹大數(shù)據(jù)工具之Spark。深入剖析Spark基本概念,Spark開發(fā)與數(shù)據(jù)分析等內(nèi)容。
7)    編寫Pyspark集群調(diào)度與數(shù)據(jù)處理程序。使用Python調(diào)度spark集群并進行數(shù)據(jù)處理等內(nèi)容。
8)    學(xué)習(xí)大數(shù)據(jù)可視化技術(shù)。包括數(shù)據(jù)可視化技術(shù)概述及培訓(xùn)關(guān)鍵點概述,數(shù)據(jù)挖掘與可視化工具介紹(SAS、Project、Excel、SPSS、Tableau等),可視化案例分享等內(nèi)容。
9)    學(xué)習(xí)Python與數(shù)據(jù)分析實戰(zhàn)。包括Python語言入門,Python網(wǎng)絡(luò)編程、爬蟲與機器學(xué)習(xí),Python數(shù)據(jù)分析案例分享,基于spark集群的python數(shù)據(jù)分析實戰(zhàn)等內(nèi)容。
 
通過以上的系統(tǒng)學(xué)習(xí),學(xué)員會建立完整的數(shù)據(jù)知識體系,使學(xué)員正確認識大數(shù)據(jù),掌握大數(shù)據(jù)思維方法,為工作、生活和學(xué)習(xí)打下堅實的基礎(chǔ),為持續(xù)成長提供原動力。下圖為本次課程結(jié)束后學(xué)員獲取的完整數(shù)據(jù)知識體系如下圖。

完整數(shù)據(jù)知識體系

(3)教學(xué)計劃

本系列課程總共由9門課程組成:
教學(xué)設(shè)計 NO. 課程名稱 課程天數(shù)
基礎(chǔ)與概述 1 數(shù)據(jù)分析概述 1天
2 數(shù)據(jù)的產(chǎn)生、導(dǎo)入與預(yù)處理 5天
數(shù)據(jù)分析與數(shù)據(jù)挖掘核心技術(shù)講解及案例實操 3 數(shù)據(jù)分析與挖掘基礎(chǔ) 6天
4 R語言數(shù)據(jù)分析實戰(zhàn) 6天
大數(shù)據(jù)技術(shù)講解與編程實操 5 大數(shù)據(jù)工具介紹之Hadoop 2天
6 大數(shù)據(jù)工具介紹之Spark 3天
7 Pyspark集群調(diào)度與數(shù)據(jù)處理 2天
大數(shù)據(jù)可視化 8 大數(shù)據(jù)可視化 2天
Python與數(shù)據(jù)分析實戰(zhàn) 9 Python與數(shù)據(jù)分析實戰(zhàn) 13天
 
 
         第1-2門課屬于基礎(chǔ)與概述,包括數(shù)據(jù)分析基本概念及產(chǎn)業(yè)鏈,數(shù)據(jù)分析與大數(shù)據(jù)等內(nèi)容。大數(shù)據(jù)生成與導(dǎo)入,數(shù)據(jù)分析流程與建模思想,數(shù)據(jù)清洗與數(shù)據(jù)加工等內(nèi)容。
         第3-4門課程數(shù)據(jù)分析與數(shù)據(jù)挖掘核心技術(shù)講解及案例實操,包括常見數(shù)據(jù)分析方法與數(shù)據(jù)挖掘概述,描述型數(shù)據(jù)分析,常見數(shù)據(jù)分析與挖掘算法(Kmeans、購物籃、決策樹、樸素貝葉斯等)等內(nèi)容。R語言入門基礎(chǔ),描述性統(tǒng)計分析, 用R語言做數(shù)據(jù)挖掘?qū)崙?zhàn)等內(nèi)容。。
         第5-7門課程主要大數(shù)據(jù)技術(shù)講解與編程實操,包括Hadoop原理及組件介紹,Hadoop數(shù)據(jù)分析入門等內(nèi)容。Spark基本概念,Spark開發(fā)與數(shù)據(jù)分析等內(nèi)容。使用Python調(diào)度spark集群并進行數(shù)據(jù)處理等內(nèi)容。
         第8門是大數(shù)據(jù)可視化。包括數(shù)據(jù)可視化技術(shù)概述及培訓(xùn)關(guān)鍵點概述,數(shù)據(jù)挖掘與可視化工具介紹(SAS、Project、Excel、SPSS、Tableau等),可視化案例分享等內(nèi)容。
         第9門是Python與數(shù)據(jù)分析實戰(zhàn)。包括Python語言入門,Python網(wǎng)絡(luò)編程、爬蟲與機器學(xué)習(xí),Python數(shù)據(jù)分析案例分享,基于spark集群的python數(shù)據(jù)分析實戰(zhàn)等內(nèi)容。
 

(4)具體課程方案(含課程大綱)

課程1:數(shù)據(jù)分析概述-1天

【匹配關(guān)鍵知識點】
數(shù)據(jù)分析基本概念及產(chǎn)業(yè)鏈,數(shù)據(jù)分析與大數(shù)據(jù)等內(nèi)容。
【課程時間】
1天(6小時/天)
【課程簡介】
本課程介紹大數(shù)據(jù)體系構(gòu)建數(shù)據(jù)平臺,重點內(nèi)容包括數(shù)據(jù)平臺基礎(chǔ)理論、數(shù)據(jù)集成、數(shù)據(jù)維度等知識點;本課程讓學(xué)員掌握基于大數(shù)據(jù)生態(tài)的數(shù)據(jù)分析知識、大數(shù)據(jù)生態(tài)體系技術(shù)選型,能夠應(yīng)用建模技術(shù)、大數(shù)據(jù)技術(shù)構(gòu)建數(shù)據(jù)平臺。
隨著大數(shù)據(jù)時代的快速到來,以及大數(shù)據(jù)在生產(chǎn)生活中迅速應(yīng)用,數(shù)據(jù)分析、數(shù)據(jù)建模、數(shù)據(jù)挖掘、機器學(xué)習(xí)等重要性越發(fā)突出,本課程是針對大數(shù)據(jù)時代的特點,尹老師總結(jié)多年數(shù)據(jù)分析經(jīng)驗,而精心設(shè)計的課程,課程內(nèi)容涵蓋了數(shù)據(jù)領(lǐng)域的數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、機器學(xué)習(xí)等內(nèi)容的應(yīng)用范圍、發(fā)展前景剖析。
【課程收益】
1、數(shù)據(jù)分析基本概念及產(chǎn)業(yè)鏈等內(nèi)容;
2、數(shù)據(jù)分析與大數(shù)據(jù)等內(nèi)容;
【課程特點】
數(shù)據(jù)分析基本概念及產(chǎn)業(yè)鏈,數(shù)據(jù)分析與大數(shù)據(jù)等內(nèi)容
【課程對象】
     數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
     將承擔數(shù)據(jù)分析師職責的業(yè)務(wù)人員或信息化人員
     希望加強數(shù)據(jù)分析能力的軟件開發(fā)人員
     系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
     具有2年以IT部門工作經(jīng)驗,將負責數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(1天*6小時)
時間 內(nèi)容 案例實踐與練習(xí)
Day1
數(shù)據(jù)分析概述
1、 數(shù)據(jù)知識體系
2、 數(shù)據(jù)倉庫誕生的歷史背景
3、 大數(shù)據(jù)時代數(shù)據(jù)倉庫的演變
4、 大數(shù)據(jù)是一套全新的思維體系
5、 縱向、橫向擴容
6、 全量分析
7、 大數(shù)據(jù)是一套全新的技術(shù)體系
8、 大數(shù)據(jù)思維與傳統(tǒng)軟件思維的區(qū)別
9、 大數(shù)據(jù)的數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)倉庫的區(qū)別
10、 硬件成本、軟件技術(shù)積累
11、 數(shù)據(jù)知識體系
12、 數(shù)據(jù)采集
13、 數(shù)據(jù)ETL
14、 數(shù)據(jù)挖掘
15、 數(shù)據(jù)可視化
16、 商務(wù)智能
17、 業(yè)務(wù)創(chuàng)新應(yīng)用
18、 大數(shù)據(jù)生態(tài)體系介紹
19、 大數(shù)據(jù)支撐----云計算
20、 大數(shù)據(jù)核心----海量數(shù)據(jù)
21、 大數(shù)據(jù)靈魂----大數(shù)據(jù)技術(shù)
22、 大數(shù)據(jù)價值----大數(shù)據(jù)商業(yè)思維
23、 大數(shù)據(jù)企業(yè)應(yīng)用障礙分析
案例練習(xí):通過大數(shù)據(jù)企業(yè)應(yīng)用障礙分析案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:大數(shù)據(jù)企業(yè)應(yīng)用障礙分析
 

課程2:數(shù)據(jù)的產(chǎn)生、導(dǎo)入與預(yù)處理-5天

【匹配關(guān)鍵知識點】
大數(shù)據(jù)生成與導(dǎo)入,數(shù)據(jù)分析流程與建模思想,數(shù)據(jù)清洗與數(shù)據(jù)加工等內(nèi)容。
【課程時間】
5天(6小時/天)
 
【課程簡介】
隨著大數(shù)據(jù)時代的快速到來,以及大數(shù)據(jù)在生產(chǎn)生活中迅速應(yīng)用,大數(shù)據(jù)領(lǐng)域如雨后春筍般的出現(xiàn)大量的新技術(shù),如Hadoop、Spark等技術(shù),其中Python語言已經(jīng)成為大數(shù)據(jù)技術(shù)中最為重要的一部分,被越來越多的企業(yè)所使用。Python語言的功能涵蓋了大數(shù)據(jù)領(lǐng)域的數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、機器學(xué)習(xí)、人工智能、大數(shù)據(jù)應(yīng)用開發(fā)等各種不同類型的計算操作,應(yīng)用范圍廣泛、前景非常廣闊。本課程是尹老師多年工作經(jīng)驗的總結(jié)和歸納,從實際業(yè)務(wù)案例為入口,使學(xué)員從理論層到實操層面系統(tǒng)的學(xué)習(xí)數(shù)據(jù)處理技術(shù),使學(xué)員深入理解Python語言等數(shù)據(jù)分析工具。通過本課程的學(xué)習(xí),學(xué)員即可以正確的分析企業(yè)的數(shù)據(jù),為管理者、決策層提供數(shù)據(jù)支撐。
【課程收益】
1、大數(shù)據(jù)生成與導(dǎo)入;
2、數(shù)據(jù)分析流程與建模思想;
3、數(shù)據(jù)清洗與數(shù)據(jù)加工。
【課程特點】
大數(shù)據(jù)生成與導(dǎo)入,數(shù)據(jù)分析流程與建模思想,數(shù)據(jù)清洗與數(shù)據(jù)加工等內(nèi)容。
【課程對象】
     數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
     將承擔數(shù)據(jù)分析師職責的業(yè)務(wù)人員或信息化人員
     希望加強數(shù)據(jù)分析能力的軟件開發(fā)人員
     系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
     具有2年以IT部門工作經(jīng)驗,將負責數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(5天*6小時)
時間 內(nèi)容 案例實踐與練習(xí)
Day1
數(shù)據(jù)的產(chǎn)生、導(dǎo)入與預(yù)處理
1、 數(shù)據(jù)知識體系
a)      數(shù)據(jù)采集
b)     數(shù)據(jù)ETL
c)      數(shù)據(jù)挖掘
d)     數(shù)據(jù)可視化
e)     商務(wù)智能
f)      業(yè)務(wù)創(chuàng)新應(yīng)用
2、 數(shù)據(jù)分析挖掘的過程
3、 建立數(shù)據(jù)庫的方法
4、 企業(yè)對數(shù)據(jù)分析挖掘的錯誤認識
5、 ETL的設(shè)計
6、 ETL的實施
7、 數(shù)據(jù)源
8、 數(shù)據(jù)采集
9、 隨機抽樣
10、 數(shù)據(jù)去重
11、 數(shù)據(jù)缺失值處理
12、 檢驗數(shù)據(jù)邏輯錯誤
13、 離群點檢測
14、 數(shù)據(jù)轉(zhuǎn)換
15、 數(shù)據(jù)分組
16、 課堂實操:數(shù)據(jù)整理的編程和應(yīng)用
案例練習(xí):通過數(shù)據(jù)整理的編程和應(yīng)用案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:數(shù)據(jù)整理的編程和應(yīng)用
Day2
數(shù)據(jù)清洗與數(shù)據(jù)加工
1、 ROLAP與多維數(shù)據(jù)庫
2、 OLAP與OLTP的區(qū)別
3、 多維數(shù)據(jù)庫與數(shù)據(jù)倉庫的關(guān)系
4、 OLAP模型搭建(多維模型)
5、 確定維度、量度與事實的關(guān)系
6、 OLAP的應(yīng)用場景
7、 決策支持技術(shù)
8、 企業(yè)OLAP模型設(shè)計案例剖析
9、 數(shù)據(jù)模型設(shè)計原則與模型搭建
10、 星型架構(gòu)與雪花型架構(gòu)
11、 事實表與維度表的設(shè)計
12、 邏輯設(shè)計與物理設(shè)計
13、 數(shù)據(jù)模型設(shè)計的常用方法
14、 數(shù)據(jù)模型設(shè)計技巧總結(jié)
15、 數(shù)據(jù)模型分片
16、 數(shù)據(jù)模型索引
17、 數(shù)據(jù)模型粒度
18、 數(shù)據(jù)模型案例分析
 
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:數(shù)據(jù)模型案例分析
Day3
大數(shù)據(jù)生成與導(dǎo)入
1、 大數(shù)據(jù)基礎(chǔ)理論介紹
2、 大數(shù)據(jù)的生成與導(dǎo)入
3、 大數(shù)據(jù)技術(shù)
4、 CAP理論
5、 BASE思想
6、 消息機制
7、 分布式協(xié)調(diào)器
8、 心跳機制
9、 日志結(jié)構(gòu)文件系統(tǒng)
10、 RWN理論
11、 跨操作系統(tǒng)調(diào)度資源
12、 大數(shù)據(jù)企業(yè)實踐
13、 電商遇到的問題
14、 大型互聯(lián)網(wǎng)企業(yè)遇到的問題
15、 大數(shù)據(jù)主要解決的問題
16、 實例分享:淘寶雙十一
17、 實例分享:騰訊QQ
18、 實例分享:百度文庫
19、 實例分享:打車大戰(zhàn)
20、 大數(shù)據(jù)的作用
21、 Pig 設(shè)計的目標
22、 Pig Latine介紹
23、 Pig關(guān)鍵性技術(shù)
24、 Pig的實用案例
25、 Hive簡介
26、 Hive的組件與體系架構(gòu)
27、 Hive架構(gòu)
28、 Hive vs RDBMS
29、 Hive的高可用部署方案
30、 Hive Data Types
31、 Hive安裝模式
32、 Hive安裝部署
33、 Hive Shell
34、 Hive API開發(fā)演示
35、 Hive中UDF和UDAF
36、 Hive數(shù)據(jù)分析
37、 Sqoop簡介
38、 Sqoop架構(gòu)
39、 Sqoop安裝
40、 Sqoop Shell
41、 Flume簡介及使用
42、 Flume架構(gòu)
43、 Flume數(shù)據(jù)源類型
44、 Flume收集數(shù)據(jù)2種主要工作模式
45、 電商客戶日志分析
46、 大型國企大數(shù)據(jù)應(yīng)用
47、 大數(shù)據(jù)架構(gòu)案例分享及實戰(zhàn)演練
案例練習(xí):通過淘寶雙十一案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:淘寶雙十一
Day4
數(shù)據(jù)分析流程
1、 數(shù)據(jù)分析基本概念
2、 數(shù)據(jù)分析算法
3、 數(shù)據(jù)分析工具
4、 數(shù)據(jù)分析流程
5、 數(shù)據(jù)分析范疇
6、 數(shù)據(jù)挖掘基本概念
7、 數(shù)據(jù)挖掘模型
8、 數(shù)據(jù)挖掘模型評估
9、 數(shù)據(jù)挖掘目標
10、 數(shù)據(jù)挖掘數(shù)據(jù)質(zhì)量
11、 數(shù)據(jù)挖掘的9大定律
12、 數(shù)據(jù)挖掘發(fā)展趨勢
案例研討:通過數(shù)據(jù)挖掘案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:數(shù)據(jù)挖掘
Day5
數(shù)據(jù)分析流程與建模思想
1、 定義挖掘目標
2、 數(shù)據(jù)取樣
3、 數(shù)據(jù)探索
4、 數(shù)據(jù)預(yù)處理
5、 挖掘建模
6、 建立模型
7、 業(yè)務(wù)理解
8、 模型擬合
9、 訓(xùn)練集
10、 測試集
11、 模型評價
12、 企業(yè)實踐案例分享
案例練習(xí):通過企業(yè)實踐案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:企業(yè)實踐案例分享
Day5
數(shù)據(jù)的統(tǒng)計學(xué)知識和模型
1、 回歸分析
2、 貝葉斯算法
3、 聚類算法
4、 SVM
5、 決策樹算法
6、 關(guān)聯(lián)規(guī)則算法
7、 時間序列算法
8、 神經(jīng)網(wǎng)絡(luò)
9、 深度學(xué)習(xí)
10、 人工智能
11、 其他挖掘算法
12、 以上數(shù)據(jù)模型的應(yīng)用案例剖析
案例練習(xí):通過數(shù)據(jù)模型的應(yīng)用案例剖析案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:數(shù)據(jù)模型的應(yīng)用案例剖析
 

課程3:數(shù)據(jù)分析與挖掘基礎(chǔ)-6天

【匹配關(guān)鍵知識點】
常見數(shù)據(jù)分析方法與數(shù)據(jù)挖掘概述,描述型數(shù)據(jù)分析,常見數(shù)據(jù)分析與挖掘算法(Kmeans、購物籃、決策樹、樸素貝葉斯等)等內(nèi)容。
【課程時間】
6天(6小時/天)
【課程簡介】
隨著大數(shù)據(jù)時代的快速到來,以及大數(shù)據(jù)在生產(chǎn)生活中迅速應(yīng)用,數(shù)據(jù)分析、數(shù)據(jù)建模、數(shù)據(jù)挖掘、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、人工智能等重要性越發(fā)突出,本課程是針對大數(shù)據(jù)時代的特點,尹老師總結(jié)多年數(shù)據(jù)分析經(jīng)驗,而精心設(shè)計的課程,課程內(nèi)容涵蓋了數(shù)據(jù)領(lǐng)域的數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、人工智能等內(nèi)容,以及人工智能的應(yīng)用范圍、發(fā)展前景剖析。
【課程收益】
1、常見數(shù)據(jù)分析方法與數(shù)據(jù)挖掘概述;
2、描述型數(shù)據(jù)分析;
3、常見數(shù)據(jù)分析與挖掘算法(Kmeans、購物籃、決策樹、樸素貝葉斯等)等。
【課程特點】
常見數(shù)據(jù)分析方法與數(shù)據(jù)挖掘概述,描述型數(shù)據(jù)分析,常見數(shù)據(jù)分析與挖掘算法(Kmeans、購物籃、決策樹、樸素貝葉斯等)等內(nèi)容。
【課程對象】
     數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
     將承擔數(shù)據(jù)分析師職責的業(yè)務(wù)人員或信息化人員
     希望加強數(shù)據(jù)分析能力的軟件開發(fā)人員
     系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
     具有2年以IT部門工作經(jīng)驗,將負責數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(6天*6小時)
時間 內(nèi)容 案例實踐與練習(xí)
Day1
常見數(shù)據(jù)分析方法與數(shù)據(jù)挖掘概述
1、 數(shù)據(jù)分析與建模的概念
2、 數(shù)據(jù)分析與建模過程
3、 數(shù)據(jù)分析模型開發(fā)過程
4、 數(shù)據(jù)建模概述
5、 機器學(xué)習(xí)概念
6、 機器學(xué)習(xí)算法剖析
7、 算法庫分類
8、 算法庫
9、 深度學(xué)習(xí)
10、 神經(jīng)網(wǎng)絡(luò)
11、 人工智能
12、 商業(yè)智能
 
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:數(shù)據(jù)分析的過程
Day2
描述型數(shù)據(jù)分析
1、 統(tǒng)計學(xué)基本概念
2、 統(tǒng)計數(shù)據(jù)的計量尺度
3、 常用基本統(tǒng)計量
4、 集中趨勢的描述指標
5、 離散趨勢的描述指標
6、 中心極限定理
7、 大數(shù)定律
8、 數(shù)據(jù)的分布
9、 正態(tài)分布的特征
10、 偏度和峰度
11、 檢測數(shù)據(jù)集的分布
12、 數(shù)據(jù)的分布擬合檢驗與正態(tài)性檢驗
13、 抽樣標準
14、 假設(shè)檢驗
15、 T檢驗
16、 置信區(qū)間
 
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:描述性數(shù)據(jù)分析
Day3
常見數(shù)據(jù)分析與挖掘算法
1、 數(shù)據(jù)挖掘的基本任務(wù)
2、 數(shù)據(jù)挖掘建模過程
a)      定義挖掘目標
b)     數(shù)據(jù)取樣
c)      數(shù)據(jù)探索
d)     數(shù)據(jù)預(yù)處理
e)     挖掘建模
f)      建立模型
g)     業(yè)務(wù)理解
h)     模型擬合
i)       訓(xùn)練集
j)       測試集
k)      模型評價
3、 常用的數(shù)學(xué)預(yù)測模型
a)      線性回歸
b)     回歸(預(yù)測)與分類
c)      決策樹與隨機森林
d)     聚類分析(kmeans)
e)     關(guān)聯(lián)規(guī)則
f)      時序模式
g)     離群點檢測
h)     深度學(xué)習(xí)
i)       人工智能
j)       神經(jīng)網(wǎng)絡(luò)
4、 案例:如何從數(shù)據(jù)中挖掘出有價值的信息
案例研討:通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:常用數(shù)據(jù)分析方法與算法
Day4
樸素貝葉斯與回歸分析
第1個主題: 主成分分析和因子分析(深入剖析主成分分析及因子分析)
1、 主成分分析
2、 總體主成分
3、 樣本主成分
4、 主成分分析模型
5、 案例:主成分分析模型實現(xiàn)
6、 課堂實操:主成分分析模型實現(xiàn)
 
第2個主題: 方差分析(深入剖析方差分析方法及實現(xiàn))
1、 單因素方差分析
2、 單因素方差分析模型
3、 因素效應(yīng)的顯著性檢驗
4、 因素各水平均值的估計與比較
5、 兩因素等重復(fù)試驗下的方差分析
6、 統(tǒng)計模型
7、 交互效應(yīng)及因素效應(yīng)的顯著性檢驗
8、 無交互效應(yīng)時各因素均值的估計與比較
9、 有交互效應(yīng)時因素各水平組合上的均值估計與比較
10、 兩因素非重復(fù)試驗下的方差分析
11、 金融案例:方差分析實現(xiàn)
12、 課堂實操:方差分析實現(xiàn)
 
 
第3個主題: Bayes統(tǒng)計分析(深入剖析Bayes統(tǒng)計分析)
1、 Baves統(tǒng)計模型
2、 Bayes統(tǒng)計分析的基本思想
3、 Bayes統(tǒng)計模型
4、 Bayes統(tǒng)計推斷原則
5、 先驗分布的Bayes假設(shè)與不變先驗分布
6、 共軛先驗分布
7、 先驗分布中超參數(shù)的確定
8、 Baves統(tǒng)計推斷
9、 參數(shù)的Bayes點估計
10、 Bayes區(qū)間估計
11、 Bayes假設(shè)檢驗
12、 案例:實現(xiàn)Bayes統(tǒng)計分析建模
13、 課堂實操:實現(xiàn)Bayes統(tǒng)計分析建模
 
 
第4個主題: 數(shù)學(xué)建模(深入剖析數(shù)學(xué)建模)
1、 數(shù)學(xué)建模
2、 數(shù)學(xué)預(yù)測模型
3、 模型評估
4、 模型參數(shù)優(yōu)化
 
第5個主題: 回歸分析與分類分析原理與應(yīng)用(深入剖析數(shù)據(jù)的回歸分析與分類分析的原理以及應(yīng)用)
1、 回歸與分類
2、 回歸分析概念
3、 線性回歸模型及其參數(shù)估計
4、 一元線性回歸
5、 一元線性回歸模型
6、 一元線性回歸模型求解參數(shù)
7、 損失函數(shù)
8、 求偏導(dǎo)
9、 回歸方程的顯著性檢驗
10、 殘差分析
11、 誤差項的正態(tài)性檢驗
12、 殘差圖分析
13、 統(tǒng)計推斷與預(yù)測
14、 回歸模型的選取
15、 窮舉法
16、 逐步回歸法
17、 嶺回歸分析
18、 一元線性回歸
19、 金融案例:一元線性回歸模型檢驗
20、 多元線性回歸概述
21、 多元線性回歸模型
22、 金融案例:多元線性回歸實現(xiàn)航空業(yè)信用打分和評級模型
 
 
第6個主題: Logistic回歸分析(剖析Logistic回歸與其它回歸分析方法)
1、 Logistic回歸介紹
2、 Logistic函數(shù)
3、 Logistic回歸模型
4、 案例:SPSS Logistic回歸實現(xiàn)
5、 課堂實操: Logistic回歸實現(xiàn)航空業(yè)欺詐預(yù)測模型
6、 課堂實操: Logistic回歸實現(xiàn)航空業(yè)風(fēng)險分析模型
 
第7個主題: 非線性回歸原理及應(yīng)用(剖析非線性回歸原理及應(yīng)用實踐)
1、 非線性回歸
2、 雙曲線函數(shù)
3、 冪函數(shù)
4、 指數(shù)函數(shù)
5、 對數(shù)函數(shù)
6、 S型曲線
7、 案例:非線性回歸實現(xiàn)
8、 課堂實操:非線性回歸實現(xiàn)航空業(yè)經(jīng)營分析和績效分析模型
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:主成分分析模型實現(xiàn)
Day5
聚類分析與關(guān)聯(lián)規(guī)則挖掘
 
第1個主題: 數(shù)據(jù)建模常用距離(深入剖析數(shù)據(jù)建模過程中常用的距離模型)
1、 數(shù)據(jù)挖掘常用距離
2、 歐氏距離
3、 曼哈頓距離
4、 切比雪夫距離
5、 閔可夫斯基距離
6、 標準化歐氏距離
7、 馬氏距離
8、 夾角余弦
9、 漢明距離
10、 杰卡德距離& 杰卡德相似系數(shù)
11、 相關(guān)系數(shù)& 相關(guān)距離
12、 信息熵
 
第2個主題: 聚類分析與建模實現(xiàn)(深入剖析聚類分析以及通過SPSS聚類算法模型分析數(shù)據(jù))
1、 聚類分析
2、 聚類算法
3、 樣品間相近性的度量
4、 快速聚類法
5、 快速聚類法的步驟
6、 用Lm距離進行快速聚類
7、 譜系聚類法
8、 類間距離及其遞推公式
9、 譜系聚類法的步驟
10、 變量聚類
11、 案例:SPSS聚類實現(xiàn)及繪圖
12、 案例:Kmeans應(yīng)用案例剖析
13、 課堂實操:編寫程序?qū)崿F(xiàn)Kmeans應(yīng)用案例剖析
 
第3個主題: 關(guān)聯(lián)規(guī)則分析與實現(xiàn)(深入剖析關(guān)聯(lián)規(guī)則分析以及通過SPSS關(guān)聯(lián)規(guī)則算法模型分析數(shù)據(jù))
1、 關(guān)聯(lián)規(guī)則
2、 支持度與置信度
3、 關(guān)聯(lián)規(guī)則挖掘的過程
4、 Apriori算法
5、 關(guān)聯(lián)規(guī)則案例
6、 支持度與置信度計算
7、 案例:SPSS實現(xiàn)關(guān)聯(lián)規(guī)則
8、 課堂實操:SPSS實現(xiàn)航空業(yè)數(shù)據(jù)關(guān)聯(lián)規(guī)則分析
案例練習(xí):通過編寫程序?qū)崿F(xiàn)Kmeans應(yīng)用案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:編寫程序?qū)崿F(xiàn)Kmeans應(yīng)用案例剖析
Day6
決策樹與隨機森林
 
第1個主題: 決策樹分析與實現(xiàn)(深入剖析決策樹分析以及通過SPSS決策樹模型分析數(shù)據(jù))
1、 決策樹分析
2、 決策樹
3、 決策樹構(gòu)成要素
4、 決策樹算法原理
5、 決策樹法的決策過程
6、 決策樹算法
7、 案例:實現(xiàn)決策樹分析
8、 課堂實操:實現(xiàn)航空業(yè)客戶細分模型
9、 隨機森林
 
 
第2個主題: 數(shù)據(jù)建模時序模式分析與實現(xiàn)(深入剖析時序模式分析)
1、 時序模式
2、 時間序列分析
3、 時間序列分析
4、 時間序列
5、 序列分析的三個階段
6、 課堂實操:實現(xiàn)航空業(yè)客戶流失模型
案例練習(xí):通過實現(xiàn)航空業(yè)客戶細分模型案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:實現(xiàn)航空業(yè)客戶細分模型
 

課程4:R語言數(shù)據(jù)分析實戰(zhàn)-6天

【匹配關(guān)鍵知識點】
R語言入門基礎(chǔ),描述性統(tǒng)計分析, 用R語言做數(shù)據(jù)挖掘?qū)崙?zhàn)等內(nèi)容。
【課程時間】
6天(6小時/天)
 
【課程簡介】
R語言由新西蘭奧克蘭大學(xué)ross ihaka和robert gentleman 開發(fā)。R語言是自由軟件,具有非常強大的統(tǒng)計分析和作圖功能,而且具有非常豐富的網(wǎng)上資源,目前R軟件有3000多種貢獻包,幾乎可以實現(xiàn)所有的統(tǒng)計方法,目前大部分的頂級統(tǒng)計學(xué)家和計量經(jīng)濟學(xué)家都使用R語言,而且越來越多的數(shù)據(jù)分析實務(wù)人員也開始使用R語言。學(xué)習(xí)R軟件正成為一種趨勢。
R語言具有簡單易學(xué),功能強大,體積小(僅30M),完全免費,可自由開發(fā)等特點,且R語言和S語言語法基本相同,絕大部分程序是互相兼容的。
R軟件最優(yōu)美的地方是它能夠修改很多前人編寫的包的代碼做各種你所需的事情,實際你是站在巨人的肩膀上。
【課程收益】
1、R語言入門基礎(chǔ);
2、描述性統(tǒng)計分析;
3、用R語言做數(shù)據(jù)挖掘?qū)崙?zhàn)等內(nèi)容;
【課程特點】
R語言入門基礎(chǔ),描述性統(tǒng)計分析, 用R語言做數(shù)據(jù)挖掘?qū)崙?zhàn)等內(nèi)容。
【課程對象】
     數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
     將承擔數(shù)據(jù)分析師職責的業(yè)務(wù)人員或信息化人員
     希望加強數(shù)據(jù)分析能力的軟件開發(fā)人員
     系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
     具有2年以IT部門工作經(jīng)驗,將負責數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(6天*6小時)
時間 內(nèi)容 案例實踐與練習(xí)
Day1
R語言入門基礎(chǔ)
 
第1個主題: R語言簡介(介紹R語言工具)
1、 R語言歷史與趨勢剖析
2、 安裝R語言
3、 RStudio使用
4、 工作空間的設(shè)置
5、 R程序包的載入與使用
6、 R資源網(wǎng)上查找方法介紹
 
第2個主題: R語言語法介紹(R語言基礎(chǔ)語法介紹)
1、 R語言的數(shù)據(jù)類型介紹
2、 R語言的數(shù)據(jù)結(jié)構(gòu)介紹
3、 數(shù)據(jù)的讀入和輸出
4、 R語言連接RDBMS數(shù)據(jù)庫介紹
5、 數(shù)據(jù)庫的讀/寫
6、 R和SQL的交互
7、 循環(huán)語句
8、 條件語句
9、 遍歷
10、 常用函數(shù)
11、 常用算法
12、 定性變量
13、 離散變量
14、 連續(xù)變量
15、 多元變量
16、 對向量、矩陣和列表進行運算
17、 提取和插入元素
18、 日期和時間數(shù)據(jù)的操作處理
19、 編寫自定義函數(shù)解決復(fù)雜問題
20、 編程技巧
21、 編程案例介紹
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:R語言編程
Day2
R語言繪圖功能
 
第1個主題: R語言的繪圖功能介紹(R語言的探索性分析與數(shù)據(jù)可視化)
1、 繪圖函數(shù)
2、 圖形增強函數(shù)
3、 圖形互動函數(shù)
4、 高級繪圖命令
5、 散點圖
6、 柱狀圖
7、 直方圖
第2個主題: R語言數(shù)據(jù)預(yù)處理(R語言的數(shù)據(jù)的讀取、清洗和轉(zhuǎn)換)
1、 數(shù)據(jù)預(yù)處理
2、 日期和時間的處理
3、 因子變量的操作
4、 下標數(shù)據(jù)整理技術(shù)
5、 字符串操作
6、 數(shù)據(jù)子集的篩選
7、 識別重復(fù)數(shù)據(jù)和缺失值處理
8、 函數(shù)映射數(shù)據(jù)轉(zhuǎn)換整理技術(shù)
9、 變量的重新編碼
10、 plyr、reshape2等包整理數(shù)據(jù)
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:R語言繪圖
Day3
R語言與外部數(shù)據(jù)交互
 
第1個主題: 數(shù)據(jù)的讀入和輸出(R語言的數(shù)據(jù)的讀取、加載和寫出)
1、 數(shù)據(jù)的讀入和寫出
2、 read.table
3、 scan
4、 內(nèi)置數(shù)據(jù)集的讀取
第2個主題: R語言連接RDBMS數(shù)據(jù)庫介紹
1、 R語言RDBMS數(shù)據(jù)庫操作
2、 實操:R和MySQL的交互
3、 實操:R和Oracle的交互
4、 數(shù)據(jù)庫的讀/寫
5、 R和SQL的交互
6、 實操:R和Excel的交互
7、 R語言大數(shù)據(jù)操作
8、 實操:R編寫Spark程序
 
案例研討:通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:R語言與RDBMS交互
Day4
描述性統(tǒng)計分析
 
第1個主題: R語言統(tǒng)計模擬與隨機抽樣(R語言的算法介紹)
1、 隨機數(shù)生成
2、 蒙特卡洛模擬
3、 中心極限定理的模擬
4、 線性模型剖析
5、 線性模型診斷方法
6、 多元選擇模型剖析
7、 隨機抽樣
8、 案例:蒙特卡羅模擬的應(yīng)用
 
第2個主題: 描述統(tǒng)計分析與離群點檢測(掌握R語言用法和基本數(shù)據(jù)分析、數(shù)據(jù)描述統(tǒng)計分析)
1、 基本數(shù)據(jù)分析(隨機數(shù)的生成和統(tǒng)計模擬)
2、 單變量數(shù)據(jù)分析與作圖
3、 雙變量數(shù)據(jù)分析與作圖(二維表分析,并列箱線圖,相關(guān)系數(shù))
4、 多變量數(shù)據(jù)分析與作圖(多變量相關(guān)系數(shù)矩陣)
5、 離群點檢測
6、 案例1:汽車數(shù)據(jù)描述統(tǒng)計分析
7、 案例2:財政收入與稅收描述統(tǒng)計分析
 
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:描述性統(tǒng)計分析
Day5
用R語言做數(shù)據(jù)挖掘?qū)崙?zhàn)
 
第1個主題: 基本數(shù)據(jù)分析(數(shù)據(jù)分析和數(shù)據(jù)挖掘基礎(chǔ)介紹)
1、 中心極限定理
2、 大數(shù)定律
3、 正態(tài)分布的特征
4、 偏度和峰度
5、 檢測數(shù)據(jù)集的分布
6、 概率分布
7、 隨機數(shù)生成
8、 隨機抽樣
9、 蒙特卡洛模擬
10、 用蒙特卡羅方法計算圓周率π
11、 案例:蒙特卡羅模擬的應(yīng)用
12、 實操:R語言實現(xiàn)蒙特卡羅求圓周率
 
 
第2個主題: 回歸與分類(掌握回歸算法與實際建模分析應(yīng)用,回歸與分類剖析,R語言實現(xiàn)及預(yù)測應(yīng)用)
1、 回歸分析
2、 回歸分析概念
3、 線性模型剖析
4、 一元線性回歸
5、 一元線性回歸模型
6、 一元線性回歸模型求解參數(shù)
7、 損失函數(shù)
8、 求偏導(dǎo)
9、 線性模型評估方法
10、 實操:R語言一元線性回歸
11、 實操:R語言一元線性回歸模型檢驗
 
第3個主題: 多元線性回歸(多元線性回歸剖析,R語言實現(xiàn)及預(yù)測應(yīng)用)
1、 多元選擇模型剖析
2、 多元線性回歸思想
3、 實操:R語言實現(xiàn)多元線性回歸
 
第4個主題: 非線性回歸(非線性回歸剖析,R語言實現(xiàn)及預(yù)測應(yīng)用)
1、 雙曲線函數(shù)
2、 冪函數(shù)
3、 指數(shù)函數(shù)
4、 對數(shù)函數(shù)
5、 S 型曲線
6、 實操:R語言非線性回歸
7、 逐步回歸分析
8、 嶺回歸分析
 
第5個主題: Logistic回歸(Logistic回歸剖析,R語言實現(xiàn)及預(yù)測應(yīng)用)
1、 Logistic函數(shù)
2、 繪制Logistic曲線
3、 Logistic回歸介紹
4、 案例:用戶離網(wǎng)預(yù)測
5、 案例:中國稅收收入增長案例分析
6、 案例:新教學(xué)方法的效果
7、 案例:信用卡違約預(yù)測
案例練習(xí):通過用戶離網(wǎng)預(yù)測案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:用戶離網(wǎng)預(yù)測
Day6
用R語言文本數(shù)據(jù)挖掘?qū)崙?zhàn)
 
第1個主題: 文本挖掘應(yīng)用(介紹文本數(shù)據(jù)挖掘的實際應(yīng)用場景)
1、 文本結(jié)構(gòu)分析
2、 文章分類
3、 文章摘要
4、 文章聚類
5、 相似文章推薦
6、 NLP自然語言處理
7、 命名實體識別
8、 案例分析
 
第2個主題: 文本數(shù)據(jù)挖掘過程(介紹文本數(shù)據(jù)挖掘的流程)
1、 文本預(yù)處理
2、 文本挖掘
3、 模式與表示
4、 模式評估
 
第3個主題: 中文分詞技術(shù)介紹(介紹文本挖掘的基礎(chǔ)中文分詞技術(shù))
1、 信息檢索
2、 倒排索引
3、 文本分詞
4、 停用詞
5、 詞根
6、 主要的分詞方法
7、 基于規(guī)則的詞性標注
8、 自動語義標注
9、 中文分詞軟件包
10、 R語言中文分詞
11、 代碼實現(xiàn)中文分詞
第4個主題: TF-IDF算法介紹(介紹TF-IDF文章分類算法以及代碼實現(xiàn))
1、 前提假設(shè)
2、 文章特征詞提取
3、 詞頻
4、 逆文檔頻率
5、 文章分類
6、 案例分享:文章分類
7、 模型質(zhì)量評估
8、 查準率
9、 查全率
10、 模型質(zhì)量評估案例
11、 TF-IDF的不足
12、 算法改進
 
第5個主題: 相似文章推薦(通過相似算法向讀者推薦文章)
1、 模型表示:特征向量
2、 余弦相似度
3、 相似文章推薦
4、 案例介紹
5、 代碼實現(xiàn)
案例練習(xí):通過文章分類案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:文章分類
 
 

課程5:大數(shù)據(jù)工具介紹之Hadoop-2天

【匹配關(guān)鍵知識點】
Hadoop原理及組件介紹,Hadoop數(shù)據(jù)分析入門等內(nèi)容。
【課程時間】
2天(6小時/天)
【課程簡介】
Hadoop生態(tài)系統(tǒng)是大數(shù)據(jù)技術(shù)事實標準,是大數(shù)據(jù)思想、理念、機制的具體實現(xiàn),是整個大數(shù)據(jù)技術(shù)中公認的核心框架和具有極強的使用價值與研究價值。Hadoop 系統(tǒng)是一款開源軟件,能夠處理海量的各種結(jié)構(gòu)(包括結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化)的數(shù)據(jù)。
【課程收益】
1、Hadoop原理及組件介紹;
2、Hadoop數(shù)據(jù)分析入門。
【課程特點】
Hadoop原理及組件介紹,Hadoop數(shù)據(jù)分析入門等內(nèi)容。
【課程對象】
     數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
     將承擔數(shù)據(jù)分析師職責的業(yè)務(wù)人員或信息化人員
     希望加強數(shù)據(jù)分析能力的軟件開發(fā)人員
     系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
     具有2年以IT部門工作經(jīng)驗,將負責數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
 
【課程大綱】(2天*6小時)
時間 內(nèi)容 案例實踐與練習(xí)
Day1
Hadoop原理及組件介紹
第1個主題: Hadoop基本概念(深入理解Hadoop基本概念)
1、 什么是Hadoop
2、 Hadoop由來介紹
3、 Google四篇論文的剖析
a)      GFS、MapReduce、BigTable、Chubby
4、 Hadoop的四大核心組件
5、 Hadoop相關(guān)概念
a)      塊、副本
6、 什么是大數(shù)據(jù)
7、 大數(shù)據(jù)的特征
8、 大數(shù)據(jù)應(yīng)用現(xiàn)狀
9、 大數(shù)據(jù)發(fā)展趨勢
10、 大數(shù)據(jù)生態(tài)體系介紹
11、 大數(shù)據(jù)優(yōu)勢
12、 大數(shù)據(jù)的核心技術(shù)
13、 大數(shù)據(jù)與云計算之間的關(guān)系剖析
14、 大數(shù)據(jù)與虛擬化之間的關(guān)系剖析
15、 大數(shù)據(jù)與供應(yīng)商剖析
16、 大數(shù)據(jù)與成本投入的關(guān)系剖析
17、 Hadoop是大數(shù)據(jù)架構(gòu)的事實標準
18、 實例分享:馬云預(yù)測經(jīng)濟危機案例剖析
 
第2個主題: Hadoop大數(shù)據(jù)平臺概述(徹底理解Hadoop)
1、 Hadoop是大數(shù)據(jù)架構(gòu)的事實標準
2、 Hadoop工作原理及架構(gòu)
3、 Hadoop生態(tài)體系介紹
4、 Hadoop應(yīng)用現(xiàn)狀
5、 Hadoop發(fā)展趨勢
6、 Hadoop優(yōu)勢
7、 實例分享:雙十一億背后的開源技術(shù)
 
第3個主題: Hadoop分布式集群部署與運維(動手搭建Hadoop集群及運維)
1、 SaltStack
2、 Maven
3、 禁用IPV6
4、 SSH無密碼登錄
5、 Hadoop HA部署介紹
6、 Hadoop集群部署
7、 Hadoop集群的監(jiān)控
8、 Hadoop集群的運維
 
第4個主題: HDFS大數(shù)據(jù)分布式文件系統(tǒng)(深入理解大數(shù)據(jù)分布式文件系統(tǒng)的原理與機制)
1、 HDFS架構(gòu)剖析      
2、 NameNode、DataNode、SecondaryNameNode介紹
3、 NodeName高可靠性最佳實踐
4、 DataNode中Block劃分的原理和具體存儲方式
5、 修改Namenode、DataNode數(shù)據(jù)存儲位置
6、 CLI操作HDFS
7、 Java操作HDFS
8、 RESTful操作HDFS
9、 動態(tài)修改Hadoop的Replication數(shù)目
10、 Hadoop序列化
11、 Hadoop流壓縮
12、 Hadoop RPC
13、 SequenceFile與MapFile
14、 Hadoop Avro
案例練習(xí):通過馬云預(yù)測經(jīng)濟危機案例剖析案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:馬云預(yù)測經(jīng)濟危機案例剖析
Day2
Hadoop數(shù)據(jù)分析入門
 
第1個主題: YARN剖析(深入剖析分布式資源調(diào)度器YARN)
1、 YARN介紹
2、 YARN的設(shè)計思想
3、 YARN的核心組件
4、 YARN為核心的生態(tài)系統(tǒng)
5、 Yarn的HA機制
6、 YARN應(yīng)用程序編寫
7、 ResourceManager深入剖析
8、 ClientRMService與AdminService
9、 NodeManager深入剖析
10、 Container
第2個主題: 分布式計算MapReduce大數(shù)據(jù)批處理技術(shù)(深入理解MapReduce原理及培訓(xùn)開發(fā)MapReduce程序能力)
1、 MapReduce算法剖析
2、 MapReduce編程思想
3、 MapReduce常用算法
4、 MapReduce命令操作
5、 wordcount運行過程解析
6、 MapReduce如何將HDFS文件轉(zhuǎn)化為Key-Value供Map解析與處理
7、 Hadoop的調(diào)度器介紹
8、 Combiner的使用原則
9、 Partitioner的使用最佳實踐
10、 MapReduce排序算法剖析
11、 自定義排序算法
12、 Hadoop內(nèi)置的分組算法
13、 自定義分組算法
14、 MapReduce常見場景和算法實現(xiàn)
15、 MapReduce新舊API的區(qū)別以及如何使用API
16、 MapReduce程序打包并在命令行運行
17、 Hadoop Streaming
18、 動態(tài)增加Hadoop的Slave節(jié)點
 
第3個主題: 基于MapReduce編寫大數(shù)據(jù)分析程序(通過對MapReduce的應(yīng)用深入理解Hadoop分布式計算程序的特征)
1、 大數(shù)據(jù)分析程序架構(gòu)剖析
2、 學(xué)員動手編寫MapReduce程序
案例研討:通過動手編寫MapReduce程序案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:動手編寫MapReduce程序
 
 

課程6:大數(shù)據(jù)工具介紹之Spark-3天

【匹配關(guān)鍵知識點】
Spark基本概念,Spark開發(fā)與數(shù)據(jù)分析等內(nèi)容。
【課程時間】
3天(6小時/天)
【課程簡介】
Spark是成為替代MapReduce架構(gòu)的大數(shù)據(jù)分析技術(shù),Spark的大數(shù)據(jù)生態(tài)體系包括流處理、圖技術(shù)、機器學(xué)習(xí)等各個方面,并且已經(jīng)成為Apache頂級項目,可以預(yù)計的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會有爆發(fā)式的增長。
US9R2XIE39V0U`OTT9S}A7I
 
國內(nèi)外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark,并且它的高性能已經(jīng)得到實踐的證明。國外Yahoo已在多個項目中部署Spark,尤其在信息推薦的項目中得到深入的應(yīng)用;國內(nèi)的淘寶、愛奇異、優(yōu)酷土豆、網(wǎng)易、baidu、騰訊等大型互聯(lián)網(wǎng)企業(yè)已經(jīng)將Spark應(yīng)用于自己的生產(chǎn)系統(tǒng)中。國內(nèi)外的應(yīng)用開始越來越廣泛。Spark正在逐漸走向成熟,并在這個領(lǐng)域扮演更加重要的角色。
【課程收益】
1、Spark基本概念;
2、Spark開發(fā);
3、Spark數(shù)據(jù)分析
【課程特點】
Spark基本概念,Spark開發(fā)與數(shù)據(jù)分析等內(nèi)容
【課程對象】
     數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
     將承擔數(shù)據(jù)分析師職責的業(yè)務(wù)人員或信息化人員
     希望加強數(shù)據(jù)分析能力的軟件開發(fā)人員
     系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
     具有2年以IT部門工作經(jīng)驗,將負責數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(3天*6小時)
時間 內(nèi)容 案例實踐與練習(xí)
Day1
Spark基本概念
第1個主題: 大數(shù)據(jù)內(nèi)存計算技術(shù)介紹(深入理解分布式內(nèi)存計算框架Spark的實現(xiàn)原理并動手編寫Spark程序)
1、 Scala介紹
2、 Mesos介紹
3、 Spark介紹
4、 Spark架構(gòu)剖析
5、 Spark RDD計算模型解析
6、 Spark開發(fā)分析
7、 Spark的執(zhí)行機制解析
8、 Spark的調(diào)試與任務(wù)分配
9、 Spark與MapReduce對比分析
10、 Spark的容錯機制剖析
11、 Spark集群部署
12、 Spark Shell
13、 構(gòu)建與運行Spark應(yīng)用
14、 Spark RDD操作剖析
15、 Shark基于Spark的綜合應(yīng)用
16、 Spark作業(yè)測試解析
17、 Spark的性能調(diào)優(yōu)
18、 Spark生態(tài)體系剖析
19、 Spark應(yīng)用現(xiàn)狀
20、 Spark應(yīng)用優(yōu)勢
21、 Spark應(yīng)用案例
22、 Spark案例解析
案例練習(xí):通過Spark架構(gòu)使用案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:Spark架構(gòu)使用
Day2
Spark開發(fā)
1、 Scala語言編寫Spark程序
2、 Python語言編寫Spark程序
 
 
第1個主題: Scala語言培訓(xùn)(介紹Scala誕生的背景)
1、 Scala介紹
2、 What is Scala
3、 基于JVM的FP+OO
4、 靜態(tài)類型
5、 多線程開發(fā)
6、 Java兼容
7、 語法簡潔
8、 Scala研發(fā)環(huán)境
9、 Scala安裝及環(huán)境配置
10、 交互式編程
11、 腳本式編程
12、 編程實戰(zhàn):第一個Scala 程序
 
 
第2個主題: 如何學(xué)習(xí)一門新的語言(剖析學(xué)習(xí)一門新的語言的技巧與思路)
1、 順序
2、 分支
3、 循環(huán)
4、 對象
5、 類
6、 方法
7、 字段
 
 
第3個主題: Scala順序語法(介紹Scala順序編程語法)
1、 Scala基本語法
2、 Scala數(shù)據(jù)類型
3、 Scala變量
4、 標識符的聲明與定義
5、 val,常量聲明
6、 var,變量聲明
7、 類型省略(默認類型)
8、 聲明省略(連續(xù)聲明)
9、 Scala訪問修飾符
10、 Scala作用域
11、 Scala運算符
a)      算術(shù)運算符
b)     關(guān)系運算符
c)      邏輯運算符
d)     位運算符
e)     賦值運算符
12、 Scala關(guān)鍵字
13、 Scala注釋
14、 空行和空格
15、 換行符
16、 Scala包
17、 Scala引用
18、 編程實戰(zhàn):順序編程Scala程序?qū)嵗?br />  
第4個主題: Scala分支語法(介紹Scala分支編程語法)
1、 if語句
2、 if...else語句
3、 if...else if...else語句
4、 if...else嵌套語句
5、 編程實戰(zhàn):分支編程Scala程序?qū)嵗?br />  
第5個主題: Scala循環(huán)語法(介紹Scala循環(huán)編程語法)
1、 Scala循環(huán)
2、 while循環(huán)
3、 do...while循環(huán)
4、 for循環(huán)
5、 編程實戰(zhàn):循環(huán)編程Scala程序?qū)嵗?br />  
第6個主題: Scala 函數(shù)(介紹Scala函數(shù)編程語法)
1、 Scala函數(shù)
2、 Scala閉包
3、 Scala函數(shù)聲明def
4、 無參函數(shù)
5、 編程實戰(zhàn):Scala函數(shù)編程實例
 
 
第7個主題: Spark可訪問外部數(shù)據(jù)源(剖析Spark訪問外部數(shù)據(jù)源)
1、 Spark分布式文件讀寫
2、 文件系統(tǒng)
3、 HDFS
4、 HBase
5、 Hive
6、 Cassandra
7、 Tachyon
8、 編程實戰(zhàn):Spark操作外部數(shù)據(jù)源編程實戰(zhàn)
9、 Spark實戰(zhàn)案例:Spark與HBase整合分析數(shù)據(jù)
 
第8個主題: Spark編程技巧分享(分享Spark編程技巧與實踐經(jīng)驗)
1、 Spark開發(fā)分析
2、 Spark的執(zhí)行機制解析
3、 Spark運行原理剖析
4、 Spark的調(diào)試與任務(wù)分配
5、 Spark的性能調(diào)優(yōu)
6、 Spark與MapReduce對比分析
7、 Spark生態(tài)體系剖析
8、 Spark監(jiān)控管理
9、 Spark的容錯機制剖析
10、 Spark集群部署
11、 Spark集群部署經(jīng)驗分享
12、 Spark大規(guī)模集群運維經(jīng)驗分享
13、 Spark應(yīng)用現(xiàn)狀
14、 Spark應(yīng)用優(yōu)勢
15、 Spark應(yīng)用案例
案例研討:通過Spark操作外部數(shù)據(jù)源編程實戰(zhàn)案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:Spark操作外部數(shù)據(jù)源編程實戰(zhàn)
Day3
Spark大數(shù)據(jù)分析開發(fā)
第1個主題: Spark MLlib機器學(xué)習(xí)庫實戰(zhàn)(深入理解Spark MLlib實現(xiàn)原理及開發(fā)實戰(zhàn))
1、 Spark MLlib概述
2、 Spark MLlib算法庫介紹
3、 Spark MLlib架構(gòu)剖析
4、 Spark MLlib機器學(xué)習(xí)算法剖析
5、 數(shù)據(jù)類型
6、 基本統(tǒng)計算法
7、 分類與回歸
8、 協(xié)同過濾
9、 聚類
10、 降維
11、 特征提取與轉(zhuǎn)換
12、 頻繁模式挖掘
13、 評價指標
14、 Spark MLlib編程
15、 Spark MLlib APIs介紹
16、 Spark MLlib機器學(xué)習(xí)算法應(yīng)用實戰(zhàn)
17、 Spark MLlib實戰(zhàn)案例:數(shù)據(jù)聚類分析案例剖析
案例練習(xí):通過數(shù)據(jù)聚類分析案例剖析案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:數(shù)據(jù)聚類分析案例剖析
 

課程7:Pyspark集群調(diào)度與數(shù)據(jù)處理-2天

【匹配關(guān)鍵知識點】
使用Python調(diào)度spark集群并進行數(shù)據(jù)處理等內(nèi)容。
【課程時間】
2天(6小時/天)
【課程簡介】
Spark是成為替代MapReduce架構(gòu)的大數(shù)據(jù)分析技術(shù),Spark的大數(shù)據(jù)生態(tài)體系包括流處理、圖技術(shù)、機器學(xué)習(xí)等各個方面,并且已經(jīng)成為Apache頂級項目,可以預(yù)計的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會有爆發(fā)式的增長。
US9R2XIE39V0U`OTT9S}A7I
國內(nèi)外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark,并且它的高性能已經(jīng)得到實踐的證明。國外Yahoo已在多個項目中部署Spark,尤其在信息推薦的項目中得到深入的應(yīng)用;國內(nèi)的淘寶、愛奇異、優(yōu)酷土豆、網(wǎng)易、baidu、騰訊等大型互聯(lián)網(wǎng)企業(yè)已經(jīng)將Spark應(yīng)用于自己的生產(chǎn)系統(tǒng)中。國內(nèi)外的應(yīng)用開始越來越廣泛。Spark正在逐漸走向成熟,并在這個領(lǐng)域扮演更加重要的角色。
【課程收益】
1、使用Python調(diào)度spark集群;
2、使用Python進行數(shù)據(jù)處理。
【課程特點】
使用Python調(diào)度spark集群并進行數(shù)據(jù)處理等內(nèi)容。
【課程對象】
     數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
     將承擔數(shù)據(jù)分析師職責的業(yè)務(wù)人員或信息化人員
     希望加強數(shù)據(jù)分析能力的軟件開發(fā)人員
     系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
 
【學(xué)員基礎(chǔ)】
     具有2年以IT部門工作經(jīng)驗,將負責數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(2天*6小時)
時間 內(nèi)容 案例實踐與練習(xí)
Day1
使用Python調(diào)度spark集群
第1個主題: PySpark編程基礎(chǔ)操作
1、 并行數(shù)據(jù)集合(Parallelized Collections)
2、 彈性分布式數(shù)據(jù)集RDD(Resilient Distributed Dataset)
3、 RDDs兩種類型操作
4、 actions
5、 transformations
6、 count()
7、 first()
8、 filter()
9、 map()
10、 flatMap()
11、 mapPartitions()
12、 union()
13、 reduce()
14、 collect()
15、 take()
16、 foreach()
17、 saveAsTextFile
18、 Spark緩存cache()
19、 導(dǎo)入Java庫
20、 Spark Key-Value操作
21、 reduceByKey
22、 groupByKey
23、 sortByKey
24、 countByKey
25、 join()
26、 repartition()
27、 shuffle操作
28、 RDD持久化操作
29、 spark-submit運行程序
30、 Spark共享變量(Shared Variables)
31、 Broadcast變量(Broadcast Variables)
32、 Accumulators變量
33、 編程實戰(zhàn):Spark基礎(chǔ)操作編程實戰(zhàn)
案例練習(xí):通過Spark基礎(chǔ)操作編程實戰(zhàn)案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:Spark基礎(chǔ)操作編程實戰(zhàn)
Day2
使用Python調(diào)度spark進行數(shù)據(jù)處理
第1個主題: PySpark MLlib機器學(xué)習(xí)庫實戰(zhàn)(深入理解PySpark MLlib實現(xiàn)原理及開發(fā)實戰(zhàn))
1、 PySpark MLlib概述
2、 PySpark MLlib算法庫介紹
3、 PySpark MLlib架構(gòu)剖析
4、 PySpark MLlib機器學(xué)習(xí)算法剖析
5、 數(shù)據(jù)類型
6、 基本統(tǒng)計算法
7、 分類與回歸
8、 協(xié)同過濾
9、 聚類
10、 降維
11、 特征提取與轉(zhuǎn)換
12、 頻繁模式挖掘
13、 評價指標
14、 PySpark MLlib編程
15、 PySpark MLlib APIs介紹
16、 PySpark MLlib機器學(xué)習(xí)算法應(yīng)用實戰(zhàn)
17、 PySpark MLlib實戰(zhàn)案例:數(shù)據(jù)聚類分析案例剖析
 
第2個主題: Python大數(shù)據(jù)編程(深入剖析Python與Spark整合編寫大數(shù)據(jù)程序)
1、 PySpark介紹
2、 Spark介紹
3、 Python創(chuàng)建RDD
4、 PySpark語法介紹
5、 PySpark函數(shù)剖析與使用
6、 Python lambda語法介紹
7、 案例:Python編寫Spark大數(shù)據(jù)程序
案例研討:通過Python編寫Spark大數(shù)據(jù)程序案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:Python編寫Spark大數(shù)據(jù)程序
 
 

課程8:大數(shù)據(jù)可視化-2天

【匹配關(guān)鍵知識點】
數(shù)據(jù)可視化技術(shù)概述及培訓(xùn)關(guān)鍵點概述,數(shù)據(jù)挖掘與可視化工具介紹(SAS、Project、Excel、SPSS、Tableau等),可視化案例分享等內(nèi)容。
【課程時間】
2天(6小時/天)
【課程簡介】
隨著互聯(lián)網(wǎng)、移動智能設(shè)備、云計算技術(shù)、大數(shù)據(jù)技術(shù)的迅猛發(fā)展,使人類產(chǎn)生與獲取數(shù)據(jù)的能力成數(shù)量級地增加,面對如此浩瀚的數(shù)據(jù)海洋,想通過人工分析大數(shù)據(jù)從而得到大數(shù)據(jù)中隱含的有價值的模式,幾乎是不可能的。因此人們需要借助新的技術(shù)挖掘大數(shù)據(jù)中所蘊含的價值,采用數(shù)據(jù)可視化技術(shù)絕對是一個明智的選擇。
隨著科學(xué)技術(shù)的不斷發(fā)展,大量的由計算機產(chǎn)生的中間數(shù)據(jù)都需要進行可視化處理,以求達到輔助分析、再現(xiàn)客觀事實的目的。通過視覺化呈現(xiàn)數(shù)據(jù),可揭示了令人驚奇的模式和觀察結(jié)果,某些數(shù)據(jù)是不可能通過簡單統(tǒng)計就能顯而易見的看到的模式和結(jié)論。正如作家、記者和信息設(shè)計師David McCandless 在TED 上說道:“通過視覺化,我們把信息變成了一道可用眼睛來探索的風(fēng)景線,一種信息地圖。當你在迷失在信息中時,信息地圖非常實用”。由此足見數(shù)據(jù)可視化的價值。
無論獲得信息還是表達信息,最佳方式之一是通過視覺化方式,快速捕捉和展現(xiàn)信息要點與核心要義,這是數(shù)據(jù)可視化的價值點所在。
數(shù)據(jù)可視化技術(shù)有著廣闊的發(fā)展和應(yīng)用空間,越來越受到人們的關(guān)注。
【課程收益】
1、數(shù)據(jù)可視化技術(shù)概述及培訓(xùn)關(guān)鍵點概述;
2、數(shù)據(jù)挖掘與可視化工具介紹;
3、可視化案例分享
【課程特點】
數(shù)據(jù)可視化技術(shù)概述及培訓(xùn)關(guān)鍵點概述,數(shù)據(jù)挖掘與可視化工具介紹(SAS、Project、Excel、SPSS、Tableau等),可視化案例分享等內(nèi)容。
【課程對象】
     數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
     將承擔數(shù)據(jù)分析師職責的業(yè)務(wù)人員或信息化人員
     希望加強數(shù)據(jù)分析能力的軟件開發(fā)人員
     系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
     具有2年以IT部門工作經(jīng)驗,將負責數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(2天*6小時)
時間 內(nèi)容 案例實踐與練習(xí)
Day1
數(shù)據(jù)可視化技術(shù)概述及培訓(xùn)關(guān)鍵點概述
 
第1個主題: 數(shù)據(jù)可視化問題剖析(深入大數(shù)據(jù)時代數(shù)據(jù)可視化存在的問題)
1、 大數(shù)據(jù)特征vs數(shù)據(jù)可視化
2、 傳統(tǒng)數(shù)據(jù)可視化問題剖析
3、 傳統(tǒng)數(shù)據(jù)可視化工具特點剖析
 
第2個主題: 數(shù)據(jù)可視化概述(介紹數(shù)據(jù)可視化工具、特征及基礎(chǔ)架構(gòu))
1、 數(shù)據(jù)可視化概念
2、 數(shù)據(jù)可視化作用
3、 數(shù)據(jù)可視化目標
4、 數(shù)據(jù)可視化應(yīng)用
5、 數(shù)據(jù)維度和指標
6、 圖表產(chǎn)生過程
7、 可視化的表現(xiàn)形式
8、 可視化的顯示
9、 可視化的色彩
10、 可視化案例實戰(zhàn):儀表盤制作
11、 標準圖表的表現(xiàn)能力
12、 標準圖表的選擇標準
13、 圖表制作原則
14、 可視化案例實戰(zhàn):數(shù)據(jù)占比柏拉圖繪制
15、 可視化的決定性因素
16、 數(shù)據(jù)可視化技巧
17、 數(shù)據(jù)化可視化工具
18、 創(chuàng)意性數(shù)據(jù)可視化
19、 虛擬實現(xiàn)技術(shù)
20、 防止過度可視化
21、 一圖勝千言
22、 可視化的升華:聲音
 
第3個主題: 可視化的探索性分析和數(shù)據(jù)挖掘工具(學(xué)習(xí)可視化數(shù)據(jù)挖掘工具)
1、 Tableau
2、 Excel
3、 ECharts
4、 QlikView
5、 R語言
6、 Python
7、 SPSS
8、 SAS
 
第4個主題: 數(shù)據(jù)可視化圖表詳解(通過實例講述數(shù)據(jù)可視化方法、過程及含義)
1、 散點圖
2、 雷達圖
3、 條形圖
4、 柱形圖
5、 餅圖
6、 直方圖
7、 箱線圖
8、 QQ圖
9、 柏拉圖制作
10、 儀表盤制作
11、 玫瑰圖制作
12、 熱力圖制作
13、 地圖制作
14、 文字云制作
15、 案例剖析
案例練習(xí):通過儀表盤制作案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:儀表盤制作
Day2
數(shù)據(jù)挖掘與可視化工具介紹(SAS、Project、Excel、SPSS、Tableau等),可視化案例分享
 
第1個主題: Tableau簡介
1、 Tableau歷史與趨勢剖析
2、 Tableau使用
3、 Tableau的數(shù)據(jù)類型介紹
4、 Tableau的數(shù)據(jù)結(jié)構(gòu)介紹
5、 Tableau數(shù)據(jù)的讀入和輸出
6、 Tableau數(shù)據(jù)庫的讀/寫
7、 Tableau與Kylin集成
8、 定性變量
9、 離散變量
10、 連續(xù)變量
11、 多元變量
12、 日期和時間數(shù)據(jù)的操作處理
 
第2個主題: 數(shù)據(jù)可視化應(yīng)用場景,具體案例分析
1、 淘寶24小時生活數(shù)據(jù)可視化案例
2、 無線淘寶數(shù)據(jù)可視化案例
3、 Google公司數(shù)據(jù)可視化案例
4、 Facebook用戶畫像可視化案例
5、 個人用戶畫像案例
 
第3個主題: 大數(shù)據(jù)可視化呈現(xiàn)ECharts實戰(zhàn)(通過一個完整的實例講述使用ECharts數(shù)據(jù)可視化的過程與方法)
1、 Echarts使用
2、 項目案例
3、 Echarts概述
4、 ECharts特性
5、 ECharts架構(gòu)圖
6、 整合
7、 How to use?
8、 Step1. 引入模塊加載器
9、 Step2. 設(shè)置具備大小的Dom
10、 Step3. 配置echarts模塊路徑
11、 Step4.動態(tài)加載echarts
12、 option的使用
13、 Interface
14、 setOption
15、 Option全局屬性
16、 title
17、 legend
18、 dataRange
19、 toolbox
20、 dataZoom
21、 grid
22、 xAxis/yAxis/axis
23、 color
24、 數(shù)值型
25、 類目型
26、 tooltip.formatter
27、 series
28、 高度個性化
29、 其它參考圖形
30、 熱力圖
31、 社交網(wǎng)絡(luò)
 
第4個主題: 分析結(jié)果呈現(xiàn)和分析報告撰寫
1、 合理的數(shù)據(jù)呈現(xiàn)
2、 報告分析模板
3、 如何撰寫一份優(yōu)秀的數(shù)據(jù)分析報告
案例研討:通過淘寶24小時生活數(shù)據(jù)可視化案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:淘寶24小時生活數(shù)據(jù)可視化案例
 

課程9:Python與數(shù)據(jù)分析實戰(zhàn)-13天

【匹配關(guān)鍵知識點】
Python語言入門,Python網(wǎng)絡(luò)編程、爬蟲與機器學(xué)習(xí),Python數(shù)據(jù)分析案例分享,基于spark集群的python數(shù)據(jù)分析實戰(zhàn)等內(nèi)容。
【課程時間】
13天(6小時/天)
【課程簡介】
隨著大數(shù)據(jù)時代的快速到來,以及大數(shù)據(jù)在生產(chǎn)生活中迅速應(yīng)用,大數(shù)據(jù)領(lǐng)域如雨后春筍般的出現(xiàn)大量的新技術(shù),如Hadoop、Spark等技術(shù),其中Python語言已經(jīng)成為大數(shù)據(jù)技術(shù)中最為重要的一部分,被越來越多的企業(yè)所使用。Python語言的功能涵蓋了大數(shù)據(jù)領(lǐng)域的數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、機器學(xué)習(xí)、人工智能、大數(shù)據(jù)應(yīng)用開發(fā)等各種不同類型的計算操作,應(yīng)用范圍廣泛、前景非常廣闊。本課程是尹老師多年工作經(jīng)驗的總結(jié)和歸納,從實際業(yè)務(wù)案例為入口,使學(xué)員從理論層到實操層面系統(tǒng)的學(xué)習(xí)數(shù)據(jù)處理技術(shù),使學(xué)員深入理解Python語言等數(shù)據(jù)分析工具。通過本課程的學(xué)習(xí),學(xué)員即可以正確的分析企業(yè)的數(shù)據(jù),為管理者、決策層提供數(shù)據(jù)支撐。
【課程收益】
1、Python語言入門;
2、Python網(wǎng)絡(luò)編程;
3、Python網(wǎng)絡(luò)爬蟲;
4、Python機器學(xué)習(xí);
5、Python數(shù)據(jù)分析案例分享;
6、基于spark集群的python數(shù)據(jù)分析實戰(zhàn);
【課程特點】
Python語言入門,Python網(wǎng)絡(luò)編程、爬蟲與機器學(xué)習(xí),Python數(shù)據(jù)分析案例分享,基于spark集群的python數(shù)據(jù)分析實戰(zhàn)等內(nèi)容。
【課程對象】
     數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
     將承擔數(shù)據(jù)分析師職責的業(yè)務(wù)人員或信息化人員
     希望加強數(shù)據(jù)分析能力的軟件開發(fā)人員
     系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
     具有2年以IT部門工作經(jīng)驗,將負責數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(13天*6小時)
時間 內(nèi)容 案例實踐與練習(xí)
Day1~Day3
Python語言入門
第1個主題: Python語言基礎(chǔ)知識(介紹Python語言基礎(chǔ)知識,包括Python語言數(shù)據(jù)類型、基礎(chǔ)概念等)
1、 Python語言歷史與趨勢剖析
2、 Python語言安裝
3、 如何運行Python程序
4、 PyCharm開發(fā)環(huán)境介紹
5、 Anaconda3開發(fā)環(huán)境介紹(以Anaconda3作為程序演示環(huán)境,Python3作為演示語言)
6、 Python語言help()命令
7、 Python基本命令
8、 變量(Variables)
9、 表達式(Expressions)
10、 基本數(shù)據(jù)類型
11、 字符串與正則表達式
12、 Python條件表達式
13、 循環(huán)(loops)
14、 案例實戰(zhàn):正則表達式在爬蟲中應(yīng)用實例
15、 Python數(shù)據(jù)結(jié)構(gòu)
16、 Python創(chuàng)建數(shù)組
17、 Python矩陣運算
18、 Python語言語法結(jié)構(gòu)
19、 案例:Python語言實現(xiàn)運營商數(shù)據(jù)分析處理
第2個主題: Python函數(shù)(深入Python函數(shù)的編寫語言)
13、 Python函數(shù)介紹
14、 數(shù)據(jù)分析與建模過程
15、 Python語言定義函數(shù)規(guī)則
16、 Python語言自定義函數(shù)
17、 Python匿名函數(shù)
18、 Python內(nèi)置函數(shù)
19、 Python函數(shù)案例
第3個主題: Python類(class)(深入剖析Python類的原理)
1、 類(class)介紹
2、 Python多重繼承
3、 Python不支持函數(shù)重載
4、 Class and Instance Variables
5、 Method Objects
6、 Python類編寫案例實戰(zhàn)
第4個主題: Python異常處理(Exceptions)(深入剖析Python異常處理)
1、 異常處理(Exceptions)簡介
2、 Python標準異常類
3、 Python異常類編程案例實戰(zhàn)(爬蟲實例)
第5個主題: Python模塊(Modules)(深入剖析模塊(Modules))
1、 Python模塊(Modules)介紹
2、 Python自定義模塊
3、 Python模塊的導(dǎo)入與添加
4、 Python標準函數(shù)庫模塊
5、 Python第三方模塊
第6個主題: Python文件讀寫(深入剖析Python文件讀寫)
1、 Python文件讀寫簡介
2、 Python讀寫方法介紹
3、 Python讀寫文本文件
4、 Python讀寫二進制文件
5、 Python讀寫json文件
6、 Python讀寫xml文件
第7個主題: Python操作關(guān)系型數(shù)據(jù)庫(深入剖析Python操作關(guān)系型數(shù)據(jù))
1、 Python2安裝MySQL Connector
2、 Python3安裝MySQL Connector
3、 Python語言操作數(shù)據(jù)庫
4、 Python語言數(shù)據(jù)庫優(yōu)化
5、 案例:Python語言實現(xiàn)話務(wù)數(shù)據(jù)時間序列建模
案例練習(xí):通過Python語言實現(xiàn)運營商數(shù)據(jù)分析處理案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:Python語言實現(xiàn)運營商數(shù)據(jù)分析處理
Day4~Day5
Python網(wǎng)絡(luò)編程
 
第1個主題: 多線程編程 (用實戰(zhàn)實例介紹如何實現(xiàn)多線程)
1、 Python開發(fā)多線程的原理
2、 多線程創(chuàng)建
3、 線程鎖
4、 網(wǎng)絡(luò)應(yīng)用程序編程
5、 實例:比如生成發(fā)送電子郵件
第2個主題: Python網(wǎng)絡(luò)編程(介紹Python網(wǎng)絡(luò)編程)
1、 TCP/IP網(wǎng)絡(luò)介紹
2、 Socket基礎(chǔ)知識
3、 Socket客戶端服務(wù)器連接
4、 案例:聊天功能實戰(zhàn)
 
第3個主題: Python Web開發(fā)實戰(zhàn)(介紹Python Web實戰(zhàn))
1、 Python Web開發(fā)
2、 Django框架介紹
3、 定義和使用模型
4、 Django MVC架構(gòu)
5、 Django開發(fā)環(huán)境搭建
6、 Django Session應(yīng)用
7、 Django框架應(yīng)用
8、 Django高級應(yīng)用
9、 案例:客戶通話歷史記錄查詢
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:網(wǎng)絡(luò)編程
Day6~Day7
Python網(wǎng)絡(luò)爬蟲
 
第1個主題: Python基礎(chǔ)知識和網(wǎng)絡(luò)程序基礎(chǔ)知識(介紹Python基礎(chǔ)知識和網(wǎng)絡(luò)程序基礎(chǔ)知識)
1、 Python語言簡介
2、 Python開發(fā)環(huán)境搭建和選擇
3、 IO編程
4、 進程和多線程基礎(chǔ)知識
5、 網(wǎng)絡(luò)編程和TCP協(xié)議
第2個主題: Web前端基礎(chǔ)知識(介紹Web前端基礎(chǔ)知識)
1、 Web程序的結(jié)構(gòu)
2、 Web前端的內(nèi)容
3、 HTML
4、 CSS
5、 JavaScript
6、 XPath
7、 Json
8、 HTTP協(xié)議標準
9、 HTTP頭和主體
10、 Cookie信息
第3個主題: 網(wǎng)絡(luò)爬蟲基礎(chǔ)知識(介紹網(wǎng)絡(luò)爬蟲基礎(chǔ)知識)
1、 網(wǎng)絡(luò)爬蟲概述
2、 網(wǎng)絡(luò)爬蟲及其應(yīng)用
3、 網(wǎng)絡(luò)爬蟲結(jié)構(gòu)
4、 HTTP請求的Python實現(xiàn)
5、 urllib2/urllib實現(xiàn)
6、 httplib/urllib實現(xiàn)
7、 更人性化的Requests
第4個主題: HTML解析(HTML解析原理介紹)
1、 初識Firebug
2、 安裝和配置Firebug
3、 正則表達式
4、 基本語法與使用
5、 Python中使用正則表達式
6、 BeautifulSoup概述
7、 安裝和配置BeautifulSoup
8、 BeautifulSoup的使用
9、 lxml的XPath解析
第5個主題: 基本的爬蟲程序開發(fā)(介紹基本的爬蟲程序開發(fā))
1、 基礎(chǔ)爬蟲架構(gòu)及運行流程
2、 URL管理器
3、 HTML下載器
4、 HTML解析器
5、 數(shù)據(jù)存儲器
6、 爬蟲調(diào)度器
第6個主題: 協(xié)議分析(協(xié)議分析)
1、 Web端協(xié)議分析
2、 網(wǎng)頁登錄POST分析
3、 隱藏表單分析
4、 加密數(shù)據(jù)分析
5、 驗證碼問題
6、 IP代理
7、 Cookie登錄
8、 傳統(tǒng)驗證碼識別
9、 人工打碼
10、 滑動驗證碼
11、 PC客戶端抓包分析
12、 HTTPAnalyzer簡介
13、 蝦米音樂PC端API實戰(zhàn)分析
14、 App抓包分析
15、 Wireshark簡介
16、 酷我聽書App端API實戰(zhàn)分析
17、 API爬蟲:爬取mp3資源信息
第7個主題: Scrapy爬蟲框架(介紹Scrapy爬蟲框架)
1、 Scrapy爬蟲架構(gòu)
2、 安裝Scrapy
3、 創(chuàng)建cnblogs項目
4、 創(chuàng)建爬蟲模塊
5、 定義Item
6、 翻頁功能
7、 構(gòu)建ItemPipeline
8、 內(nèi)置數(shù)據(jù)存儲
9、 啟動爬蟲
10、 強化爬蟲
11、 調(diào)試方法
12、 異常
13、 控制運行狀態(tài)
14、 ItemLoader
15、 Item與ItemLoader
16、 輸入與輸出處理器
17、 ItemLoaderContext?
18、 請求與響應(yīng)
19、 下載器中間件
20、 Spider中間件
21、 擴展
22、 突破反爬蟲
案例研討:通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:網(wǎng)絡(luò)爬蟲的實現(xiàn)
Day8
Python的NumPy模塊
1、 NumPy 安裝
2、 NumPy Ndarray 對象
3、 NumPy 數(shù)據(jù)類型
4、 NumPy 數(shù)組屬性
5、 NumPy 創(chuàng)建數(shù)組
6、 NumPy 從已有的數(shù)組創(chuàng)建數(shù)組
7、 NumPy 從數(shù)值范圍創(chuàng)建數(shù)組
8、 NumPy 切片和索引
9、 NumPy 高級索引
10、 NumPy 廣播(Broadcast)
11、 NumPy 迭代數(shù)組
12、 Numpy 數(shù)組操作
13、 NumPy 位運算
14、 NumPy 字符串函數(shù)
15、 NumPy 數(shù)學(xué)函數(shù)
16、 NumPy 算術(shù)函數(shù)
17、 NumPy 統(tǒng)計函數(shù)
18、 NumPy 排序、條件刷選函數(shù)
19、 NumPy 字節(jié)交換
20、 NumPy 副本和視圖
21、 NumPy 矩陣庫(Matrix)
22、 NumPy 線性代數(shù)
23、 NumPy IO
24、 NumPy Matplotlib
案例練習(xí):通過NumPy的案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:NumPy的數(shù)據(jù)處理
Day9
Python的Pandas模塊
1、 Pandas環(huán)境安裝配置
2、 Pandas數(shù)據(jù)結(jié)構(gòu)
3、 Pandas快速入門
4、 Pandas系列
5、 Pandas數(shù)據(jù)幀(DataFrame)
6、 Pandas面板(Panel)
7、 Pandas基本功能
8、 Pandas描述性統(tǒng)計
9、 Pandas函數(shù)應(yīng)用
10、 Pandas重建索引
11、 Pandas迭代
12、 Pandas排序
13、 Pandas字符串和文本數(shù)據(jù)
14、 Pandas選項和自定義
15、 Pandas索引和選擇數(shù)據(jù)
16、 Pandas統(tǒng)計函數(shù)
17、 Pandas窗口函數(shù)
18、 Pandas聚合
19、 Pandas缺失數(shù)據(jù)
20、 Pandas分組(GroupBy)
21、 Pandas合并/連接
22、 Pandas級聯(lián)
23、 Pandas日期功能
24、 Pandas時間差(Timedelta)
25、 Pandas分類數(shù)據(jù)
26、 Pandas可視化
27、 Pandas IO工具
28、 Pandas稀疏數(shù)據(jù)
29、 Pandas注意事項&竅門
30、 Pandas與SQL比較
案例練習(xí):通過Pandas使用案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:Pandas的使用方法
Day10
Python機器學(xué)習(xí)
第1個主題: Python平臺下的機器學(xué)習(xí)開發(fā)技術(shù)(介紹Python平臺下的機器學(xué)習(xí)開發(fā)技術(shù))
31、 Python平臺下的數(shù)據(jù)分析工具
32、 Python平臺下的數(shù)據(jù)分析工具概述
33、 NumPy數(shù)據(jù)處理
34、 NumPy案例
35、 Scipy數(shù)值計算
36、 SymPy符號處理
37、 Matplotlib繪制圖表
38、 Pandas數(shù)據(jù)分析、探索工具
39、 Pandas的DataFrame
40、 DataFrame的構(gòu)造
41、 StatsModels數(shù)據(jù)統(tǒng)計建模分析
42、 Scikit-Learn機器學(xué)習(xí)庫
43、 Keras人工神經(jīng)網(wǎng)絡(luò)
44、 Keras的設(shè)計原則
45、 Gensim文本挖掘庫
46、 OpenCV計算機視覺庫
47、 案例:Python語言實現(xiàn)基于聚類的圖像分割方法
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:Python語言實現(xiàn)基于聚類的圖像分割方法
Day11
Python機器學(xué)習(xí)
第1個主題: 聚類模型原理與實現(xiàn)(深入剖析聚類原理以及通過Python語言實現(xiàn)聚類算法模型)
1、 聚類介紹
2、 聚類算法應(yīng)用場景
3、 聚類算法應(yīng)用案例
4、 樣品間相近性的度量
5、 快速聚類法
6、 快速聚類法的步驟
7、 用Lm距離進行快速聚類
8、 譜系聚類法
9、 類間距離及其遞推公式
10、 譜系聚類法的步驟
11、 變量聚類
12、 K-Means(K均值)聚類
13、 均值漂移聚類
14、 基于密度的聚類方法(DBSCAN)
15、 用高斯混合模型(GMM)的最大期望(EM)聚類
16、 凝聚層次聚類
17、 圖團體檢測(Graph Community Detection)
18、 案例:Python語言聚類實現(xiàn)及繪圖
19、 案例:Kmeans應(yīng)用案例剖析
20、 課堂實操:Python語言實現(xiàn)基于聚類的圖像分割方法
第2個主題: 決策樹模型原理與實現(xiàn)(深入剖析決策樹原理以及通過Python語言實現(xiàn)決策樹模型)
1、 決策樹介紹
2、 決策樹應(yīng)用場景
3、 決策樹應(yīng)用案例
4、 信息熵
5、 ID3算法
6、 C4.5算法
7、 CART算法
8、 決策樹算法
9、 剪枝
10、 過擬合與調(diào)參
11、 決策樹算法原理
12、 決策樹法的決策過程
13、 案例:Python語言實現(xiàn)決策樹模型
14、 課堂實操:Python語言實現(xiàn)決策樹模型
15、 隨機森林
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:Python語言實現(xiàn)基于聚類的圖像分割方法
Day12
Python數(shù)據(jù)分析案例分享
第1個主題: 隨機森林模型原理與實現(xiàn)(深入剖析隨機森林原理以及通過Python語言實現(xiàn)隨機森林模型)
1、 隨機森林介紹
2、 隨機森林的特點
3、 隨機森林的相關(guān)基礎(chǔ)知識
4、 信息、熵以及信息增益的概念
5、 隨機森林的生成
6、 隨機森林算法
7、 隨機森林算法原理
8、 袋外錯誤率(oob error)
9、 隨機森林應(yīng)用場景
10、 隨機森林應(yīng)用案例
11、 案例:Python語言實現(xiàn)隨機森林模型
12、 課堂實操:Python語言實現(xiàn)隨機森林模型
13、 xgboost
第2個主題: 支持向量機模型原理與實現(xiàn)(深入剖析支持向量機算法原理以及通過Python語言實現(xiàn)支持向量機模型)
1、 支持向量機介紹
2、 支持向量機應(yīng)用場景
3、 支持向量機應(yīng)用案例
4、 支持向量機算法
5、 支持向量機算法原理
6、 線性可分支持向量機
7、 間隔最大化和支持向量
8、 對偶問題求解
9、 柆格朗日函數(shù)
10、 非線性支持向量機和核函數(shù)
a)      超平面
b)     線性核
c)      多項式核
d)     高斯核
e)     拉普拉斯核
f)      sigmiod核
11、 線性支持向量機(軟間隔支持向量機)與松弛變量
12、 松馳因子
13、 案例:Python語言實現(xiàn)支持向量機模型
14、 課堂實操:Python語言實現(xiàn)基于SVM的字符識別方法
第3個主題: 神經(jīng)網(wǎng)絡(luò)模型原理與實現(xiàn)(深入剖析神經(jīng)網(wǎng)絡(luò)算法原理以及通過Python語言實現(xiàn)神經(jīng)網(wǎng)絡(luò)模型)
1、 神經(jīng)網(wǎng)絡(luò)介紹
2、 神經(jīng)網(wǎng)絡(luò)概念
3、 神經(jīng)網(wǎng)絡(luò)發(fā)展歷史
4、 神經(jīng)網(wǎng)絡(luò)的別名
5、 神經(jīng)網(wǎng)絡(luò)研究的主要內(nèi)容
6、 神經(jīng)網(wǎng)絡(luò)基本構(gòu)成
7、 神經(jīng)網(wǎng)絡(luò)模擬人的智能行為的四個方面
8、 神經(jīng)網(wǎng)絡(luò)的特點
9、 學(xué)習(xí)能力
10、 適應(yīng)性問題
11、 神經(jīng)網(wǎng)絡(luò)基本網(wǎng)絡(luò)模型
12、 單層網(wǎng)絡(luò)
13、 多層網(wǎng)絡(luò)
14、 循環(huán)網(wǎng)絡(luò)
15、 基本網(wǎng)絡(luò)結(jié)構(gòu)特點
16、 典型訓(xùn)練算法
17、 運行方式
18、 典型問題解決方法
19、 感知機
20、 線性神經(jīng)網(wǎng)絡(luò)
21、 BP神經(jīng)網(wǎng)絡(luò)
22、 RBF網(wǎng)絡(luò)
23、 競爭網(wǎng)絡(luò)
24、 反饋神經(jīng)網(wǎng)絡(luò)
25、 隨機神經(jīng)網(wǎng)絡(luò)
26、 遺傳算法
27、 PSO與神經(jīng)網(wǎng)絡(luò)優(yōu)化
28、 自定義深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
29、 深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法
30、 深度框架的損失函數(shù)
31、 課堂實操:Python語言實現(xiàn)基于神經(jīng)網(wǎng)絡(luò)的人臉識別方法
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:Python語言實現(xiàn)基于神經(jīng)網(wǎng)絡(luò)的人臉識別方法
Day13
基于spark集群的python數(shù)據(jù)分析實戰(zhàn)
第1個主題: 基于Spark集群的Python的數(shù)據(jù)分析實戰(zhàn)
1、 基于Python開發(fā)Spark 程序概述
2、 基于Python開發(fā)Spark 程序算法庫介紹
3、 基于Python開發(fā)Spark 程序架構(gòu)剖析
4、 基于Python開發(fā)Spark 程序機器學(xué)習(xí)算法剖析
5、 數(shù)據(jù)類型
6、 基本統(tǒng)計算法
7、 分類與回歸
8、 協(xié)同過濾
9、 聚類
10、 降維
11、 特征提取與轉(zhuǎn)換
12、 頻繁模式挖掘
13、 評價指標
14、 基于Python開發(fā)Spark 程序編程
15、 基于Python開發(fā)Spark 程序APIs介紹
16、 基于Python開發(fā)Spark 程序機器學(xué)習(xí)算法應(yīng)用實戰(zhàn)
17、 基于Python開發(fā)Spark 程序?qū)崙?zhàn)案例:數(shù)據(jù)聚類分析案例剖析
案例練習(xí):通過基于Python開發(fā)Spark 程序?qū)崙?zhàn)案例:數(shù)據(jù)聚類分析案例剖析,剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
 
研討:數(shù)據(jù)聚類分析案例
 
 
 

(5)教學(xué)實驗

數(shù)據(jù)分析概述:
1、大數(shù)據(jù)企業(yè)應(yīng)用障礙分析
 
數(shù)據(jù)的產(chǎn)生、導(dǎo)入與預(yù)處理:
案例練習(xí):通過數(shù)據(jù)整理的編程和應(yīng)用案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
案例練習(xí):通過淘寶雙十一案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
案例研討:通過數(shù)據(jù)挖掘案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
研討:數(shù)據(jù)挖掘
案例練習(xí):通過企業(yè)實踐案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
研討:企業(yè)實踐案例分享
案例練習(xí):通過數(shù)據(jù)模型的應(yīng)用案例剖析案例的剖析數(shù)據(jù)分析過程,體會數(shù)據(jù)分析的難點和要點。
研討:數(shù)據(jù)模型的應(yīng)用案例剖析
 
數(shù)據(jù)分析與挖掘基礎(chǔ):
1、課堂實操:數(shù)據(jù)整理的編程和應(yīng)用
2、企業(yè)OLAP模型設(shè)計案例剖析
3、實例分享:淘寶雙十一
4、實例分享:騰訊QQ
5、實例分享:百度文庫
6、實例分享:打車大戰(zhàn)
7、實驗:Pig的實用案例
8、實驗:Hive安裝部署
9、實驗:Sqoop安裝
10、實驗:Sqoop Shell
11、實驗:FLume大數(shù)據(jù)架構(gòu)案例分享及實戰(zhàn)演練
12、實驗:企業(yè)實踐案例分享
 
R語言數(shù)據(jù)分析實戰(zhàn):
1、實驗:安裝R語言
2、實驗:R語言編程案例
3、實驗:R語言的繪圖功能
4、實操:R和MySQL的交互
5、實操:R和Oracle的交互
6、實操:R和Excel的交互
7、案例:蒙特卡羅模擬的應(yīng)用
8、案例1:汽車數(shù)據(jù)描述統(tǒng)計分析
9、案例2:財政收入與稅收描述統(tǒng)計分析
10、案例:蒙特卡羅模擬的應(yīng)用
11、實操:R語言實現(xiàn)蒙特卡羅求圓周率
12、實操:R語言一元線性回歸模型檢驗
13、實操:R語言實現(xiàn)多元線性回歸
14、實操:R語言非線性回歸
15、案例:用戶離網(wǎng)預(yù)測
16、案例:中國稅收收入增長案例分析
17、案例:新教學(xué)方法的效果
18、案例:信用卡違約預(yù)測
19、案例分享:文章分類
 
 
大數(shù)據(jù)工具介紹之Hadoop:
1、實例分享:馬云預(yù)測經(jīng)濟危機案例剖析
2、實例分享:雙十一億背后的開源技術(shù)
3、實驗:Hadoop集群部署
4、實驗:CLI操作HDFS
5、實驗:Java操作HDFS
6、實驗:MapReduce命令操作
7、實驗:MapReduce程序打包并在命令行運行
8、實驗:動手編寫MapReduce程序
 
大數(shù)據(jù)工具介紹之Spark:
1、編程實戰(zhàn):第一個Scala 程序
2、編程實戰(zhàn):編程Scala程序?qū)嵗?br /> 3、編程實戰(zhàn):Scala函數(shù)編程實例
4、編程實戰(zhàn):Scala語言復(fù)雜數(shù)據(jù)類型編程實戰(zhàn)
5、編程實戰(zhàn):用SBT對Scala項目打包與發(fā)布
6、實驗:Spark集群部署
7、實驗:Scala編寫Spark程序
8、實驗:Python編寫Spark程序
9、實驗:Spark Shell
10、編程實戰(zhàn):Spark基礎(chǔ)操作編程實戰(zhàn)
11、企業(yè)級案例:Spark Streaming與Kafka整合實現(xiàn)數(shù)據(jù)實時數(shù)據(jù)分析處理設(shè)計與分析
 
 
Pyspark集群調(diào)度與數(shù)據(jù)處理:
1、編程實戰(zhàn):Spark基礎(chǔ)操作編程實戰(zhàn)
2、PySpark MLlib實戰(zhàn)案例:數(shù)據(jù)聚類分析案例剖析
3、案例:Python編寫Spark大數(shù)據(jù)程序
 
大數(shù)據(jù)可視化:
1、可視化案例實戰(zhàn):數(shù)據(jù)占比柏拉圖繪制
2、可視化案例實戰(zhàn):儀表盤制作
3、實驗:柏拉圖制作
4、實驗:儀表盤制作
5、實驗:玫瑰圖制作
6、實驗:熱力圖制作
7、實驗:地圖制作
8、實驗:文字云制作
9、淘寶24小時生活數(shù)據(jù)可視化案例
10、無線淘寶數(shù)據(jù)可視化案例
11、Google公司數(shù)據(jù)可視化案例
12、Facebook用戶畫像可視化案例
13、個人用戶畫像案例
14、如何撰寫一份優(yōu)秀的數(shù)據(jù)分析報告
 
Python與數(shù)據(jù)分析實戰(zhàn):
1、案例實戰(zhàn):正則表達式在爬蟲中應(yīng)用實例
2、案例:Python語言實現(xiàn)運營商數(shù)據(jù)分析處理
3、實驗:Python語言自定義函數(shù)
4、案例:Python語言實現(xiàn)蒙特卡羅求圓周率
5、課堂實操:數(shù)據(jù)整理的編程和應(yīng)用
6、案例:Python語言實現(xiàn)購物藍關(guān)聯(lián)規(guī)則分析
7、課堂實操:Python語言實現(xiàn)隨機森林模型
8、課堂實操:Python語言實現(xiàn)金融數(shù)據(jù)時間序列建模
9、課堂實操:基于余弦相似度的精準營銷
10、案例分享:文章分類
11、案例:Python編寫Spark大數(shù)據(jù)程序
 

講師 劉暉 介紹

大慶油田技術(shù)研究院高級內(nèi)訓(xùn)講師
(原)中興通訊學(xué)院高級講師;
北大計算機、北郵通信雙學(xué)位
15年嵌入式硬件、軟件開發(fā)和系統(tǒng)架構(gòu)設(shè)計總監(jiān)
有8年多的“云大智物”開發(fā)及實施經(jīng)驗。曾供職于巨龍通信、大唐電信,PHILIPS三星聯(lián)合研發(fā)中心等

【工作經(jīng)歷】
長期從事智慧家居、智慧養(yǎng)老、物聯(lián)網(wǎng)應(yīng)用、移動互聯(lián)網(wǎng)應(yīng)用研發(fā)工作,曾負責北京市科委,大慶油田數(shù)據(jù)化等多個重點項目,發(fā)表相關(guān)論文多篇,授權(quán)及申請物聯(lián)網(wǎng)方面的專利10多個。目前主要從事智慧家居、智慧養(yǎng)老、車聯(lián)網(wǎng)、交通物流、物聯(lián)網(wǎng)應(yīng)用平臺以及相關(guān)應(yīng)用方面的研究,實戰(zhàn)派資深講師。
蘭州交大成教學(xué)院等高校特聘技術(shù)類講師;,參與了我國自主通信標準TD-SCDMA的標準編寫工作,是最早一批參與TD-SCDMA研究的技術(shù)人員;歷任高級軟件開發(fā)工程師,系統(tǒng)架構(gòu)師,物聯(lián)網(wǎng)架構(gòu)師,嵌入式開發(fā)主管等職位,目前是教授級高工,已進入北京市、深圳市專家?guī)烀?,深圳市物?lián)網(wǎng)協(xié)會資深專家。

【培訓(xùn)特點】
理論基礎(chǔ)深厚,邏輯思維能力強,擁有豐富的企業(yè)授課經(jīng)驗,對企業(yè)員工培養(yǎng)具有深刻認識。授課過程中,緊密結(jié)合成人教育特點,靈活運用豐富案例,善于以點帶面,啟發(fā)思維。授課風(fēng)格互動性和實操性很強,注重講師與學(xué)員之間的互動性,使得課堂氛圍輕松愉快,倡導(dǎo)分享和共同進步,深受到學(xué)員的歡迎。

上一篇:創(chuàng)新業(yè)務(wù)解決方案
下一篇:工業(yè)互聯(lián)網(wǎng)

培訓(xùn)現(xiàn)場