5G&新技術(shù)
培訓(xùn)搜索引擎
數(shù)據(jù)分析培訓(xùn)班
數(shù)據(jù)分析培訓(xùn)班內(nèi)訓(xùn)基本信息:
數(shù)據(jù)分析培訓(xùn)班(9門課程,共40天)
(1)培訓(xùn)背景
隨著互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等科技的快速發(fā)展,經(jīng)濟(jì)發(fā)展已經(jīng)進(jìn)入全球化時(shí)代,企業(yè)的命運(yùn)與國際經(jīng)濟(jì)環(huán)境緊密聯(lián)系,如美國的經(jīng)濟(jì)危機(jī)會(huì)波及到全球各個(gè)國家與地區(qū)和企業(yè),國家和企業(yè)已經(jīng)不是孤立的存在。在經(jīng)濟(jì)全球化時(shí)代商業(yè)環(huán)境極其復(fù)雜,不僅要考慮國內(nèi)、國外經(jīng)濟(jì)環(huán)境,同時(shí)還要考慮不同國家的國家政策,不同民族的民族文化,不同宗教的宗教信仰等,更加加深入了商業(yè)環(huán)境的復(fù)雜程度。在極其復(fù)雜的國際商業(yè)環(huán)境中,作為大型企業(yè)領(lǐng)導(dǎo)者僅憑經(jīng)驗(yàn)與智慧無法全面了解與掌控企業(yè)、了解國際化的商業(yè)環(huán)境,因此很難做出正確的企業(yè)戰(zhàn)略決策,甚至更無法做到企業(yè)精細(xì)化管理,更不可能做到高效運(yùn)營,那么,如何突破因商業(yè)環(huán)境復(fù)雜度而導(dǎo)致的企業(yè)失控呢?并在復(fù)雜的商業(yè)競爭環(huán)境中脫穎而出并獲得最大利潤呢?答案是掌握企業(yè)數(shù)據(jù)和掌握國際化數(shù)據(jù),并建立高效的數(shù)據(jù)分析體系,探索數(shù)據(jù)、挖掘數(shù)據(jù)高效準(zhǔn)確的獲取國際化的經(jīng)濟(jì)環(huán)境狀況,洞察市場趨勢提前做出有利于企業(yè)的戰(zhàn)略決策,提高企業(yè)競爭力,規(guī)避市場風(fēng)險(xiǎn),數(shù)據(jù)分析則是提升企業(yè)管理水平,實(shí)現(xiàn)上述目標(biāo)的一種行之有效的方法。國際化的競爭就是信息的國際化競爭。隨著大數(shù)據(jù)、人工智能的快速發(fā)展,數(shù)據(jù)的價(jià)值越發(fā)突顯,并為海量的高并發(fā)的數(shù)據(jù)分析提供了新的工具與可行性,較以往的傳統(tǒng)數(shù)據(jù)分析工具更為有效,甚至傳統(tǒng)數(shù)據(jù)分析工具做不到的,大數(shù)據(jù)、人工智能都能做到。因此不僅僅企業(yè),社會(huì)各個(gè)方面也因大數(shù)據(jù)的價(jià)值而提高了對數(shù)據(jù)的關(guān)注程度,也加大了數(shù)據(jù)分析的投入力度。無論是企業(yè)管理、戰(zhàn)略決策、精準(zhǔn)營銷、精細(xì)化管理等都無處不體現(xiàn)著數(shù)據(jù)分析的重要性。
數(shù)據(jù)如此重要,如何建設(shè)一個(gè)高效的數(shù)據(jù)分析體系呢?至少要具備以下兩個(gè)條件:一是在宏觀層面上正確理解數(shù)據(jù)分析;二是豐富的IT系統(tǒng)建設(shè)經(jīng)驗(yàn)、分布式技術(shù)和較強(qiáng)的數(shù)據(jù)技術(shù)能力。第一點(diǎn)尤為重要,因?yàn)橐坏┰谒枷牒驼J(rèn)識層面對數(shù)據(jù)分析體系理解有誤,那么即使精通于各種技術(shù)方案,所建立起來的也只是一堆技術(shù)架構(gòu)的粗糙堆砌,雖然也能達(dá)到部分?jǐn)?shù)據(jù)分析的效果,但必定會(huì)事倍功半。構(gòu)建數(shù)據(jù)分析體系包括四個(gè)層面:一是數(shù)據(jù)基礎(chǔ)平臺(tái);二是數(shù)據(jù)報(bào)表與可視化;三是精細(xì)化業(yè)務(wù)分析;四是戰(zhàn)略分析與決策。如下圖為數(shù)據(jù)分析體系結(jié)構(gòu)圖。

那么在數(shù)據(jù)基礎(chǔ)平臺(tái)建設(shè)層面,均采用大數(shù)據(jù)平臺(tái),如Hadoop、Spark等大數(shù)據(jù)平臺(tái),其好處是開源、可控,無需從零開始搭建平臺(tái)節(jié)約成本;也避免了因大數(shù)據(jù)的多樣性、隱私性等特點(diǎn)導(dǎo)致供應(yīng)無法深入挖掘數(shù)據(jù)的問題。為什么要自建數(shù)據(jù)分析平臺(tái)呢?不能采購嗎?答案是不能采購,只能自建!因?yàn)閿?shù)據(jù)挖掘一個(gè)持續(xù)的過程,日常企業(yè)經(jīng)常過程產(chǎn)生的數(shù)據(jù)、市場數(shù)據(jù)都是需要分析的,是一個(gè)持續(xù)不斷的工作,不是編寫幾個(gè)算法了事的,所以如果從供應(yīng)商采購必然會(huì)導(dǎo)致分析工作不夠深入與不夠?qū)I(yè),數(shù)據(jù)的價(jià)值是隱藏在數(shù)據(jù)中的,需要不斷的持續(xù)的挖掘才能找的,不是算法和分析工具能做到的。因此企業(yè)需要自建數(shù)據(jù)分析平臺(tái),而不采購分析工具。
Hadoop、Spark生態(tài)系統(tǒng)是大數(shù)據(jù)技術(shù)事實(shí)標(biāo)準(zhǔn),是大數(shù)據(jù)思想、理念、機(jī)制的具體實(shí)現(xiàn),是整個(gè)大數(shù)據(jù)技術(shù)中公認(rèn)的核心框架和具有極強(qiáng)的使用價(jià)值與研究價(jià)值。Hadoop 系統(tǒng)是一款開源軟件,能夠處理海量的各種結(jié)構(gòu)(包括結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化)的數(shù)據(jù)。
Hadoop是分布式集群框架,可以管理成百上千臺(tái)x86服務(wù)器集群?;贖adoop 的解決方案能夠幫助企業(yè)應(yīng)對多種大數(shù)據(jù)挑戰(zhàn),包括:
1、 分析海量(PB 級或者更多)的數(shù)據(jù)
Hadoop 能夠分析所有數(shù)據(jù),使得分析更準(zhǔn)確,預(yù)測更精確;
2、 從多個(gè)數(shù)據(jù)類型的組合中獲得新的洞察力
將來自多個(gè)數(shù)據(jù)源的不同類型的數(shù)據(jù)進(jìn)行結(jié)合分析,發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系和洞察力;
3、 存儲(chǔ)大量的數(shù)據(jù)
由于它不依賴于高端硬件,且是可擴(kuò)展的,所以使存儲(chǔ)大量數(shù)據(jù)變得經(jīng)濟(jì)有效;
4、 數(shù)據(jù)發(fā)現(xiàn)(data discovery)和研究的沙箱
Hadoop 提供了一個(gè)地方,數(shù)據(jù)科學(xué)家可在此發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系和相互依賴性。
工業(yè)和信息化部電信研究院于2014年5月發(fā)布的“大數(shù)據(jù)白皮書”中指出:
“2012 年美國聯(lián)邦政府就在全球率先推出“大數(shù)據(jù)行動(dòng)計(jì)劃(Big data initiative)”,重點(diǎn)在基礎(chǔ)技術(shù)研究和公共部門應(yīng)用上加大投入。在該計(jì)劃支持下,加州大學(xué)伯克利分校開發(fā)了完整的大數(shù)據(jù)開源軟件平臺(tái)“伯克利數(shù)據(jù)分析軟件棧(Berkeley Data Analytics Stack),其中的內(nèi)存計(jì)算軟件Spark的性能比Hadoop 提高近百倍,對產(chǎn)業(yè)界大數(shù)據(jù)技術(shù)走向產(chǎn)生巨大影響”
----來源:工業(yè)和信息化部電信研究院

Spark是成為替代MapReduce架構(gòu)的大數(shù)據(jù)分析技術(shù),Spark的大數(shù)據(jù)生態(tài)體系包括流處理、圖技術(shù)、機(jī)器學(xué)習(xí)等各個(gè)方面,并且已經(jīng)成為Apache頂級項(xiàng)目,可以預(yù)計(jì)的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會(huì)有爆發(fā)式的增長。

國內(nèi)外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark,并且它的高性能已經(jīng)得到實(shí)踐的證明。國外Yahoo已在多個(gè)項(xiàng)目中部署Spark,尤其在信息推薦的項(xiàng)目中得到深入的應(yīng)用;國內(nèi)的淘寶、愛奇異、優(yōu)酷土豆、網(wǎng)易、baidu、騰訊等大型互聯(lián)網(wǎng)企業(yè)已經(jīng)將Spark應(yīng)用于自己的生產(chǎn)系統(tǒng)中。國內(nèi)外的應(yīng)用開始越來越廣泛。Spark正在逐漸走向成熟,并在這個(gè)領(lǐng)域扮演更加重要的角色。
(2)培訓(xùn)目標(biāo)
本次數(shù)據(jù)分析技術(shù)培訓(xùn)課程,整個(gè)課程體系設(shè)計(jì)完備,思路清晰,學(xué)員通過本次課程的系統(tǒng)性學(xué)習(xí)可以掌握如下技能:1) 了解數(shù)據(jù)分析基本概念及產(chǎn)業(yè)鏈,數(shù)據(jù)分析與大數(shù)據(jù)等內(nèi)容;
2) 學(xué)會(huì)數(shù)據(jù)的產(chǎn)生、導(dǎo)入與預(yù)處理。掌握大數(shù)據(jù)生成與導(dǎo)入,數(shù)據(jù)分析流程與建模思想,數(shù)據(jù)清洗與數(shù)據(jù)加工等內(nèi)容;
3) 掌握數(shù)據(jù)分析與挖掘基礎(chǔ)。學(xué)習(xí)常見數(shù)據(jù)分析方法與數(shù)據(jù)挖掘概述,描述型數(shù)據(jù)分析,常見數(shù)據(jù)分析與挖掘算法(Kmeans、購物籃、決策樹、樸素貝葉斯等)等內(nèi)容。
4) 學(xué)習(xí)數(shù)據(jù)分析工具R語言的數(shù)據(jù)分析實(shí)戰(zhàn)。學(xué)習(xí)R語言入門基礎(chǔ),描述性統(tǒng)計(jì)分析, 用R語言做數(shù)據(jù)挖掘?qū)崙?zhàn)等內(nèi)容。
5) 介紹大數(shù)據(jù)工具之Hadoop。深入理解Hadoop原理及組件介紹,Hadoop數(shù)據(jù)分析入門等內(nèi)容。
6) 介紹大數(shù)據(jù)工具之Spark。深入剖析Spark基本概念,Spark開發(fā)與數(shù)據(jù)分析等內(nèi)容。
7) 編寫Pyspark集群調(diào)度與數(shù)據(jù)處理程序。使用Python調(diào)度spark集群并進(jìn)行數(shù)據(jù)處理等內(nèi)容。
8) 學(xué)習(xí)大數(shù)據(jù)可視化技術(shù)。包括數(shù)據(jù)可視化技術(shù)概述及培訓(xùn)關(guān)鍵點(diǎn)概述,數(shù)據(jù)挖掘與可視化工具介紹(SAS、Project、Excel、SPSS、Tableau等),可視化案例分享等內(nèi)容。
9) 學(xué)習(xí)Python與數(shù)據(jù)分析實(shí)戰(zhàn)。包括Python語言入門,Python網(wǎng)絡(luò)編程、爬蟲與機(jī)器學(xué)習(xí),Python數(shù)據(jù)分析案例分享,基于spark集群的python數(shù)據(jù)分析實(shí)戰(zhàn)等內(nèi)容。
通過以上的系統(tǒng)學(xué)習(xí),學(xué)員會(huì)建立完整的數(shù)據(jù)知識體系,使學(xué)員正確認(rèn)識大數(shù)據(jù),掌握大數(shù)據(jù)思維方法,為工作、生活和學(xué)習(xí)打下堅(jiān)實(shí)的基礎(chǔ),為持續(xù)成長提供原動(dòng)力。下圖為本次課程結(jié)束后學(xué)員獲取的完整數(shù)據(jù)知識體系如下圖。

完整數(shù)據(jù)知識體系
(3)教學(xué)計(jì)劃
本系列課程總共由9門課程組成:教學(xué)設(shè)計(jì) | NO. | 課程名稱 | 課程天數(shù) |
基礎(chǔ)與概述 | 1 | 數(shù)據(jù)分析概述 | 1天 |
2 | 數(shù)據(jù)的產(chǎn)生、導(dǎo)入與預(yù)處理 | 5天 | |
數(shù)據(jù)分析與數(shù)據(jù)挖掘核心技術(shù)講解及案例實(shí)操 | 3 | 數(shù)據(jù)分析與挖掘基礎(chǔ) | 6天 |
4 | R語言數(shù)據(jù)分析實(shí)戰(zhàn) | 6天 | |
大數(shù)據(jù)技術(shù)講解與編程實(shí)操 | 5 | 大數(shù)據(jù)工具介紹之Hadoop | 2天 |
6 | 大數(shù)據(jù)工具介紹之Spark | 3天 | |
7 | Pyspark集群調(diào)度與數(shù)據(jù)處理 | 2天 | |
大數(shù)據(jù)可視化 | 8 | 大數(shù)據(jù)可視化 | 2天 |
Python與數(shù)據(jù)分析實(shí)戰(zhàn) | 9 | Python與數(shù)據(jù)分析實(shí)戰(zhàn) | 13天 |
第1-2門課屬于基礎(chǔ)與概述,包括數(shù)據(jù)分析基本概念及產(chǎn)業(yè)鏈,數(shù)據(jù)分析與大數(shù)據(jù)等內(nèi)容。大數(shù)據(jù)生成與導(dǎo)入,數(shù)據(jù)分析流程與建模思想,數(shù)據(jù)清洗與數(shù)據(jù)加工等內(nèi)容。
第3-4門課程數(shù)據(jù)分析與數(shù)據(jù)挖掘核心技術(shù)講解及案例實(shí)操,包括常見數(shù)據(jù)分析方法與數(shù)據(jù)挖掘概述,描述型數(shù)據(jù)分析,常見數(shù)據(jù)分析與挖掘算法(Kmeans、購物籃、決策樹、樸素貝葉斯等)等內(nèi)容。R語言入門基礎(chǔ),描述性統(tǒng)計(jì)分析, 用R語言做數(shù)據(jù)挖掘?qū)崙?zhàn)等內(nèi)容。。
第5-7門課程主要大數(shù)據(jù)技術(shù)講解與編程實(shí)操,包括Hadoop原理及組件介紹,Hadoop數(shù)據(jù)分析入門等內(nèi)容。Spark基本概念,Spark開發(fā)與數(shù)據(jù)分析等內(nèi)容。使用Python調(diào)度spark集群并進(jìn)行數(shù)據(jù)處理等內(nèi)容。
第8門是大數(shù)據(jù)可視化。包括數(shù)據(jù)可視化技術(shù)概述及培訓(xùn)關(guān)鍵點(diǎn)概述,數(shù)據(jù)挖掘與可視化工具介紹(SAS、Project、Excel、SPSS、Tableau等),可視化案例分享等內(nèi)容。
第9門是Python與數(shù)據(jù)分析實(shí)戰(zhàn)。包括Python語言入門,Python網(wǎng)絡(luò)編程、爬蟲與機(jī)器學(xué)習(xí),Python數(shù)據(jù)分析案例分享,基于spark集群的python數(shù)據(jù)分析實(shí)戰(zhàn)等內(nèi)容。
(4)具體課程方案(含課程大綱)
課程1:數(shù)據(jù)分析概述-1天
【匹配關(guān)鍵知識點(diǎn)】數(shù)據(jù)分析基本概念及產(chǎn)業(yè)鏈,數(shù)據(jù)分析與大數(shù)據(jù)等內(nèi)容。
【課程時(shí)間】
1天(6小時(shí)/天)
【課程簡介】
本課程介紹大數(shù)據(jù)體系構(gòu)建數(shù)據(jù)平臺(tái),重點(diǎn)內(nèi)容包括數(shù)據(jù)平臺(tái)基礎(chǔ)理論、數(shù)據(jù)集成、數(shù)據(jù)維度等知識點(diǎn);本課程讓學(xué)員掌握基于大數(shù)據(jù)生態(tài)的數(shù)據(jù)分析知識、大數(shù)據(jù)生態(tài)體系技術(shù)選型,能夠應(yīng)用建模技術(shù)、大數(shù)據(jù)技術(shù)構(gòu)建數(shù)據(jù)平臺(tái)。
隨著大數(shù)據(jù)時(shí)代的快速到來,以及大數(shù)據(jù)在生產(chǎn)生活中迅速應(yīng)用,數(shù)據(jù)分析、數(shù)據(jù)建模、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等重要性越發(fā)突出,本課程是針對大數(shù)據(jù)時(shí)代的特點(diǎn),尹老師總結(jié)多年數(shù)據(jù)分析經(jīng)驗(yàn),而精心設(shè)計(jì)的課程,課程內(nèi)容涵蓋了數(shù)據(jù)領(lǐng)域的數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等內(nèi)容的應(yīng)用范圍、發(fā)展前景剖析。
【課程收益】
1、數(shù)據(jù)分析基本概念及產(chǎn)業(yè)鏈等內(nèi)容;
2、數(shù)據(jù)分析與大數(shù)據(jù)等內(nèi)容;
【課程特點(diǎn)】
數(shù)據(jù)分析基本概念及產(chǎn)業(yè)鏈,數(shù)據(jù)分析與大數(shù)據(jù)等內(nèi)容
【課程對象】
數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
將承擔(dān)數(shù)據(jù)分析師職責(zé)的業(yè)務(wù)人員或信息化人員
希望加強(qiáng)數(shù)據(jù)分析能力的軟件開發(fā)人員
系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
具有2年以IT部門工作經(jīng)驗(yàn),將負(fù)責(zé)數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(1天*6小時(shí))
時(shí)間 | 內(nèi)容 | 案例實(shí)踐與練習(xí) |
Day1 數(shù)據(jù)分析概述 |
1、 數(shù)據(jù)知識體系 2、 數(shù)據(jù)倉庫誕生的歷史背景 3、 大數(shù)據(jù)時(shí)代數(shù)據(jù)倉庫的演變 4、 大數(shù)據(jù)是一套全新的思維體系 5、 縱向、橫向擴(kuò)容 6、 全量分析 7、 大數(shù)據(jù)是一套全新的技術(shù)體系 8、 大數(shù)據(jù)思維與傳統(tǒng)軟件思維的區(qū)別 9、 大數(shù)據(jù)的數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)倉庫的區(qū)別 10、 硬件成本、軟件技術(shù)積累 11、 數(shù)據(jù)知識體系 12、 數(shù)據(jù)采集 13、 數(shù)據(jù)ETL 14、 數(shù)據(jù)挖掘 15、 數(shù)據(jù)可視化 16、 商務(wù)智能 17、 業(yè)務(wù)創(chuàng)新應(yīng)用 18、 大數(shù)據(jù)生態(tài)體系介紹 19、 大數(shù)據(jù)支撐----云計(jì)算 20、 大數(shù)據(jù)核心----海量數(shù)據(jù) 21、 大數(shù)據(jù)靈魂----大數(shù)據(jù)技術(shù) 22、 大數(shù)據(jù)價(jià)值----大數(shù)據(jù)商業(yè)思維 23、 大數(shù)據(jù)企業(yè)應(yīng)用障礙分析 |
案例練習(xí):通過大數(shù)據(jù)企業(yè)應(yīng)用障礙分析案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:大數(shù)據(jù)企業(yè)應(yīng)用障礙分析 |
課程2:數(shù)據(jù)的產(chǎn)生、導(dǎo)入與預(yù)處理-5天
【匹配關(guān)鍵知識點(diǎn)】大數(shù)據(jù)生成與導(dǎo)入,數(shù)據(jù)分析流程與建模思想,數(shù)據(jù)清洗與數(shù)據(jù)加工等內(nèi)容。
【課程時(shí)間】
5天(6小時(shí)/天)
【課程簡介】
隨著大數(shù)據(jù)時(shí)代的快速到來,以及大數(shù)據(jù)在生產(chǎn)生活中迅速應(yīng)用,大數(shù)據(jù)領(lǐng)域如雨后春筍般的出現(xiàn)大量的新技術(shù),如Hadoop、Spark等技術(shù),其中Python語言已經(jīng)成為大數(shù)據(jù)技術(shù)中最為重要的一部分,被越來越多的企業(yè)所使用。Python語言的功能涵蓋了大數(shù)據(jù)領(lǐng)域的數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、大數(shù)據(jù)應(yīng)用開發(fā)等各種不同類型的計(jì)算操作,應(yīng)用范圍廣泛、前景非常廣闊。本課程是尹老師多年工作經(jīng)驗(yàn)的總結(jié)和歸納,從實(shí)際業(yè)務(wù)案例為入口,使學(xué)員從理論層到實(shí)操層面系統(tǒng)的學(xué)習(xí)數(shù)據(jù)處理技術(shù),使學(xué)員深入理解Python語言等數(shù)據(jù)分析工具。通過本課程的學(xué)習(xí),學(xué)員即可以正確的分析企業(yè)的數(shù)據(jù),為管理者、決策層提供數(shù)據(jù)支撐。
【課程收益】
1、大數(shù)據(jù)生成與導(dǎo)入;
2、數(shù)據(jù)分析流程與建模思想;
3、數(shù)據(jù)清洗與數(shù)據(jù)加工。
【課程特點(diǎn)】
大數(shù)據(jù)生成與導(dǎo)入,數(shù)據(jù)分析流程與建模思想,數(shù)據(jù)清洗與數(shù)據(jù)加工等內(nèi)容。
【課程對象】
數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
將承擔(dān)數(shù)據(jù)分析師職責(zé)的業(yè)務(wù)人員或信息化人員
希望加強(qiáng)數(shù)據(jù)分析能力的軟件開發(fā)人員
系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
具有2年以IT部門工作經(jīng)驗(yàn),將負(fù)責(zé)數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(5天*6小時(shí))
時(shí)間 | 內(nèi)容 | 案例實(shí)踐與練習(xí) |
Day1 數(shù)據(jù)的產(chǎn)生、導(dǎo)入與預(yù)處理 |
1、 數(shù)據(jù)知識體系 a) 數(shù)據(jù)采集 b) 數(shù)據(jù)ETL c) 數(shù)據(jù)挖掘 d) 數(shù)據(jù)可視化 e) 商務(wù)智能 f) 業(yè)務(wù)創(chuàng)新應(yīng)用 2、 數(shù)據(jù)分析挖掘的過程 3、 建立數(shù)據(jù)庫的方法 4、 企業(yè)對數(shù)據(jù)分析挖掘的錯(cuò)誤認(rèn)識 5、 ETL的設(shè)計(jì) 6、 ETL的實(shí)施 7、 數(shù)據(jù)源 8、 數(shù)據(jù)采集 9、 隨機(jī)抽樣 10、 數(shù)據(jù)去重 11、 數(shù)據(jù)缺失值處理 12、 檢驗(yàn)數(shù)據(jù)邏輯錯(cuò)誤 13、 離群點(diǎn)檢測 14、 數(shù)據(jù)轉(zhuǎn)換 15、 數(shù)據(jù)分組 16、 課堂實(shí)操:數(shù)據(jù)整理的編程和應(yīng)用 |
案例練習(xí):通過數(shù)據(jù)整理的編程和應(yīng)用案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:數(shù)據(jù)整理的編程和應(yīng)用 |
Day2 數(shù)據(jù)清洗與數(shù)據(jù)加工 |
1、 ROLAP與多維數(shù)據(jù)庫 2、 OLAP與OLTP的區(qū)別 3、 多維數(shù)據(jù)庫與數(shù)據(jù)倉庫的關(guān)系 4、 OLAP模型搭建(多維模型) 5、 確定維度、量度與事實(shí)的關(guān)系 6、 OLAP的應(yīng)用場景 7、 決策支持技術(shù) 8、 企業(yè)OLAP模型設(shè)計(jì)案例剖析 9、 數(shù)據(jù)模型設(shè)計(jì)原則與模型搭建 10、 星型架構(gòu)與雪花型架構(gòu) 11、 事實(shí)表與維度表的設(shè)計(jì) 12、 邏輯設(shè)計(jì)與物理設(shè)計(jì) 13、 數(shù)據(jù)模型設(shè)計(jì)的常用方法 14、 數(shù)據(jù)模型設(shè)計(jì)技巧總結(jié) 15、 數(shù)據(jù)模型分片 16、 數(shù)據(jù)模型索引 17、 數(shù)據(jù)模型粒度 18、 數(shù)據(jù)模型案例分析 |
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:數(shù)據(jù)模型案例分析 |
Day3 大數(shù)據(jù)生成與導(dǎo)入 |
1、 大數(shù)據(jù)基礎(chǔ)理論介紹 2、 大數(shù)據(jù)的生成與導(dǎo)入 3、 大數(shù)據(jù)技術(shù) 4、 CAP理論 5、 BASE思想 6、 消息機(jī)制 7、 分布式協(xié)調(diào)器 8、 心跳機(jī)制 9、 日志結(jié)構(gòu)文件系統(tǒng) 10、 RWN理論 11、 跨操作系統(tǒng)調(diào)度資源 12、 大數(shù)據(jù)企業(yè)實(shí)踐 13、 電商遇到的問題 14、 大型互聯(lián)網(wǎng)企業(yè)遇到的問題 15、 大數(shù)據(jù)主要解決的問題 16、 實(shí)例分享:淘寶雙十一 17、 實(shí)例分享:騰訊QQ 18、 實(shí)例分享:百度文庫 19、 實(shí)例分享:打車大戰(zhàn) 20、 大數(shù)據(jù)的作用 21、 Pig 設(shè)計(jì)的目標(biāo) 22、 Pig Latine介紹 23、 Pig關(guān)鍵性技術(shù) 24、 Pig的實(shí)用案例 25、 Hive簡介 26、 Hive的組件與體系架構(gòu) 27、 Hive架構(gòu) 28、 Hive vs RDBMS 29、 Hive的高可用部署方案 30、 Hive Data Types 31、 Hive安裝模式 32、 Hive安裝部署 33、 Hive Shell 34、 Hive API開發(fā)演示 35、 Hive中UDF和UDAF 36、 Hive數(shù)據(jù)分析 37、 Sqoop簡介 38、 Sqoop架構(gòu) 39、 Sqoop安裝 40、 Sqoop Shell 41、 Flume簡介及使用 42、 Flume架構(gòu) 43、 Flume數(shù)據(jù)源類型 44、 Flume收集數(shù)據(jù)2種主要工作模式 45、 電商客戶日志分析 46、 大型國企大數(shù)據(jù)應(yīng)用 47、 大數(shù)據(jù)架構(gòu)案例分享及實(shí)戰(zhàn)演練 |
案例練習(xí):通過淘寶雙十一案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:淘寶雙十一 |
Day4 數(shù)據(jù)分析流程 |
1、 數(shù)據(jù)分析基本概念 2、 數(shù)據(jù)分析算法 3、 數(shù)據(jù)分析工具 4、 數(shù)據(jù)分析流程 5、 數(shù)據(jù)分析范疇 6、 數(shù)據(jù)挖掘基本概念 7、 數(shù)據(jù)挖掘模型 8、 數(shù)據(jù)挖掘模型評估 9、 數(shù)據(jù)挖掘目標(biāo) 10、 數(shù)據(jù)挖掘數(shù)據(jù)質(zhì)量 11、 數(shù)據(jù)挖掘的9大定律 12、 數(shù)據(jù)挖掘發(fā)展趨勢 |
案例研討:通過數(shù)據(jù)挖掘案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:數(shù)據(jù)挖掘 |
Day5 數(shù)據(jù)分析流程與建模思想 |
1、 定義挖掘目標(biāo) 2、 數(shù)據(jù)取樣 3、 數(shù)據(jù)探索 4、 數(shù)據(jù)預(yù)處理 5、 挖掘建模 6、 建立模型 7、 業(yè)務(wù)理解 8、 模型擬合 9、 訓(xùn)練集 10、 測試集 11、 模型評價(jià) 12、 企業(yè)實(shí)踐案例分享 |
案例練習(xí):通過企業(yè)實(shí)踐案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:企業(yè)實(shí)踐案例分享 |
Day5 數(shù)據(jù)的統(tǒng)計(jì)學(xué)知識和模型 |
1、 回歸分析 2、 貝葉斯算法 3、 聚類算法 4、 SVM 5、 決策樹算法 6、 關(guān)聯(lián)規(guī)則算法 7、 時(shí)間序列算法 8、 神經(jīng)網(wǎng)絡(luò) 9、 深度學(xué)習(xí) 10、 人工智能 11、 其他挖掘算法 12、 以上數(shù)據(jù)模型的應(yīng)用案例剖析 |
案例練習(xí):通過數(shù)據(jù)模型的應(yīng)用案例剖析案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:數(shù)據(jù)模型的應(yīng)用案例剖析 |
課程3:數(shù)據(jù)分析與挖掘基礎(chǔ)-6天
【匹配關(guān)鍵知識點(diǎn)】常見數(shù)據(jù)分析方法與數(shù)據(jù)挖掘概述,描述型數(shù)據(jù)分析,常見數(shù)據(jù)分析與挖掘算法(Kmeans、購物籃、決策樹、樸素貝葉斯等)等內(nèi)容。
【課程時(shí)間】
6天(6小時(shí)/天)
【課程簡介】
隨著大數(shù)據(jù)時(shí)代的快速到來,以及大數(shù)據(jù)在生產(chǎn)生活中迅速應(yīng)用,數(shù)據(jù)分析、數(shù)據(jù)建模、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、人工智能等重要性越發(fā)突出,本課程是針對大數(shù)據(jù)時(shí)代的特點(diǎn),尹老師總結(jié)多年數(shù)據(jù)分析經(jīng)驗(yàn),而精心設(shè)計(jì)的課程,課程內(nèi)容涵蓋了數(shù)據(jù)領(lǐng)域的數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、人工智能等內(nèi)容,以及人工智能的應(yīng)用范圍、發(fā)展前景剖析。
【課程收益】
1、常見數(shù)據(jù)分析方法與數(shù)據(jù)挖掘概述;
2、描述型數(shù)據(jù)分析;
3、常見數(shù)據(jù)分析與挖掘算法(Kmeans、購物籃、決策樹、樸素貝葉斯等)等。
【課程特點(diǎn)】
常見數(shù)據(jù)分析方法與數(shù)據(jù)挖掘概述,描述型數(shù)據(jù)分析,常見數(shù)據(jù)分析與挖掘算法(Kmeans、購物籃、決策樹、樸素貝葉斯等)等內(nèi)容。
【課程對象】
數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
將承擔(dān)數(shù)據(jù)分析師職責(zé)的業(yè)務(wù)人員或信息化人員
希望加強(qiáng)數(shù)據(jù)分析能力的軟件開發(fā)人員
系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
具有2年以IT部門工作經(jīng)驗(yàn),將負(fù)責(zé)數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(6天*6小時(shí))
時(shí)間 | 內(nèi)容 | 案例實(shí)踐與練習(xí) |
Day1 常見數(shù)據(jù)分析方法與數(shù)據(jù)挖掘概述 |
1、 數(shù)據(jù)分析與建模的概念 2、 數(shù)據(jù)分析與建模過程 3、 數(shù)據(jù)分析模型開發(fā)過程 4、 數(shù)據(jù)建模概述 5、 機(jī)器學(xué)習(xí)概念 6、 機(jī)器學(xué)習(xí)算法剖析 7、 算法庫分類 8、 算法庫 9、 深度學(xué)習(xí) 10、 神經(jīng)網(wǎng)絡(luò) 11、 人工智能 12、 商業(yè)智能 |
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:數(shù)據(jù)分析的過程 |
Day2 描述型數(shù)據(jù)分析 |
1、 統(tǒng)計(jì)學(xué)基本概念 2、 統(tǒng)計(jì)數(shù)據(jù)的計(jì)量尺度 3、 常用基本統(tǒng)計(jì)量 4、 集中趨勢的描述指標(biāo) 5、 離散趨勢的描述指標(biāo) 6、 中心極限定理 7、 大數(shù)定律 8、 數(shù)據(jù)的分布 9、 正態(tài)分布的特征 10、 偏度和峰度 11、 檢測數(shù)據(jù)集的分布 12、 數(shù)據(jù)的分布擬合檢驗(yàn)與正態(tài)性檢驗(yàn) 13、 抽樣標(biāo)準(zhǔn) 14、 假設(shè)檢驗(yàn) 15、 T檢驗(yàn) 16、 置信區(qū)間 |
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:描述性數(shù)據(jù)分析 |
Day3 常見數(shù)據(jù)分析與挖掘算法 |
1、 數(shù)據(jù)挖掘的基本任務(wù) 2、 數(shù)據(jù)挖掘建模過程 a) 定義挖掘目標(biāo) b) 數(shù)據(jù)取樣 c) 數(shù)據(jù)探索 d) 數(shù)據(jù)預(yù)處理 e) 挖掘建模 f) 建立模型 g) 業(yè)務(wù)理解 h) 模型擬合 i) 訓(xùn)練集 j) 測試集 k) 模型評價(jià) 3、 常用的數(shù)學(xué)預(yù)測模型 a) 線性回歸 b) 回歸(預(yù)測)與分類 c) 決策樹與隨機(jī)森林 d) 聚類分析(kmeans) e) 關(guān)聯(lián)規(guī)則 f) 時(shí)序模式 g) 離群點(diǎn)檢測 h) 深度學(xué)習(xí) i) 人工智能 j) 神經(jīng)網(wǎng)絡(luò) 4、 案例:如何從數(shù)據(jù)中挖掘出有價(jià)值的信息 |
案例研討:通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:常用數(shù)據(jù)分析方法與算法 |
Day4 樸素貝葉斯與回歸分析 |
第1個(gè)主題: 主成分分析和因子分析(深入剖析主成分分析及因子分析) 1、 主成分分析 2、 總體主成分 3、 樣本主成分 4、 主成分分析模型 5、 案例:主成分分析模型實(shí)現(xiàn) 6、 課堂實(shí)操:主成分分析模型實(shí)現(xiàn) 第2個(gè)主題: 方差分析(深入剖析方差分析方法及實(shí)現(xiàn)) 1、 單因素方差分析 2、 單因素方差分析模型 3、 因素效應(yīng)的顯著性檢驗(yàn) 4、 因素各水平均值的估計(jì)與比較 5、 兩因素等重復(fù)試驗(yàn)下的方差分析 6、 統(tǒng)計(jì)模型 7、 交互效應(yīng)及因素效應(yīng)的顯著性檢驗(yàn) 8、 無交互效應(yīng)時(shí)各因素均值的估計(jì)與比較 9、 有交互效應(yīng)時(shí)因素各水平組合上的均值估計(jì)與比較 10、 兩因素非重復(fù)試驗(yàn)下的方差分析 11、 金融案例:方差分析實(shí)現(xiàn) 12、 課堂實(shí)操:方差分析實(shí)現(xiàn) 第3個(gè)主題: Bayes統(tǒng)計(jì)分析(深入剖析Bayes統(tǒng)計(jì)分析) 1、 Baves統(tǒng)計(jì)模型 2、 Bayes統(tǒng)計(jì)分析的基本思想 3、 Bayes統(tǒng)計(jì)模型 4、 Bayes統(tǒng)計(jì)推斷原則 5、 先驗(yàn)分布的Bayes假設(shè)與不變先驗(yàn)分布 6、 共軛先驗(yàn)分布 7、 先驗(yàn)分布中超參數(shù)的確定 8、 Baves統(tǒng)計(jì)推斷 9、 參數(shù)的Bayes點(diǎn)估計(jì) 10、 Bayes區(qū)間估計(jì) 11、 Bayes假設(shè)檢驗(yàn) 12、 案例:實(shí)現(xiàn)Bayes統(tǒng)計(jì)分析建模 13、 課堂實(shí)操:實(shí)現(xiàn)Bayes統(tǒng)計(jì)分析建模 第4個(gè)主題: 數(shù)學(xué)建模(深入剖析數(shù)學(xué)建模) 1、 數(shù)學(xué)建模 2、 數(shù)學(xué)預(yù)測模型 3、 模型評估 4、 模型參數(shù)優(yōu)化 第5個(gè)主題: 回歸分析與分類分析原理與應(yīng)用(深入剖析數(shù)據(jù)的回歸分析與分類分析的原理以及應(yīng)用) 1、 回歸與分類 2、 回歸分析概念 3、 線性回歸模型及其參數(shù)估計(jì) 4、 一元線性回歸 5、 一元線性回歸模型 6、 一元線性回歸模型求解參數(shù) 7、 損失函數(shù) 8、 求偏導(dǎo) 9、 回歸方程的顯著性檢驗(yàn) 10、 殘差分析 11、 誤差項(xiàng)的正態(tài)性檢驗(yàn) 12、 殘差圖分析 13、 統(tǒng)計(jì)推斷與預(yù)測 14、 回歸模型的選取 15、 窮舉法 16、 逐步回歸法 17、 嶺回歸分析 18、 一元線性回歸 19、 金融案例:一元線性回歸模型檢驗(yàn) 20、 多元線性回歸概述 21、 多元線性回歸模型 22、 金融案例:多元線性回歸實(shí)現(xiàn)航空業(yè)信用打分和評級模型 第6個(gè)主題: Logistic回歸分析(剖析Logistic回歸與其它回歸分析方法) 1、 Logistic回歸介紹 2、 Logistic函數(shù) 3、 Logistic回歸模型 4、 案例:SPSS Logistic回歸實(shí)現(xiàn) 5、 課堂實(shí)操: Logistic回歸實(shí)現(xiàn)航空業(yè)欺詐預(yù)測模型 6、 課堂實(shí)操: Logistic回歸實(shí)現(xiàn)航空業(yè)風(fēng)險(xiǎn)分析模型 第7個(gè)主題: 非線性回歸原理及應(yīng)用(剖析非線性回歸原理及應(yīng)用實(shí)踐) 1、 非線性回歸 2、 雙曲線函數(shù) 3、 冪函數(shù) 4、 指數(shù)函數(shù) 5、 對數(shù)函數(shù) 6、 S型曲線 7、 案例:非線性回歸實(shí)現(xiàn) 8、 課堂實(shí)操:非線性回歸實(shí)現(xiàn)航空業(yè)經(jīng)營分析和績效分析模型 |
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:主成分分析模型實(shí)現(xiàn) |
Day5 聚類分析與關(guān)聯(lián)規(guī)則挖掘 |
第1個(gè)主題: 數(shù)據(jù)建模常用距離(深入剖析數(shù)據(jù)建模過程中常用的距離模型) 1、 數(shù)據(jù)挖掘常用距離 2、 歐氏距離 3、 曼哈頓距離 4、 切比雪夫距離 5、 閔可夫斯基距離 6、 標(biāo)準(zhǔn)化歐氏距離 7、 馬氏距離 8、 夾角余弦 9、 漢明距離 10、 杰卡德距離& 杰卡德相似系數(shù) 11、 相關(guān)系數(shù)& 相關(guān)距離 12、 信息熵 第2個(gè)主題: 聚類分析與建模實(shí)現(xiàn)(深入剖析聚類分析以及通過SPSS聚類算法模型分析數(shù)據(jù)) 1、 聚類分析 2、 聚類算法 3、 樣品間相近性的度量 4、 快速聚類法 5、 快速聚類法的步驟 6、 用Lm距離進(jìn)行快速聚類 7、 譜系聚類法 8、 類間距離及其遞推公式 9、 譜系聚類法的步驟 10、 變量聚類 11、 案例:SPSS聚類實(shí)現(xiàn)及繪圖 12、 案例:Kmeans應(yīng)用案例剖析 13、 課堂實(shí)操:編寫程序?qū)崿F(xiàn)Kmeans應(yīng)用案例剖析 第3個(gè)主題: 關(guān)聯(lián)規(guī)則分析與實(shí)現(xiàn)(深入剖析關(guān)聯(lián)規(guī)則分析以及通過SPSS關(guān)聯(lián)規(guī)則算法模型分析數(shù)據(jù)) 1、 關(guān)聯(lián)規(guī)則 2、 支持度與置信度 3、 關(guān)聯(lián)規(guī)則挖掘的過程 4、 Apriori算法 5、 關(guān)聯(lián)規(guī)則案例 6、 支持度與置信度計(jì)算 7、 案例:SPSS實(shí)現(xiàn)關(guān)聯(lián)規(guī)則 8、 課堂實(shí)操:SPSS實(shí)現(xiàn)航空業(yè)數(shù)據(jù)關(guān)聯(lián)規(guī)則分析 |
案例練習(xí):通過編寫程序?qū)崿F(xiàn)Kmeans應(yīng)用案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:編寫程序?qū)崿F(xiàn)Kmeans應(yīng)用案例剖析 |
Day6 決策樹與隨機(jī)森林 |
第1個(gè)主題: 決策樹分析與實(shí)現(xiàn)(深入剖析決策樹分析以及通過SPSS決策樹模型分析數(shù)據(jù)) 1、 決策樹分析 2、 決策樹 3、 決策樹構(gòu)成要素 4、 決策樹算法原理 5、 決策樹法的決策過程 6、 決策樹算法 7、 案例:實(shí)現(xiàn)決策樹分析 8、 課堂實(shí)操:實(shí)現(xiàn)航空業(yè)客戶細(xì)分模型 9、 隨機(jī)森林 第2個(gè)主題: 數(shù)據(jù)建模時(shí)序模式分析與實(shí)現(xiàn)(深入剖析時(shí)序模式分析) 1、 時(shí)序模式 2、 時(shí)間序列分析 3、 時(shí)間序列分析 4、 時(shí)間序列 5、 序列分析的三個(gè)階段 6、 課堂實(shí)操:實(shí)現(xiàn)航空業(yè)客戶流失模型 |
案例練習(xí):通過實(shí)現(xiàn)航空業(yè)客戶細(xì)分模型案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:實(shí)現(xiàn)航空業(yè)客戶細(xì)分模型 |
課程4:R語言數(shù)據(jù)分析實(shí)戰(zhàn)-6天
【匹配關(guān)鍵知識點(diǎn)】R語言入門基礎(chǔ),描述性統(tǒng)計(jì)分析, 用R語言做數(shù)據(jù)挖掘?qū)崙?zhàn)等內(nèi)容。
【課程時(shí)間】
6天(6小時(shí)/天)
【課程簡介】
R語言由新西蘭奧克蘭大學(xué)ross ihaka和robert gentleman 開發(fā)。R語言是自由軟件,具有非常強(qiáng)大的統(tǒng)計(jì)分析和作圖功能,而且具有非常豐富的網(wǎng)上資源,目前R軟件有3000多種貢獻(xiàn)包,幾乎可以實(shí)現(xiàn)所有的統(tǒng)計(jì)方法,目前大部分的頂級統(tǒng)計(jì)學(xué)家和計(jì)量經(jīng)濟(jì)學(xué)家都使用R語言,而且越來越多的數(shù)據(jù)分析實(shí)務(wù)人員也開始使用R語言。學(xué)習(xí)R軟件正成為一種趨勢。
R語言具有簡單易學(xué),功能強(qiáng)大,體積小(僅30M),完全免費(fèi),可自由開發(fā)等特點(diǎn),且R語言和S語言語法基本相同,絕大部分程序是互相兼容的。
R軟件最優(yōu)美的地方是它能夠修改很多前人編寫的包的代碼做各種你所需的事情,實(shí)際你是站在巨人的肩膀上。
【課程收益】
1、R語言入門基礎(chǔ);
2、描述性統(tǒng)計(jì)分析;
3、用R語言做數(shù)據(jù)挖掘?qū)崙?zhàn)等內(nèi)容;
【課程特點(diǎn)】
R語言入門基礎(chǔ),描述性統(tǒng)計(jì)分析, 用R語言做數(shù)據(jù)挖掘?qū)崙?zhàn)等內(nèi)容。
【課程對象】
數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
將承擔(dān)數(shù)據(jù)分析師職責(zé)的業(yè)務(wù)人員或信息化人員
希望加強(qiáng)數(shù)據(jù)分析能力的軟件開發(fā)人員
系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
具有2年以IT部門工作經(jīng)驗(yàn),將負(fù)責(zé)數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(6天*6小時(shí))
時(shí)間 | 內(nèi)容 | 案例實(shí)踐與練習(xí) |
Day1 R語言入門基礎(chǔ) |
第1個(gè)主題: R語言簡介(介紹R語言工具) 1、 R語言歷史與趨勢剖析 2、 安裝R語言 3、 RStudio使用 4、 工作空間的設(shè)置 5、 R程序包的載入與使用 6、 R資源網(wǎng)上查找方法介紹 第2個(gè)主題: R語言語法介紹(R語言基礎(chǔ)語法介紹) 1、 R語言的數(shù)據(jù)類型介紹 2、 R語言的數(shù)據(jù)結(jié)構(gòu)介紹 3、 數(shù)據(jù)的讀入和輸出 4、 R語言連接RDBMS數(shù)據(jù)庫介紹 5、 數(shù)據(jù)庫的讀/寫 6、 R和SQL的交互 7、 循環(huán)語句 8、 條件語句 9、 遍歷 10、 常用函數(shù) 11、 常用算法 12、 定性變量 13、 離散變量 14、 連續(xù)變量 15、 多元變量 16、 對向量、矩陣和列表進(jìn)行運(yùn)算 17、 提取和插入元素 18、 日期和時(shí)間數(shù)據(jù)的操作處理 19、 編寫自定義函數(shù)解決復(fù)雜問題 20、 編程技巧 21、 編程案例介紹 |
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:R語言編程 |
Day2 R語言繪圖功能 |
第1個(gè)主題: R語言的繪圖功能介紹(R語言的探索性分析與數(shù)據(jù)可視化) 1、 繪圖函數(shù) 2、 圖形增強(qiáng)函數(shù) 3、 圖形互動(dòng)函數(shù) 4、 高級繪圖命令 5、 散點(diǎn)圖 6、 柱狀圖 7、 直方圖 第2個(gè)主題: R語言數(shù)據(jù)預(yù)處理(R語言的數(shù)據(jù)的讀取、清洗和轉(zhuǎn)換) 1、 數(shù)據(jù)預(yù)處理 2、 日期和時(shí)間的處理 3、 因子變量的操作 4、 下標(biāo)數(shù)據(jù)整理技術(shù) 5、 字符串操作 6、 數(shù)據(jù)子集的篩選 7、 識別重復(fù)數(shù)據(jù)和缺失值處理 8、 函數(shù)映射數(shù)據(jù)轉(zhuǎn)換整理技術(shù) 9、 變量的重新編碼 10、 plyr、reshape2等包整理數(shù)據(jù) |
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:R語言繪圖 |
Day3 R語言與外部數(shù)據(jù)交互 |
第1個(gè)主題: 數(shù)據(jù)的讀入和輸出(R語言的數(shù)據(jù)的讀取、加載和寫出) 1、 數(shù)據(jù)的讀入和寫出 2、 read.table 3、 scan 4、 內(nèi)置數(shù)據(jù)集的讀取 第2個(gè)主題: R語言連接RDBMS數(shù)據(jù)庫介紹 1、 R語言RDBMS數(shù)據(jù)庫操作 2、 實(shí)操:R和MySQL的交互 3、 實(shí)操:R和Oracle的交互 4、 數(shù)據(jù)庫的讀/寫 5、 R和SQL的交互 6、 實(shí)操:R和Excel的交互 7、 R語言大數(shù)據(jù)操作 8、 實(shí)操:R編寫Spark程序 |
案例研討:通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:R語言與RDBMS交互 |
Day4 描述性統(tǒng)計(jì)分析 |
第1個(gè)主題: R語言統(tǒng)計(jì)模擬與隨機(jī)抽樣(R語言的算法介紹) 1、 隨機(jī)數(shù)生成 2、 蒙特卡洛模擬 3、 中心極限定理的模擬 4、 線性模型剖析 5、 線性模型診斷方法 6、 多元選擇模型剖析 7、 隨機(jī)抽樣 8、 案例:蒙特卡羅模擬的應(yīng)用 第2個(gè)主題: 描述統(tǒng)計(jì)分析與離群點(diǎn)檢測(掌握R語言用法和基本數(shù)據(jù)分析、數(shù)據(jù)描述統(tǒng)計(jì)分析) 1、 基本數(shù)據(jù)分析(隨機(jī)數(shù)的生成和統(tǒng)計(jì)模擬) 2、 單變量數(shù)據(jù)分析與作圖 3、 雙變量數(shù)據(jù)分析與作圖(二維表分析,并列箱線圖,相關(guān)系數(shù)) 4、 多變量數(shù)據(jù)分析與作圖(多變量相關(guān)系數(shù)矩陣) 5、 離群點(diǎn)檢測 6、 案例1:汽車數(shù)據(jù)描述統(tǒng)計(jì)分析 7、 案例2:財(cái)政收入與稅收描述統(tǒng)計(jì)分析 |
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:描述性統(tǒng)計(jì)分析 |
Day5 用R語言做數(shù)據(jù)挖掘?qū)崙?zhàn) |
第1個(gè)主題: 基本數(shù)據(jù)分析(數(shù)據(jù)分析和數(shù)據(jù)挖掘基礎(chǔ)介紹) 1、 中心極限定理 2、 大數(shù)定律 3、 正態(tài)分布的特征 4、 偏度和峰度 5、 檢測數(shù)據(jù)集的分布 6、 概率分布 7、 隨機(jī)數(shù)生成 8、 隨機(jī)抽樣 9、 蒙特卡洛模擬 10、 用蒙特卡羅方法計(jì)算圓周率π 11、 案例:蒙特卡羅模擬的應(yīng)用 12、 實(shí)操:R語言實(shí)現(xiàn)蒙特卡羅求圓周率 第2個(gè)主題: 回歸與分類(掌握回歸算法與實(shí)際建模分析應(yīng)用,回歸與分類剖析,R語言實(shí)現(xiàn)及預(yù)測應(yīng)用) 1、 回歸分析 2、 回歸分析概念 3、 線性模型剖析 4、 一元線性回歸 5、 一元線性回歸模型 6、 一元線性回歸模型求解參數(shù) 7、 損失函數(shù) 8、 求偏導(dǎo) 9、 線性模型評估方法 10、 實(shí)操:R語言一元線性回歸 11、 實(shí)操:R語言一元線性回歸模型檢驗(yàn) 第3個(gè)主題: 多元線性回歸(多元線性回歸剖析,R語言實(shí)現(xiàn)及預(yù)測應(yīng)用) 1、 多元選擇模型剖析 2、 多元線性回歸思想 3、 實(shí)操:R語言實(shí)現(xiàn)多元線性回歸 第4個(gè)主題: 非線性回歸(非線性回歸剖析,R語言實(shí)現(xiàn)及預(yù)測應(yīng)用) 1、 雙曲線函數(shù) 2、 冪函數(shù) 3、 指數(shù)函數(shù) 4、 對數(shù)函數(shù) 5、 S 型曲線 6、 實(shí)操:R語言非線性回歸 7、 逐步回歸分析 8、 嶺回歸分析 第5個(gè)主題: Logistic回歸(Logistic回歸剖析,R語言實(shí)現(xiàn)及預(yù)測應(yīng)用) 1、 Logistic函數(shù) 2、 繪制Logistic曲線 3、 Logistic回歸介紹 4、 案例:用戶離網(wǎng)預(yù)測 5、 案例:中國稅收收入增長案例分析 6、 案例:新教學(xué)方法的效果 7、 案例:信用卡違約預(yù)測 |
案例練習(xí):通過用戶離網(wǎng)預(yù)測案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:用戶離網(wǎng)預(yù)測 |
Day6 用R語言文本數(shù)據(jù)挖掘?qū)崙?zhàn) |
第1個(gè)主題: 文本挖掘應(yīng)用(介紹文本數(shù)據(jù)挖掘的實(shí)際應(yīng)用場景) 1、 文本結(jié)構(gòu)分析 2、 文章分類 3、 文章摘要 4、 文章聚類 5、 相似文章推薦 6、 NLP自然語言處理 7、 命名實(shí)體識別 8、 案例分析 第2個(gè)主題: 文本數(shù)據(jù)挖掘過程(介紹文本數(shù)據(jù)挖掘的流程) 1、 文本預(yù)處理 2、 文本挖掘 3、 模式與表示 4、 模式評估 第3個(gè)主題: 中文分詞技術(shù)介紹(介紹文本挖掘的基礎(chǔ)中文分詞技術(shù)) 1、 信息檢索 2、 倒排索引 3、 文本分詞 4、 停用詞 5、 詞根 6、 主要的分詞方法 7、 基于規(guī)則的詞性標(biāo)注 8、 自動(dòng)語義標(biāo)注 9、 中文分詞軟件包 10、 R語言中文分詞 11、 代碼實(shí)現(xiàn)中文分詞 第4個(gè)主題: TF-IDF算法介紹(介紹TF-IDF文章分類算法以及代碼實(shí)現(xiàn)) 1、 前提假設(shè) 2、 文章特征詞提取 3、 詞頻 4、 逆文檔頻率 5、 文章分類 6、 案例分享:文章分類 7、 模型質(zhì)量評估 8、 查準(zhǔn)率 9、 查全率 10、 模型質(zhì)量評估案例 11、 TF-IDF的不足 12、 算法改進(jìn) 第5個(gè)主題: 相似文章推薦(通過相似算法向讀者推薦文章) 1、 模型表示:特征向量 2、 余弦相似度 3、 相似文章推薦 4、 案例介紹 5、 代碼實(shí)現(xiàn) |
案例練習(xí):通過文章分類案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:文章分類 |
課程5:大數(shù)據(jù)工具介紹之Hadoop-2天
【匹配關(guān)鍵知識點(diǎn)】Hadoop原理及組件介紹,Hadoop數(shù)據(jù)分析入門等內(nèi)容。
【課程時(shí)間】
2天(6小時(shí)/天)
【課程簡介】
Hadoop生態(tài)系統(tǒng)是大數(shù)據(jù)技術(shù)事實(shí)標(biāo)準(zhǔn),是大數(shù)據(jù)思想、理念、機(jī)制的具體實(shí)現(xiàn),是整個(gè)大數(shù)據(jù)技術(shù)中公認(rèn)的核心框架和具有極強(qiáng)的使用價(jià)值與研究價(jià)值。Hadoop 系統(tǒng)是一款開源軟件,能夠處理海量的各種結(jié)構(gòu)(包括結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化)的數(shù)據(jù)。
【課程收益】
1、Hadoop原理及組件介紹;
2、Hadoop數(shù)據(jù)分析入門。
【課程特點(diǎn)】
Hadoop原理及組件介紹,Hadoop數(shù)據(jù)分析入門等內(nèi)容。
【課程對象】
數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
將承擔(dān)數(shù)據(jù)分析師職責(zé)的業(yè)務(wù)人員或信息化人員
希望加強(qiáng)數(shù)據(jù)分析能力的軟件開發(fā)人員
系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
具有2年以IT部門工作經(jīng)驗(yàn),將負(fù)責(zé)數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(2天*6小時(shí))
時(shí)間 | 內(nèi)容 | 案例實(shí)踐與練習(xí) |
Day1 Hadoop原理及組件介紹 |
第1個(gè)主題: Hadoop基本概念(深入理解Hadoop基本概念) 1、 什么是Hadoop 2、 Hadoop由來介紹 3、 Google四篇論文的剖析 a) GFS、MapReduce、BigTable、Chubby 4、 Hadoop的四大核心組件 5、 Hadoop相關(guān)概念 a) 塊、副本 6、 什么是大數(shù)據(jù) 7、 大數(shù)據(jù)的特征 8、 大數(shù)據(jù)應(yīng)用現(xiàn)狀 9、 大數(shù)據(jù)發(fā)展趨勢 10、 大數(shù)據(jù)生態(tài)體系介紹 11、 大數(shù)據(jù)優(yōu)勢 12、 大數(shù)據(jù)的核心技術(shù) 13、 大數(shù)據(jù)與云計(jì)算之間的關(guān)系剖析 14、 大數(shù)據(jù)與虛擬化之間的關(guān)系剖析 15、 大數(shù)據(jù)與供應(yīng)商剖析 16、 大數(shù)據(jù)與成本投入的關(guān)系剖析 17、 Hadoop是大數(shù)據(jù)架構(gòu)的事實(shí)標(biāo)準(zhǔn) 18、 實(shí)例分享:馬云預(yù)測經(jīng)濟(jì)危機(jī)案例剖析 第2個(gè)主題: Hadoop大數(shù)據(jù)平臺(tái)概述(徹底理解Hadoop) 1、 Hadoop是大數(shù)據(jù)架構(gòu)的事實(shí)標(biāo)準(zhǔn) 2、 Hadoop工作原理及架構(gòu) 3、 Hadoop生態(tài)體系介紹 4、 Hadoop應(yīng)用現(xiàn)狀 5、 Hadoop發(fā)展趨勢 6、 Hadoop優(yōu)勢 7、 實(shí)例分享:雙十一億背后的開源技術(shù) 第3個(gè)主題: Hadoop分布式集群部署與運(yùn)維(動(dòng)手搭建Hadoop集群及運(yùn)維) 1、 SaltStack 2、 Maven 3、 禁用IPV6 4、 SSH無密碼登錄 5、 Hadoop HA部署介紹 6、 Hadoop集群部署 7、 Hadoop集群的監(jiān)控 8、 Hadoop集群的運(yùn)維 第4個(gè)主題: HDFS大數(shù)據(jù)分布式文件系統(tǒng)(深入理解大數(shù)據(jù)分布式文件系統(tǒng)的原理與機(jī)制) 1、 HDFS架構(gòu)剖析 2、 NameNode、DataNode、SecondaryNameNode介紹 3、 NodeName高可靠性最佳實(shí)踐 4、 DataNode中Block劃分的原理和具體存儲(chǔ)方式 5、 修改Namenode、DataNode數(shù)據(jù)存儲(chǔ)位置 6、 CLI操作HDFS 7、 Java操作HDFS 8、 RESTful操作HDFS 9、 動(dòng)態(tài)修改Hadoop的Replication數(shù)目 10、 Hadoop序列化 11、 Hadoop流壓縮 12、 Hadoop RPC 13、 SequenceFile與MapFile 14、 Hadoop Avro |
案例練習(xí):通過馬云預(yù)測經(jīng)濟(jì)危機(jī)案例剖析案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:馬云預(yù)測經(jīng)濟(jì)危機(jī)案例剖析 |
Day2 Hadoop數(shù)據(jù)分析入門 |
第1個(gè)主題: YARN剖析(深入剖析分布式資源調(diào)度器YARN) 1、 YARN介紹 2、 YARN的設(shè)計(jì)思想 3、 YARN的核心組件 4、 YARN為核心的生態(tài)系統(tǒng) 5、 Yarn的HA機(jī)制 6、 YARN應(yīng)用程序編寫 7、 ResourceManager深入剖析 8、 ClientRMService與AdminService 9、 NodeManager深入剖析 10、 Container 第2個(gè)主題: 分布式計(jì)算MapReduce大數(shù)據(jù)批處理技術(shù)(深入理解MapReduce原理及培訓(xùn)開發(fā)MapReduce程序能力) 1、 MapReduce算法剖析 2、 MapReduce編程思想 3、 MapReduce常用算法 4、 MapReduce命令操作 5、 wordcount運(yùn)行過程解析 6、 MapReduce如何將HDFS文件轉(zhuǎn)化為Key-Value供Map解析與處理 7、 Hadoop的調(diào)度器介紹 8、 Combiner的使用原則 9、 Partitioner的使用最佳實(shí)踐 10、 MapReduce排序算法剖析 11、 自定義排序算法 12、 Hadoop內(nèi)置的分組算法 13、 自定義分組算法 14、 MapReduce常見場景和算法實(shí)現(xiàn) 15、 MapReduce新舊API的區(qū)別以及如何使用API 16、 MapReduce程序打包并在命令行運(yùn)行 17、 Hadoop Streaming 18、 動(dòng)態(tài)增加Hadoop的Slave節(jié)點(diǎn) 第3個(gè)主題: 基于MapReduce編寫大數(shù)據(jù)分析程序(通過對MapReduce的應(yīng)用深入理解Hadoop分布式計(jì)算程序的特征) 1、 大數(shù)據(jù)分析程序架構(gòu)剖析 2、 學(xué)員動(dòng)手編寫MapReduce程序 |
案例研討:通過動(dòng)手編寫MapReduce程序案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:動(dòng)手編寫MapReduce程序 |
課程6:大數(shù)據(jù)工具介紹之Spark-3天
【匹配關(guān)鍵知識點(diǎn)】Spark基本概念,Spark開發(fā)與數(shù)據(jù)分析等內(nèi)容。
【課程時(shí)間】
3天(6小時(shí)/天)
【課程簡介】
Spark是成為替代MapReduce架構(gòu)的大數(shù)據(jù)分析技術(shù),Spark的大數(shù)據(jù)生態(tài)體系包括流處理、圖技術(shù)、機(jī)器學(xué)習(xí)等各個(gè)方面,并且已經(jīng)成為Apache頂級項(xiàng)目,可以預(yù)計(jì)的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會(huì)有爆發(fā)式的增長。

國內(nèi)外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark,并且它的高性能已經(jīng)得到實(shí)踐的證明。國外Yahoo已在多個(gè)項(xiàng)目中部署Spark,尤其在信息推薦的項(xiàng)目中得到深入的應(yīng)用;國內(nèi)的淘寶、愛奇異、優(yōu)酷土豆、網(wǎng)易、baidu、騰訊等大型互聯(lián)網(wǎng)企業(yè)已經(jīng)將Spark應(yīng)用于自己的生產(chǎn)系統(tǒng)中。國內(nèi)外的應(yīng)用開始越來越廣泛。Spark正在逐漸走向成熟,并在這個(gè)領(lǐng)域扮演更加重要的角色。
【課程收益】
1、Spark基本概念;
2、Spark開發(fā);
3、Spark數(shù)據(jù)分析
【課程特點(diǎn)】
Spark基本概念,Spark開發(fā)與數(shù)據(jù)分析等內(nèi)容
【課程對象】
數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
將承擔(dān)數(shù)據(jù)分析師職責(zé)的業(yè)務(wù)人員或信息化人員
希望加強(qiáng)數(shù)據(jù)分析能力的軟件開發(fā)人員
系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
具有2年以IT部門工作經(jīng)驗(yàn),將負(fù)責(zé)數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(3天*6小時(shí))
時(shí)間 | 內(nèi)容 | 案例實(shí)踐與練習(xí) |
Day1 Spark基本概念 |
第1個(gè)主題: 大數(shù)據(jù)內(nèi)存計(jì)算技術(shù)介紹(深入理解分布式內(nèi)存計(jì)算框架Spark的實(shí)現(xiàn)原理并動(dòng)手編寫Spark程序) 1、 Scala介紹 2、 Mesos介紹 3、 Spark介紹 4、 Spark架構(gòu)剖析 5、 Spark RDD計(jì)算模型解析 6、 Spark開發(fā)分析 7、 Spark的執(zhí)行機(jī)制解析 8、 Spark的調(diào)試與任務(wù)分配 9、 Spark與MapReduce對比分析 10、 Spark的容錯(cuò)機(jī)制剖析 11、 Spark集群部署 12、 Spark Shell 13、 構(gòu)建與運(yùn)行Spark應(yīng)用 14、 Spark RDD操作剖析 15、 Shark基于Spark的綜合應(yīng)用 16、 Spark作業(yè)測試解析 17、 Spark的性能調(diào)優(yōu) 18、 Spark生態(tài)體系剖析 19、 Spark應(yīng)用現(xiàn)狀 20、 Spark應(yīng)用優(yōu)勢 21、 Spark應(yīng)用案例 22、 Spark案例解析 |
案例練習(xí):通過Spark架構(gòu)使用案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:Spark架構(gòu)使用 |
Day2 Spark開發(fā) |
1、 Scala語言編寫Spark程序 2、 Python語言編寫Spark程序 第1個(gè)主題: Scala語言培訓(xùn)(介紹Scala誕生的背景) 1、 Scala介紹 2、 What is Scala 3、 基于JVM的FP+OO 4、 靜態(tài)類型 5、 多線程開發(fā) 6、 Java兼容 7、 語法簡潔 8、 Scala研發(fā)環(huán)境 9、 Scala安裝及環(huán)境配置 10、 交互式編程 11、 腳本式編程 12、 編程實(shí)戰(zhàn):第一個(gè)Scala 程序 第2個(gè)主題: 如何學(xué)習(xí)一門新的語言(剖析學(xué)習(xí)一門新的語言的技巧與思路) 1、 順序 2、 分支 3、 循環(huán) 4、 對象 5、 類 6、 方法 7、 字段 第3個(gè)主題: Scala順序語法(介紹Scala順序編程語法) 1、 Scala基本語法 2、 Scala數(shù)據(jù)類型 3、 Scala變量 4、 標(biāo)識符的聲明與定義 5、 val,常量聲明 6、 var,變量聲明 7、 類型省略(默認(rèn)類型) 8、 聲明省略(連續(xù)聲明) 9、 Scala訪問修飾符 10、 Scala作用域 11、 Scala運(yùn)算符 a) 算術(shù)運(yùn)算符 b) 關(guān)系運(yùn)算符 c) 邏輯運(yùn)算符 d) 位運(yùn)算符 e) 賦值運(yùn)算符 12、 Scala關(guān)鍵字 13、 Scala注釋 14、 空行和空格 15、 換行符 16、 Scala包 17、 Scala引用 18、 編程實(shí)戰(zhàn):順序編程Scala程序?qū)嵗?br /> 第4個(gè)主題: Scala分支語法(介紹Scala分支編程語法) 1、 if語句 2、 if...else語句 3、 if...else if...else語句 4、 if...else嵌套語句 5、 編程實(shí)戰(zhàn):分支編程Scala程序?qū)嵗?br /> 第5個(gè)主題: Scala循環(huán)語法(介紹Scala循環(huán)編程語法) 1、 Scala循環(huán) 2、 while循環(huán) 3、 do...while循環(huán) 4、 for循環(huán) 5、 編程實(shí)戰(zhàn):循環(huán)編程Scala程序?qū)嵗?br /> 第6個(gè)主題: Scala 函數(shù)(介紹Scala函數(shù)編程語法) 1、 Scala函數(shù) 2、 Scala閉包 3、 Scala函數(shù)聲明def 4、 無參函數(shù) 5、 編程實(shí)戰(zhàn):Scala函數(shù)編程實(shí)例 第7個(gè)主題: Spark可訪問外部數(shù)據(jù)源(剖析Spark訪問外部數(shù)據(jù)源) 1、 Spark分布式文件讀寫 2、 文件系統(tǒng) 3、 HDFS 4、 HBase 5、 Hive 6、 Cassandra 7、 Tachyon 8、 編程實(shí)戰(zhàn):Spark操作外部數(shù)據(jù)源編程實(shí)戰(zhàn) 9、 Spark實(shí)戰(zhàn)案例:Spark與HBase整合分析數(shù)據(jù) 第8個(gè)主題: Spark編程技巧分享(分享Spark編程技巧與實(shí)踐經(jīng)驗(yàn)) 1、 Spark開發(fā)分析 2、 Spark的執(zhí)行機(jī)制解析 3、 Spark運(yùn)行原理剖析 4、 Spark的調(diào)試與任務(wù)分配 5、 Spark的性能調(diào)優(yōu) 6、 Spark與MapReduce對比分析 7、 Spark生態(tài)體系剖析 8、 Spark監(jiān)控管理 9、 Spark的容錯(cuò)機(jī)制剖析 10、 Spark集群部署 11、 Spark集群部署經(jīng)驗(yàn)分享 12、 Spark大規(guī)模集群運(yùn)維經(jīng)驗(yàn)分享 13、 Spark應(yīng)用現(xiàn)狀 14、 Spark應(yīng)用優(yōu)勢 15、 Spark應(yīng)用案例 |
案例研討:通過Spark操作外部數(shù)據(jù)源編程實(shí)戰(zhàn)案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:Spark操作外部數(shù)據(jù)源編程實(shí)戰(zhàn) |
Day3 Spark大數(shù)據(jù)分析開發(fā) |
第1個(gè)主題: Spark MLlib機(jī)器學(xué)習(xí)庫實(shí)戰(zhàn)(深入理解Spark MLlib實(shí)現(xiàn)原理及開發(fā)實(shí)戰(zhàn)) 1、 Spark MLlib概述 2、 Spark MLlib算法庫介紹 3、 Spark MLlib架構(gòu)剖析 4、 Spark MLlib機(jī)器學(xué)習(xí)算法剖析 5、 數(shù)據(jù)類型 6、 基本統(tǒng)計(jì)算法 7、 分類與回歸 8、 協(xié)同過濾 9、 聚類 10、 降維 11、 特征提取與轉(zhuǎn)換 12、 頻繁模式挖掘 13、 評價(jià)指標(biāo) 14、 Spark MLlib編程 15、 Spark MLlib APIs介紹 16、 Spark MLlib機(jī)器學(xué)習(xí)算法應(yīng)用實(shí)戰(zhàn) 17、 Spark MLlib實(shí)戰(zhàn)案例:數(shù)據(jù)聚類分析案例剖析 |
案例練習(xí):通過數(shù)據(jù)聚類分析案例剖析案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:數(shù)據(jù)聚類分析案例剖析 |
課程7:Pyspark集群調(diào)度與數(shù)據(jù)處理-2天
【匹配關(guān)鍵知識點(diǎn)】使用Python調(diào)度spark集群并進(jìn)行數(shù)據(jù)處理等內(nèi)容。
【課程時(shí)間】
2天(6小時(shí)/天)
【課程簡介】
Spark是成為替代MapReduce架構(gòu)的大數(shù)據(jù)分析技術(shù),Spark的大數(shù)據(jù)生態(tài)體系包括流處理、圖技術(shù)、機(jī)器學(xué)習(xí)等各個(gè)方面,并且已經(jīng)成為Apache頂級項(xiàng)目,可以預(yù)計(jì)的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會(huì)有爆發(fā)式的增長。

國內(nèi)外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark,并且它的高性能已經(jīng)得到實(shí)踐的證明。國外Yahoo已在多個(gè)項(xiàng)目中部署Spark,尤其在信息推薦的項(xiàng)目中得到深入的應(yīng)用;國內(nèi)的淘寶、愛奇異、優(yōu)酷土豆、網(wǎng)易、baidu、騰訊等大型互聯(lián)網(wǎng)企業(yè)已經(jīng)將Spark應(yīng)用于自己的生產(chǎn)系統(tǒng)中。國內(nèi)外的應(yīng)用開始越來越廣泛。Spark正在逐漸走向成熟,并在這個(gè)領(lǐng)域扮演更加重要的角色。
【課程收益】
1、使用Python調(diào)度spark集群;
2、使用Python進(jìn)行數(shù)據(jù)處理。
【課程特點(diǎn)】
使用Python調(diào)度spark集群并進(jìn)行數(shù)據(jù)處理等內(nèi)容。
【課程對象】
數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
將承擔(dān)數(shù)據(jù)分析師職責(zé)的業(yè)務(wù)人員或信息化人員
希望加強(qiáng)數(shù)據(jù)分析能力的軟件開發(fā)人員
系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
具有2年以IT部門工作經(jīng)驗(yàn),將負(fù)責(zé)數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(2天*6小時(shí))
時(shí)間 | 內(nèi)容 | 案例實(shí)踐與練習(xí) |
Day1 使用Python調(diào)度spark集群 |
第1個(gè)主題: PySpark編程基礎(chǔ)操作 1、 并行數(shù)據(jù)集合(Parallelized Collections) 2、 彈性分布式數(shù)據(jù)集RDD(Resilient Distributed Dataset) 3、 RDDs兩種類型操作 4、 actions 5、 transformations 6、 count() 7、 first() 8、 filter() 9、 map() 10、 flatMap() 11、 mapPartitions() 12、 union() 13、 reduce() 14、 collect() 15、 take() 16、 foreach() 17、 saveAsTextFile 18、 Spark緩存cache() 19、 導(dǎo)入Java庫 20、 Spark Key-Value操作 21、 reduceByKey 22、 groupByKey 23、 sortByKey 24、 countByKey 25、 join() 26、 repartition() 27、 shuffle操作 28、 RDD持久化操作 29、 spark-submit運(yùn)行程序 30、 Spark共享變量(Shared Variables) 31、 Broadcast變量(Broadcast Variables) 32、 Accumulators變量 33、 編程實(shí)戰(zhàn):Spark基礎(chǔ)操作編程實(shí)戰(zhàn) |
案例練習(xí):通過Spark基礎(chǔ)操作編程實(shí)戰(zhàn)案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:Spark基礎(chǔ)操作編程實(shí)戰(zhàn) |
Day2 使用Python調(diào)度spark進(jìn)行數(shù)據(jù)處理 |
第1個(gè)主題: PySpark MLlib機(jī)器學(xué)習(xí)庫實(shí)戰(zhàn)(深入理解PySpark MLlib實(shí)現(xiàn)原理及開發(fā)實(shí)戰(zhàn)) 1、 PySpark MLlib概述 2、 PySpark MLlib算法庫介紹 3、 PySpark MLlib架構(gòu)剖析 4、 PySpark MLlib機(jī)器學(xué)習(xí)算法剖析 5、 數(shù)據(jù)類型 6、 基本統(tǒng)計(jì)算法 7、 分類與回歸 8、 協(xié)同過濾 9、 聚類 10、 降維 11、 特征提取與轉(zhuǎn)換 12、 頻繁模式挖掘 13、 評價(jià)指標(biāo) 14、 PySpark MLlib編程 15、 PySpark MLlib APIs介紹 16、 PySpark MLlib機(jī)器學(xué)習(xí)算法應(yīng)用實(shí)戰(zhàn) 17、 PySpark MLlib實(shí)戰(zhàn)案例:數(shù)據(jù)聚類分析案例剖析 第2個(gè)主題: Python大數(shù)據(jù)編程(深入剖析Python與Spark整合編寫大數(shù)據(jù)程序) 1、 PySpark介紹 2、 Spark介紹 3、 Python創(chuàng)建RDD 4、 PySpark語法介紹 5、 PySpark函數(shù)剖析與使用 6、 Python lambda語法介紹 7、 案例:Python編寫Spark大數(shù)據(jù)程序 |
案例研討:通過Python編寫Spark大數(shù)據(jù)程序案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:Python編寫Spark大數(shù)據(jù)程序 |
課程8:大數(shù)據(jù)可視化-2天
【匹配關(guān)鍵知識點(diǎn)】數(shù)據(jù)可視化技術(shù)概述及培訓(xùn)關(guān)鍵點(diǎn)概述,數(shù)據(jù)挖掘與可視化工具介紹(SAS、Project、Excel、SPSS、Tableau等),可視化案例分享等內(nèi)容。
【課程時(shí)間】
2天(6小時(shí)/天)
【課程簡介】
隨著互聯(lián)網(wǎng)、移動(dòng)智能設(shè)備、云計(jì)算技術(shù)、大數(shù)據(jù)技術(shù)的迅猛發(fā)展,使人類產(chǎn)生與獲取數(shù)據(jù)的能力成數(shù)量級地增加,面對如此浩瀚的數(shù)據(jù)海洋,想通過人工分析大數(shù)據(jù)從而得到大數(shù)據(jù)中隱含的有價(jià)值的模式,幾乎是不可能的。因此人們需要借助新的技術(shù)挖掘大數(shù)據(jù)中所蘊(yùn)含的價(jià)值,采用數(shù)據(jù)可視化技術(shù)絕對是一個(gè)明智的選擇。
隨著科學(xué)技術(shù)的不斷發(fā)展,大量的由計(jì)算機(jī)產(chǎn)生的中間數(shù)據(jù)都需要進(jìn)行可視化處理,以求達(dá)到輔助分析、再現(xiàn)客觀事實(shí)的目的。通過視覺化呈現(xiàn)數(shù)據(jù),可揭示了令人驚奇的模式和觀察結(jié)果,某些數(shù)據(jù)是不可能通過簡單統(tǒng)計(jì)就能顯而易見的看到的模式和結(jié)論。正如作家、記者和信息設(shè)計(jì)師David McCandless 在TED 上說道:“通過視覺化,我們把信息變成了一道可用眼睛來探索的風(fēng)景線,一種信息地圖。當(dāng)你在迷失在信息中時(shí),信息地圖非常實(shí)用”。由此足見數(shù)據(jù)可視化的價(jià)值。
無論獲得信息還是表達(dá)信息,最佳方式之一是通過視覺化方式,快速捕捉和展現(xiàn)信息要點(diǎn)與核心要義,這是數(shù)據(jù)可視化的價(jià)值點(diǎn)所在。
數(shù)據(jù)可視化技術(shù)有著廣闊的發(fā)展和應(yīng)用空間,越來越受到人們的關(guān)注。
【課程收益】
1、數(shù)據(jù)可視化技術(shù)概述及培訓(xùn)關(guān)鍵點(diǎn)概述;
2、數(shù)據(jù)挖掘與可視化工具介紹;
3、可視化案例分享
【課程特點(diǎn)】
數(shù)據(jù)可視化技術(shù)概述及培訓(xùn)關(guān)鍵點(diǎn)概述,數(shù)據(jù)挖掘與可視化工具介紹(SAS、Project、Excel、SPSS、Tableau等),可視化案例分享等內(nèi)容。
【課程對象】
數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
將承擔(dān)數(shù)據(jù)分析師職責(zé)的業(yè)務(wù)人員或信息化人員
希望加強(qiáng)數(shù)據(jù)分析能力的軟件開發(fā)人員
系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
具有2年以IT部門工作經(jīng)驗(yàn),將負(fù)責(zé)數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(2天*6小時(shí))
時(shí)間 | 內(nèi)容 | 案例實(shí)踐與練習(xí) |
Day1 數(shù)據(jù)可視化技術(shù)概述及培訓(xùn)關(guān)鍵點(diǎn)概述 |
第1個(gè)主題: 數(shù)據(jù)可視化問題剖析(深入大數(shù)據(jù)時(shí)代數(shù)據(jù)可視化存在的問題) 1、 大數(shù)據(jù)特征vs數(shù)據(jù)可視化 2、 傳統(tǒng)數(shù)據(jù)可視化問題剖析 3、 傳統(tǒng)數(shù)據(jù)可視化工具特點(diǎn)剖析 第2個(gè)主題: 數(shù)據(jù)可視化概述(介紹數(shù)據(jù)可視化工具、特征及基礎(chǔ)架構(gòu)) 1、 數(shù)據(jù)可視化概念 2、 數(shù)據(jù)可視化作用 3、 數(shù)據(jù)可視化目標(biāo) 4、 數(shù)據(jù)可視化應(yīng)用 5、 數(shù)據(jù)維度和指標(biāo) 6、 圖表產(chǎn)生過程 7、 可視化的表現(xiàn)形式 8、 可視化的顯示 9、 可視化的色彩 10、 可視化案例實(shí)戰(zhàn):儀表盤制作 11、 標(biāo)準(zhǔn)圖表的表現(xiàn)能力 12、 標(biāo)準(zhǔn)圖表的選擇標(biāo)準(zhǔn) 13、 圖表制作原則 14、 可視化案例實(shí)戰(zhàn):數(shù)據(jù)占比柏拉圖繪制 15、 可視化的決定性因素 16、 數(shù)據(jù)可視化技巧 17、 數(shù)據(jù)化可視化工具 18、 創(chuàng)意性數(shù)據(jù)可視化 19、 虛擬實(shí)現(xiàn)技術(shù) 20、 防止過度可視化 21、 一圖勝千言 22、 可視化的升華:聲音 第3個(gè)主題: 可視化的探索性分析和數(shù)據(jù)挖掘工具(學(xué)習(xí)可視化數(shù)據(jù)挖掘工具) 1、 Tableau 2、 Excel 3、 ECharts 4、 QlikView 5、 R語言 6、 Python 7、 SPSS 8、 SAS 第4個(gè)主題: 數(shù)據(jù)可視化圖表詳解(通過實(shí)例講述數(shù)據(jù)可視化方法、過程及含義) 1、 散點(diǎn)圖 2、 雷達(dá)圖 3、 條形圖 4、 柱形圖 5、 餅圖 6、 直方圖 7、 箱線圖 8、 QQ圖 9、 柏拉圖制作 10、 儀表盤制作 11、 玫瑰圖制作 12、 熱力圖制作 13、 地圖制作 14、 文字云制作 15、 案例剖析 |
案例練習(xí):通過儀表盤制作案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:儀表盤制作 |
Day2 數(shù)據(jù)挖掘與可視化工具介紹(SAS、Project、Excel、SPSS、Tableau等),可視化案例分享 |
第1個(gè)主題: Tableau簡介 1、 Tableau歷史與趨勢剖析 2、 Tableau使用 3、 Tableau的數(shù)據(jù)類型介紹 4、 Tableau的數(shù)據(jù)結(jié)構(gòu)介紹 5、 Tableau數(shù)據(jù)的讀入和輸出 6、 Tableau數(shù)據(jù)庫的讀/寫 7、 Tableau與Kylin集成 8、 定性變量 9、 離散變量 10、 連續(xù)變量 11、 多元變量 12、 日期和時(shí)間數(shù)據(jù)的操作處理 第2個(gè)主題: 數(shù)據(jù)可視化應(yīng)用場景,具體案例分析 1、 淘寶24小時(shí)生活數(shù)據(jù)可視化案例 2、 無線淘寶數(shù)據(jù)可視化案例 3、 Google公司數(shù)據(jù)可視化案例 4、 Facebook用戶畫像可視化案例 5、 個(gè)人用戶畫像案例 第3個(gè)主題: 大數(shù)據(jù)可視化呈現(xiàn)ECharts實(shí)戰(zhàn)(通過一個(gè)完整的實(shí)例講述使用ECharts數(shù)據(jù)可視化的過程與方法) 1、 Echarts使用 2、 項(xiàng)目案例 3、 Echarts概述 4、 ECharts特性 5、 ECharts架構(gòu)圖 6、 整合 7、 How to use? 8、 Step1. 引入模塊加載器 9、 Step2. 設(shè)置具備大小的Dom 10、 Step3. 配置echarts模塊路徑 11、 Step4.動(dòng)態(tài)加載echarts 12、 option的使用 13、 Interface 14、 setOption 15、 Option全局屬性 16、 title 17、 legend 18、 dataRange 19、 toolbox 20、 dataZoom 21、 grid 22、 xAxis/yAxis/axis 23、 color 24、 數(shù)值型 25、 類目型 26、 tooltip.formatter 27、 series 28、 高度個(gè)性化 29、 其它參考圖形 30、 熱力圖 31、 社交網(wǎng)絡(luò) 第4個(gè)主題: 分析結(jié)果呈現(xiàn)和分析報(bào)告撰寫 1、 合理的數(shù)據(jù)呈現(xiàn) 2、 報(bào)告分析模板 3、 如何撰寫一份優(yōu)秀的數(shù)據(jù)分析報(bào)告 |
案例研討:通過淘寶24小時(shí)生活數(shù)據(jù)可視化案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:淘寶24小時(shí)生活數(shù)據(jù)可視化案例 |
課程9:Python與數(shù)據(jù)分析實(shí)戰(zhàn)-13天
【匹配關(guān)鍵知識點(diǎn)】Python語言入門,Python網(wǎng)絡(luò)編程、爬蟲與機(jī)器學(xué)習(xí),Python數(shù)據(jù)分析案例分享,基于spark集群的python數(shù)據(jù)分析實(shí)戰(zhàn)等內(nèi)容。
【課程時(shí)間】
13天(6小時(shí)/天)
【課程簡介】
隨著大數(shù)據(jù)時(shí)代的快速到來,以及大數(shù)據(jù)在生產(chǎn)生活中迅速應(yīng)用,大數(shù)據(jù)領(lǐng)域如雨后春筍般的出現(xiàn)大量的新技術(shù),如Hadoop、Spark等技術(shù),其中Python語言已經(jīng)成為大數(shù)據(jù)技術(shù)中最為重要的一部分,被越來越多的企業(yè)所使用。Python語言的功能涵蓋了大數(shù)據(jù)領(lǐng)域的數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、大數(shù)據(jù)應(yīng)用開發(fā)等各種不同類型的計(jì)算操作,應(yīng)用范圍廣泛、前景非常廣闊。本課程是尹老師多年工作經(jīng)驗(yàn)的總結(jié)和歸納,從實(shí)際業(yè)務(wù)案例為入口,使學(xué)員從理論層到實(shí)操層面系統(tǒng)的學(xué)習(xí)數(shù)據(jù)處理技術(shù),使學(xué)員深入理解Python語言等數(shù)據(jù)分析工具。通過本課程的學(xué)習(xí),學(xué)員即可以正確的分析企業(yè)的數(shù)據(jù),為管理者、決策層提供數(shù)據(jù)支撐。
【課程收益】
1、Python語言入門;
2、Python網(wǎng)絡(luò)編程;
3、Python網(wǎng)絡(luò)爬蟲;
4、Python機(jī)器學(xué)習(xí);
5、Python數(shù)據(jù)分析案例分享;
6、基于spark集群的python數(shù)據(jù)分析實(shí)戰(zhàn);
【課程特點(diǎn)】
Python語言入門,Python網(wǎng)絡(luò)編程、爬蟲與機(jī)器學(xué)習(xí),Python數(shù)據(jù)分析案例分享,基于spark集群的python數(shù)據(jù)分析實(shí)戰(zhàn)等內(nèi)容。
【課程對象】
數(shù)據(jù)分析師、技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、產(chǎn)品助理等
將承擔(dān)數(shù)據(jù)分析師職責(zé)的業(yè)務(wù)人員或信息化人員
希望加強(qiáng)數(shù)據(jù)分析能力的軟件開發(fā)人員
系統(tǒng)集成企業(yè)售前工程師、售前顧問及方案制作人員
【學(xué)員基礎(chǔ)】
具有2年以IT部門工作經(jīng)驗(yàn),將負(fù)責(zé)數(shù)據(jù)分析等相關(guān)任務(wù)的技術(shù)人員
【課程大綱】(13天*6小時(shí))
時(shí)間 | 內(nèi)容 | 案例實(shí)踐與練習(xí) |
Day1~Day3 Python語言入門 |
第1個(gè)主題: Python語言基礎(chǔ)知識(介紹Python語言基礎(chǔ)知識,包括Python語言數(shù)據(jù)類型、基礎(chǔ)概念等) 1、 Python語言歷史與趨勢剖析 2、 Python語言安裝 3、 如何運(yùn)行Python程序 4、 PyCharm開發(fā)環(huán)境介紹 5、 Anaconda3開發(fā)環(huán)境介紹(以Anaconda3作為程序演示環(huán)境,Python3作為演示語言) 6、 Python語言help()命令 7、 Python基本命令 8、 變量(Variables) 9、 表達(dá)式(Expressions) 10、 基本數(shù)據(jù)類型 11、 字符串與正則表達(dá)式 12、 Python條件表達(dá)式 13、 循環(huán)(loops) 14、 案例實(shí)戰(zhàn):正則表達(dá)式在爬蟲中應(yīng)用實(shí)例 15、 Python數(shù)據(jù)結(jié)構(gòu) 16、 Python創(chuàng)建數(shù)組 17、 Python矩陣運(yùn)算 18、 Python語言語法結(jié)構(gòu) 19、 案例:Python語言實(shí)現(xiàn)運(yùn)營商數(shù)據(jù)分析處理 第2個(gè)主題: Python函數(shù)(深入Python函數(shù)的編寫語言) 13、 Python函數(shù)介紹 14、 數(shù)據(jù)分析與建模過程 15、 Python語言定義函數(shù)規(guī)則 16、 Python語言自定義函數(shù) 17、 Python匿名函數(shù) 18、 Python內(nèi)置函數(shù) 19、 Python函數(shù)案例 第3個(gè)主題: Python類(class)(深入剖析Python類的原理) 1、 類(class)介紹 2、 Python多重繼承 3、 Python不支持函數(shù)重載 4、 Class and Instance Variables 5、 Method Objects 6、 Python類編寫案例實(shí)戰(zhàn) 第4個(gè)主題: Python異常處理(Exceptions)(深入剖析Python異常處理) 1、 異常處理(Exceptions)簡介 2、 Python標(biāo)準(zhǔn)異常類 3、 Python異常類編程案例實(shí)戰(zhàn)(爬蟲實(shí)例) 第5個(gè)主題: Python模塊(Modules)(深入剖析模塊(Modules)) 1、 Python模塊(Modules)介紹 2、 Python自定義模塊 3、 Python模塊的導(dǎo)入與添加 4、 Python標(biāo)準(zhǔn)函數(shù)庫模塊 5、 Python第三方模塊 第6個(gè)主題: Python文件讀寫(深入剖析Python文件讀寫) 1、 Python文件讀寫簡介 2、 Python讀寫方法介紹 3、 Python讀寫文本文件 4、 Python讀寫二進(jìn)制文件 5、 Python讀寫json文件 6、 Python讀寫xml文件 第7個(gè)主題: Python操作關(guān)系型數(shù)據(jù)庫(深入剖析Python操作關(guān)系型數(shù)據(jù)) 1、 Python2安裝MySQL Connector 2、 Python3安裝MySQL Connector 3、 Python語言操作數(shù)據(jù)庫 4、 Python語言數(shù)據(jù)庫優(yōu)化 5、 案例:Python語言實(shí)現(xiàn)話務(wù)數(shù)據(jù)時(shí)間序列建模 |
案例練習(xí):通過Python語言實(shí)現(xiàn)運(yùn)營商數(shù)據(jù)分析處理案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:Python語言實(shí)現(xiàn)運(yùn)營商數(shù)據(jù)分析處理 |
Day4~Day5 Python網(wǎng)絡(luò)編程 |
第1個(gè)主題: 多線程編程 (用實(shí)戰(zhàn)實(shí)例介紹如何實(shí)現(xiàn)多線程) 1、 Python開發(fā)多線程的原理 2、 多線程創(chuàng)建 3、 線程鎖 4、 網(wǎng)絡(luò)應(yīng)用程序編程 5、 實(shí)例:比如生成發(fā)送電子郵件 第2個(gè)主題: Python網(wǎng)絡(luò)編程(介紹Python網(wǎng)絡(luò)編程) 1、 TCP/IP網(wǎng)絡(luò)介紹 2、 Socket基礎(chǔ)知識 3、 Socket客戶端服務(wù)器連接 4、 案例:聊天功能實(shí)戰(zhàn) 第3個(gè)主題: Python Web開發(fā)實(shí)戰(zhàn)(介紹Python Web實(shí)戰(zhàn)) 1、 Python Web開發(fā) 2、 Django框架介紹 3、 定義和使用模型 4、 Django MVC架構(gòu) 5、 Django開發(fā)環(huán)境搭建 6、 Django Session應(yīng)用 7、 Django框架應(yīng)用 8、 Django高級應(yīng)用 9、 案例:客戶通話歷史記錄查詢 |
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:網(wǎng)絡(luò)編程 |
Day6~Day7 Python網(wǎng)絡(luò)爬蟲 |
第1個(gè)主題: Python基礎(chǔ)知識和網(wǎng)絡(luò)程序基礎(chǔ)知識(介紹Python基礎(chǔ)知識和網(wǎng)絡(luò)程序基礎(chǔ)知識) 1、 Python語言簡介 2、 Python開發(fā)環(huán)境搭建和選擇 3、 IO編程 4、 進(jìn)程和多線程基礎(chǔ)知識 5、 網(wǎng)絡(luò)編程和TCP協(xié)議 第2個(gè)主題: Web前端基礎(chǔ)知識(介紹Web前端基礎(chǔ)知識) 1、 Web程序的結(jié)構(gòu) 2、 Web前端的內(nèi)容 3、 HTML 4、 CSS 5、 JavaScript 6、 XPath 7、 Json 8、 HTTP協(xié)議標(biāo)準(zhǔn) 9、 HTTP頭和主體 10、 Cookie信息 第3個(gè)主題: 網(wǎng)絡(luò)爬蟲基礎(chǔ)知識(介紹網(wǎng)絡(luò)爬蟲基礎(chǔ)知識) 1、 網(wǎng)絡(luò)爬蟲概述 2、 網(wǎng)絡(luò)爬蟲及其應(yīng)用 3、 網(wǎng)絡(luò)爬蟲結(jié)構(gòu) 4、 HTTP請求的Python實(shí)現(xiàn) 5、 urllib2/urllib實(shí)現(xiàn) 6、 httplib/urllib實(shí)現(xiàn) 7、 更人性化的Requests 第4個(gè)主題: HTML解析(HTML解析原理介紹) 1、 初識Firebug 2、 安裝和配置Firebug 3、 正則表達(dá)式 4、 基本語法與使用 5、 Python中使用正則表達(dá)式 6、 BeautifulSoup概述 7、 安裝和配置BeautifulSoup 8、 BeautifulSoup的使用 9、 lxml的XPath解析 第5個(gè)主題: 基本的爬蟲程序開發(fā)(介紹基本的爬蟲程序開發(fā)) 1、 基礎(chǔ)爬蟲架構(gòu)及運(yùn)行流程 2、 URL管理器 3、 HTML下載器 4、 HTML解析器 5、 數(shù)據(jù)存儲(chǔ)器 6、 爬蟲調(diào)度器 第6個(gè)主題: 協(xié)議分析(協(xié)議分析) 1、 Web端協(xié)議分析 2、 網(wǎng)頁登錄POST分析 3、 隱藏表單分析 4、 加密數(shù)據(jù)分析 5、 驗(yàn)證碼問題 6、 IP代理 7、 Cookie登錄 8、 傳統(tǒng)驗(yàn)證碼識別 9、 人工打碼 10、 滑動(dòng)驗(yàn)證碼 11、 PC客戶端抓包分析 12、 HTTPAnalyzer簡介 13、 蝦米音樂PC端API實(shí)戰(zhàn)分析 14、 App抓包分析 15、 Wireshark簡介 16、 酷我聽書App端API實(shí)戰(zhàn)分析 17、 API爬蟲:爬取mp3資源信息 第7個(gè)主題: Scrapy爬蟲框架(介紹Scrapy爬蟲框架) 1、 Scrapy爬蟲架構(gòu) 2、 安裝Scrapy 3、 創(chuàng)建cnblogs項(xiàng)目 4、 創(chuàng)建爬蟲模塊 5、 定義Item 6、 翻頁功能 7、 構(gòu)建ItemPipeline 8、 內(nèi)置數(shù)據(jù)存儲(chǔ) 9、 啟動(dòng)爬蟲 10、 強(qiáng)化爬蟲 11、 調(diào)試方法 12、 異常 13、 控制運(yùn)行狀態(tài) 14、 ItemLoader 15、 Item與ItemLoader 16、 輸入與輸出處理器 17、 ItemLoaderContext? 18、 請求與響應(yīng) 19、 下載器中間件 20、 Spider中間件 21、 擴(kuò)展 22、 突破反爬蟲 |
案例研討:通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn) |
Day8 Python的NumPy模塊 |
1、 NumPy 安裝 2、 NumPy Ndarray 對象 3、 NumPy 數(shù)據(jù)類型 4、 NumPy 數(shù)組屬性 5、 NumPy 創(chuàng)建數(shù)組 6、 NumPy 從已有的數(shù)組創(chuàng)建數(shù)組 7、 NumPy 從數(shù)值范圍創(chuàng)建數(shù)組 8、 NumPy 切片和索引 9、 NumPy 高級索引 10、 NumPy 廣播(Broadcast) 11、 NumPy 迭代數(shù)組 12、 Numpy 數(shù)組操作 13、 NumPy 位運(yùn)算 14、 NumPy 字符串函數(shù) 15、 NumPy 數(shù)學(xué)函數(shù) 16、 NumPy 算術(shù)函數(shù) 17、 NumPy 統(tǒng)計(jì)函數(shù) 18、 NumPy 排序、條件刷選函數(shù) 19、 NumPy 字節(jié)交換 20、 NumPy 副本和視圖 21、 NumPy 矩陣庫(Matrix) 22、 NumPy 線性代數(shù) 23、 NumPy IO 24、 NumPy Matplotlib |
案例練習(xí):通過NumPy的案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:NumPy的數(shù)據(jù)處理 |
Day9 Python的Pandas模塊 |
1、 Pandas環(huán)境安裝配置 2、 Pandas數(shù)據(jù)結(jié)構(gòu) 3、 Pandas快速入門 4、 Pandas系列 5、 Pandas數(shù)據(jù)幀(DataFrame) 6、 Pandas面板(Panel) 7、 Pandas基本功能 8、 Pandas描述性統(tǒng)計(jì) 9、 Pandas函數(shù)應(yīng)用 10、 Pandas重建索引 11、 Pandas迭代 12、 Pandas排序 13、 Pandas字符串和文本數(shù)據(jù) 14、 Pandas選項(xiàng)和自定義 15、 Pandas索引和選擇數(shù)據(jù) 16、 Pandas統(tǒng)計(jì)函數(shù) 17、 Pandas窗口函數(shù) 18、 Pandas聚合 19、 Pandas缺失數(shù)據(jù) 20、 Pandas分組(GroupBy) 21、 Pandas合并/連接 22、 Pandas級聯(lián) 23、 Pandas日期功能 24、 Pandas時(shí)間差(Timedelta) 25、 Pandas分類數(shù)據(jù) 26、 Pandas可視化 27、 Pandas IO工具 28、 Pandas稀疏數(shù)據(jù) 29、 Pandas注意事項(xiàng)&竅門 30、 Pandas與SQL比較 |
案例練習(xí):通過Pandas使用案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:Pandas的使用方法 |
Day10 Python機(jī)器學(xué)習(xí) |
第1個(gè)主題: Python平臺(tái)下的機(jī)器學(xué)習(xí)開發(fā)技術(shù)(介紹Python平臺(tái)下的機(jī)器學(xué)習(xí)開發(fā)技術(shù)) 31、 Python平臺(tái)下的數(shù)據(jù)分析工具 32、 Python平臺(tái)下的數(shù)據(jù)分析工具概述 33、 NumPy數(shù)據(jù)處理 34、 NumPy案例 35、 Scipy數(shù)值計(jì)算 36、 SymPy符號處理 37、 Matplotlib繪制圖表 38、 Pandas數(shù)據(jù)分析、探索工具 39、 Pandas的DataFrame 40、 DataFrame的構(gòu)造 41、 StatsModels數(shù)據(jù)統(tǒng)計(jì)建模分析 42、 Scikit-Learn機(jī)器學(xué)習(xí)庫 43、 Keras人工神經(jīng)網(wǎng)絡(luò) 44、 Keras的設(shè)計(jì)原則 45、 Gensim文本挖掘庫 46、 OpenCV計(jì)算機(jī)視覺庫 47、 案例:Python語言實(shí)現(xiàn)基于聚類的圖像分割方法 |
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:Python語言實(shí)現(xiàn)基于聚類的圖像分割方法 |
Day11 Python機(jī)器學(xué)習(xí) |
第1個(gè)主題: 聚類模型原理與實(shí)現(xiàn)(深入剖析聚類原理以及通過Python語言實(shí)現(xiàn)聚類算法模型) 1、 聚類介紹 2、 聚類算法應(yīng)用場景 3、 聚類算法應(yīng)用案例 4、 樣品間相近性的度量 5、 快速聚類法 6、 快速聚類法的步驟 7、 用Lm距離進(jìn)行快速聚類 8、 譜系聚類法 9、 類間距離及其遞推公式 10、 譜系聚類法的步驟 11、 變量聚類 12、 K-Means(K均值)聚類 13、 均值漂移聚類 14、 基于密度的聚類方法(DBSCAN) 15、 用高斯混合模型(GMM)的最大期望(EM)聚類 16、 凝聚層次聚類 17、 圖團(tuán)體檢測(Graph Community Detection) 18、 案例:Python語言聚類實(shí)現(xiàn)及繪圖 19、 案例:Kmeans應(yīng)用案例剖析 20、 課堂實(shí)操:Python語言實(shí)現(xiàn)基于聚類的圖像分割方法 第2個(gè)主題: 決策樹模型原理與實(shí)現(xiàn)(深入剖析決策樹原理以及通過Python語言實(shí)現(xiàn)決策樹模型) 1、 決策樹介紹 2、 決策樹應(yīng)用場景 3、 決策樹應(yīng)用案例 4、 信息熵 5、 ID3算法 6、 C4.5算法 7、 CART算法 8、 決策樹算法 9、 剪枝 10、 過擬合與調(diào)參 11、 決策樹算法原理 12、 決策樹法的決策過程 13、 案例:Python語言實(shí)現(xiàn)決策樹模型 14、 課堂實(shí)操:Python語言實(shí)現(xiàn)決策樹模型 15、 隨機(jī)森林 |
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:Python語言實(shí)現(xiàn)基于聚類的圖像分割方法 |
Day12 Python數(shù)據(jù)分析案例分享 |
第1個(gè)主題: 隨機(jī)森林模型原理與實(shí)現(xiàn)(深入剖析隨機(jī)森林原理以及通過Python語言實(shí)現(xiàn)隨機(jī)森林模型) 1、 隨機(jī)森林介紹 2、 隨機(jī)森林的特點(diǎn) 3、 隨機(jī)森林的相關(guān)基礎(chǔ)知識 4、 信息、熵以及信息增益的概念 5、 隨機(jī)森林的生成 6、 隨機(jī)森林算法 7、 隨機(jī)森林算法原理 8、 袋外錯(cuò)誤率(oob error) 9、 隨機(jī)森林應(yīng)用場景 10、 隨機(jī)森林應(yīng)用案例 11、 案例:Python語言實(shí)現(xiàn)隨機(jī)森林模型 12、 課堂實(shí)操:Python語言實(shí)現(xiàn)隨機(jī)森林模型 13、 xgboost 第2個(gè)主題: 支持向量機(jī)模型原理與實(shí)現(xiàn)(深入剖析支持向量機(jī)算法原理以及通過Python語言實(shí)現(xiàn)支持向量機(jī)模型) 1、 支持向量機(jī)介紹 2、 支持向量機(jī)應(yīng)用場景 3、 支持向量機(jī)應(yīng)用案例 4、 支持向量機(jī)算法 5、 支持向量機(jī)算法原理 6、 線性可分支持向量機(jī) 7、 間隔最大化和支持向量 8、 對偶問題求解 9、 柆格朗日函數(shù) 10、 非線性支持向量機(jī)和核函數(shù) a) 超平面 b) 線性核 c) 多項(xiàng)式核 d) 高斯核 e) 拉普拉斯核 f) sigmiod核 11、 線性支持向量機(jī)(軟間隔支持向量機(jī))與松弛變量 12、 松馳因子 13、 案例:Python語言實(shí)現(xiàn)支持向量機(jī)模型 14、 課堂實(shí)操:Python語言實(shí)現(xiàn)基于SVM的字符識別方法 第3個(gè)主題: 神經(jīng)網(wǎng)絡(luò)模型原理與實(shí)現(xiàn)(深入剖析神經(jīng)網(wǎng)絡(luò)算法原理以及通過Python語言實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型) 1、 神經(jīng)網(wǎng)絡(luò)介紹 2、 神經(jīng)網(wǎng)絡(luò)概念 3、 神經(jīng)網(wǎng)絡(luò)發(fā)展歷史 4、 神經(jīng)網(wǎng)絡(luò)的別名 5、 神經(jīng)網(wǎng)絡(luò)研究的主要內(nèi)容 6、 神經(jīng)網(wǎng)絡(luò)基本構(gòu)成 7、 神經(jīng)網(wǎng)絡(luò)模擬人的智能行為的四個(gè)方面 8、 神經(jīng)網(wǎng)絡(luò)的特點(diǎn) 9、 學(xué)習(xí)能力 10、 適應(yīng)性問題 11、 神經(jīng)網(wǎng)絡(luò)基本網(wǎng)絡(luò)模型 12、 單層網(wǎng)絡(luò) 13、 多層網(wǎng)絡(luò) 14、 循環(huán)網(wǎng)絡(luò) 15、 基本網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn) 16、 典型訓(xùn)練算法 17、 運(yùn)行方式 18、 典型問題解決方法 19、 感知機(jī) 20、 線性神經(jīng)網(wǎng)絡(luò) 21、 BP神經(jīng)網(wǎng)絡(luò) 22、 RBF網(wǎng)絡(luò) 23、 競爭網(wǎng)絡(luò) 24、 反饋神經(jīng)網(wǎng)絡(luò) 25、 隨機(jī)神經(jīng)網(wǎng)絡(luò) 26、 遺傳算法 27、 PSO與神經(jīng)網(wǎng)絡(luò)優(yōu)化 28、 自定義深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 29、 深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法 30、 深度框架的損失函數(shù) 31、 課堂實(shí)操:Python語言實(shí)現(xiàn)基于神經(jīng)網(wǎng)絡(luò)的人臉識別方法 |
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:Python語言實(shí)現(xiàn)基于神經(jīng)網(wǎng)絡(luò)的人臉識別方法 |
Day13 基于spark集群的python數(shù)據(jù)分析實(shí)戰(zhàn) |
第1個(gè)主題: 基于Spark集群的Python的數(shù)據(jù)分析實(shí)戰(zhàn) 1、 基于Python開發(fā)Spark 程序概述 2、 基于Python開發(fā)Spark 程序算法庫介紹 3、 基于Python開發(fā)Spark 程序架構(gòu)剖析 4、 基于Python開發(fā)Spark 程序機(jī)器學(xué)習(xí)算法剖析 5、 數(shù)據(jù)類型 6、 基本統(tǒng)計(jì)算法 7、 分類與回歸 8、 協(xié)同過濾 9、 聚類 10、 降維 11、 特征提取與轉(zhuǎn)換 12、 頻繁模式挖掘 13、 評價(jià)指標(biāo) 14、 基于Python開發(fā)Spark 程序編程 15、 基于Python開發(fā)Spark 程序APIs介紹 16、 基于Python開發(fā)Spark 程序機(jī)器學(xué)習(xí)算法應(yīng)用實(shí)戰(zhàn) 17、 基于Python開發(fā)Spark 程序?qū)崙?zhàn)案例:數(shù)據(jù)聚類分析案例剖析 |
案例練習(xí):通過基于Python開發(fā)Spark 程序?qū)崙?zhàn)案例:數(shù)據(jù)聚類分析案例剖析,剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。 研討:數(shù)據(jù)聚類分析案例 |
(5)教學(xué)實(shí)驗(yàn)
數(shù)據(jù)分析概述:1、大數(shù)據(jù)企業(yè)應(yīng)用障礙分析
數(shù)據(jù)的產(chǎn)生、導(dǎo)入與預(yù)處理:
案例練習(xí):通過數(shù)據(jù)整理的編程和應(yīng)用案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。
案例練習(xí):通過案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。
案例練習(xí):通過淘寶雙十一案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。
案例研討:通過數(shù)據(jù)挖掘案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。
研討:數(shù)據(jù)挖掘
案例練習(xí):通過企業(yè)實(shí)踐案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。
研討:企業(yè)實(shí)踐案例分享
案例練習(xí):通過數(shù)據(jù)模型的應(yīng)用案例剖析案例的剖析數(shù)據(jù)分析過程,體會(huì)數(shù)據(jù)分析的難點(diǎn)和要點(diǎn)。
研討:數(shù)據(jù)模型的應(yīng)用案例剖析
數(shù)據(jù)分析與挖掘基礎(chǔ):
1、課堂實(shí)操:數(shù)據(jù)整理的編程和應(yīng)用
2、企業(yè)OLAP模型設(shè)計(jì)案例剖析
3、實(shí)例分享:淘寶雙十一
4、實(shí)例分享:騰訊QQ
5、實(shí)例分享:百度文庫
6、實(shí)例分享:打車大戰(zhàn)
7、實(shí)驗(yàn):Pig的實(shí)用案例
8、實(shí)驗(yàn):Hive安裝部署
9、實(shí)驗(yàn):Sqoop安裝
10、實(shí)驗(yàn):Sqoop Shell
11、實(shí)驗(yàn):FLume大數(shù)據(jù)架構(gòu)案例分享及實(shí)戰(zhàn)演練
12、實(shí)驗(yàn):企業(yè)實(shí)踐案例分享
R語言數(shù)據(jù)分析實(shí)戰(zhàn):
1、實(shí)驗(yàn):安裝R語言
2、實(shí)驗(yàn):R語言編程案例
3、實(shí)驗(yàn):R語言的繪圖功能
4、實(shí)操:R和MySQL的交互
5、實(shí)操:R和Oracle的交互
6、實(shí)操:R和Excel的交互
7、案例:蒙特卡羅模擬的應(yīng)用
8、案例1:汽車數(shù)據(jù)描述統(tǒng)計(jì)分析
9、案例2:財(cái)政收入與稅收描述統(tǒng)計(jì)分析
10、案例:蒙特卡羅模擬的應(yīng)用
11、實(shí)操:R語言實(shí)現(xiàn)蒙特卡羅求圓周率
12、實(shí)操:R語言一元線性回歸模型檢驗(yàn)
13、實(shí)操:R語言實(shí)現(xiàn)多元線性回歸
14、實(shí)操:R語言非線性回歸
15、案例:用戶離網(wǎng)預(yù)測
16、案例:中國稅收收入增長案例分析
17、案例:新教學(xué)方法的效果
18、案例:信用卡違約預(yù)測
19、案例分享:文章分類
大數(shù)據(jù)工具介紹之Hadoop:
1、實(shí)例分享:馬云預(yù)測經(jīng)濟(jì)危機(jī)案例剖析
2、實(shí)例分享:雙十一億背后的開源技術(shù)
3、實(shí)驗(yàn):Hadoop集群部署
4、實(shí)驗(yàn):CLI操作HDFS
5、實(shí)驗(yàn):Java操作HDFS
6、實(shí)驗(yàn):MapReduce命令操作
7、實(shí)驗(yàn):MapReduce程序打包并在命令行運(yùn)行
8、實(shí)驗(yàn):動(dòng)手編寫MapReduce程序
大數(shù)據(jù)工具介紹之Spark:
1、編程實(shí)戰(zhàn):第一個(gè)Scala 程序
2、編程實(shí)戰(zhàn):編程Scala程序?qū)嵗?br /> 3、編程實(shí)戰(zhàn):Scala函數(shù)編程實(shí)例
4、編程實(shí)戰(zhàn):Scala語言復(fù)雜數(shù)據(jù)類型編程實(shí)戰(zhàn)
5、編程實(shí)戰(zhàn):用SBT對Scala項(xiàng)目打包與發(fā)布
6、實(shí)驗(yàn):Spark集群部署
7、實(shí)驗(yàn):Scala編寫Spark程序
8、實(shí)驗(yàn):Python編寫Spark程序
9、實(shí)驗(yàn):Spark Shell
10、編程實(shí)戰(zhàn):Spark基礎(chǔ)操作編程實(shí)戰(zhàn)
11、企業(yè)級案例:Spark Streaming與Kafka整合實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)分析處理設(shè)計(jì)與分析
Pyspark集群調(diào)度與數(shù)據(jù)處理:
1、編程實(shí)戰(zhàn):Spark基礎(chǔ)操作編程實(shí)戰(zhàn)
2、PySpark MLlib實(shí)戰(zhàn)案例:數(shù)據(jù)聚類分析案例剖析
3、案例:Python編寫Spark大數(shù)據(jù)程序
大數(shù)據(jù)可視化:
1、可視化案例實(shí)戰(zhàn):數(shù)據(jù)占比柏拉圖繪制
2、可視化案例實(shí)戰(zhàn):儀表盤制作
3、實(shí)驗(yàn):柏拉圖制作
4、實(shí)驗(yàn):儀表盤制作
5、實(shí)驗(yàn):玫瑰圖制作
6、實(shí)驗(yàn):熱力圖制作
7、實(shí)驗(yàn):地圖制作
8、實(shí)驗(yàn):文字云制作
9、淘寶24小時(shí)生活數(shù)據(jù)可視化案例
10、無線淘寶數(shù)據(jù)可視化案例
11、Google公司數(shù)據(jù)可視化案例
12、Facebook用戶畫像可視化案例
13、個(gè)人用戶畫像案例
14、如何撰寫一份優(yōu)秀的數(shù)據(jù)分析報(bào)告
Python與數(shù)據(jù)分析實(shí)戰(zhàn):
1、案例實(shí)戰(zhàn):正則表達(dá)式在爬蟲中應(yīng)用實(shí)例
2、案例:Python語言實(shí)現(xiàn)運(yùn)營商數(shù)據(jù)分析處理
3、實(shí)驗(yàn):Python語言自定義函數(shù)
4、案例:Python語言實(shí)現(xiàn)蒙特卡羅求圓周率
5、課堂實(shí)操:數(shù)據(jù)整理的編程和應(yīng)用
6、案例:Python語言實(shí)現(xiàn)購物藍(lán)關(guān)聯(lián)規(guī)則分析
7、課堂實(shí)操:Python語言實(shí)現(xiàn)隨機(jī)森林模型
8、課堂實(shí)操:Python語言實(shí)現(xiàn)金融數(shù)據(jù)時(shí)間序列建模
9、課堂實(shí)操:基于余弦相似度的精準(zhǔn)營銷
10、案例分享:文章分類
11、案例:Python編寫Spark大數(shù)據(jù)程序
大慶油田技術(shù)研究院高級內(nèi)訓(xùn)講師
(原)中興通訊學(xué)院高級講師;
北大計(jì)算機(jī)、北郵通信雙學(xué)位
15年嵌入式硬件、軟件開發(fā)和系統(tǒng)架構(gòu)設(shè)計(jì)總監(jiān)
有8年多的“云大智物”開發(fā)及實(shí)施經(jīng)驗(yàn)。曾供職于巨龍通信、大唐電信,PHILIPS三星聯(lián)合研發(fā)中心等
【工作經(jīng)歷】
長期從事智慧家居、智慧養(yǎng)老、物聯(lián)網(wǎng)應(yīng)用、移動(dòng)互聯(lián)網(wǎng)應(yīng)用研發(fā)工作,曾負(fù)責(zé)北京市科委,大慶油田數(shù)據(jù)化等多個(gè)重點(diǎn)項(xiàng)目,發(fā)表相關(guān)論文多篇,授權(quán)及申請物聯(lián)網(wǎng)方面的專利10多個(gè)。目前主要從事智慧家居、智慧養(yǎng)老、車聯(lián)網(wǎng)、交通物流、物聯(lián)網(wǎng)應(yīng)用平臺(tái)以及相關(guān)應(yīng)用方面的研究,實(shí)戰(zhàn)派資深講師。
蘭州交大成教學(xué)院等高校特聘技術(shù)類講師;,參與了我國自主通信標(biāo)準(zhǔn)TD-SCDMA的標(biāo)準(zhǔn)編寫工作,是最早一批參與TD-SCDMA研究的技術(shù)人員;歷任高級軟件開發(fā)工程師,系統(tǒng)架構(gòu)師,物聯(lián)網(wǎng)架構(gòu)師,嵌入式開發(fā)主管等職位,目前是教授級高工,已進(jìn)入北京市、深圳市專家?guī)烀?,深圳市物?lián)網(wǎng)協(xié)會(huì)資深專家。
【培訓(xùn)特點(diǎn)】
理論基礎(chǔ)深厚,邏輯思維能力強(qiáng),擁有豐富的企業(yè)授課經(jīng)驗(yàn),對企業(yè)員工培養(yǎng)具有深刻認(rèn)識。授課過程中,緊密結(jié)合成人教育特點(diǎn),靈活運(yùn)用豐富案例,善于以點(diǎn)帶面,啟發(fā)思維。授課風(fēng)格互動(dòng)性和實(shí)操性很強(qiáng),注重講師與學(xué)員之間的互動(dòng)性,使得課堂氛圍輕松愉快,倡導(dǎo)分享和共同進(jìn)步,深受到學(xué)員的歡迎。
上一篇:創(chuàng)新業(yè)務(wù)解決方案
下一篇:工業(yè)互聯(lián)網(wǎng)