探索式資料分析與視覺化 實體

Exploratory data analysis and visualization

國立嘉義大學|陳宗和

#持續學習
#優質教育
#資訊科技類
#自主學習教材

探索式資料分析與視覺化 實體

Exploratory data analysis and visualization

國立嘉義大學|陳宗和

#持續學習
#優質教育
#資訊科技類
#自主學習教材

課程詳情

本課程旨在帶領學生深入了解資料科學的核心技術,重點聚焦於「探索性資料分析(EDA)」與「資料視覺化」兩大領域。透過系統性教學,學生將學習如何運用統計學與資訊科學方法,從原始資料中挖掘有價值的洞察。
課程以經典的鐵達尼號資料集為主要案例,分析乘客的「生存狀況」、「艙等級別」及「性別」等特徵間的關聯性。在假設資料已完成清理與轉換的前提下,專注於探索性分析的實務技巧。
學生將熟練掌握 Pandas 套件及其視覺化功能,特別是 plot() 函式的應用。課程涵蓋折線圖、長條圖、圓餅圖、直方圖和散佈圖等常用圖表繪製,協助觀察資料特性、識別趨勢與關聯模式。
此外,課程將介紹進階資料處理技巧,運用 groupby() 和 value_counts() 函式進行資料分組與統計摘要,協助學生建立假設、驗證結果,為後續機器學習分析奠定基礎。透過本課程學習,學生將具備紮實的資料探索與視覺化能力。

修習本課程後,學生將具備以下核心能力:
理論基礎與流程掌握:深入理解資料科學的核心概念及其在第四科學典範中的重要地位,熟悉資料從原始數據轉化為資訊、知識與智慧的完整過程。學生將掌握資料分析的標準流程,包括資料取得、前處理、探索性分析及機器學習等量化分析步驟。
技術操作與視覺化能力:熟練運用 Pandas 套件讀取與匯出各種格式的資料檔案(CSV、JSON、HTML、Excel等)。具備資料視覺化技能,能運用 plot() 函式繪製折線圖、長條圖、圓餅圖、直方圖和散佈圖,並掌握線條樣式、顏色配置、字體大小、圖形尺寸等客製化參數設定。
分析與洞察技能:能運用統計摘要函式執行探索性資料分析,透過視覺化工具探索資料特性與結構。熟練分組聚合分析,識別與目標結果高度相關的重要特徵。
實務應用能力:能分析真實案例(如鐵達尼號資料集),提出假設、驗證觀察結果,並做出數據驅動的結論,為後續機器學習模型建立奠定基礎。

課程大綱
第一週:資料科學基礎與視覺化技術
首週課程建立資料科學的理論基礎,介紹資料科學在科學典範中的地位,以及資料、資訊、知識與智慧的層次關係。學生將學習量化分析的完整流程,包括資料取得、前處理、探索性資料分析與機器學習等步驟。
課程深入探討探索性資料分析(EDA)的核心概念,強調透過資料視覺化探索資料特性、獲取結構資訊並提出假設的重要性。學生將認識五種常用圖表:折線圖(變化趨勢)、長條圖(數量比較)、直方圖(分佈分析)、散佈圖(相關性探索)及圓餅圖(比例展示)。
實作部分涵蓋 Google Colab 環境設定、CSV 檔案處理,以及 Pandas 套件的基礎操作。學生將學習使用 read_csv()、to_csv()、read_json() 等函式進行資料讀取與匯出,並熟練運用 plot() 函式繪製各類圖表,掌握線條樣式、顏色配置、標題設定等客製化參數。
第二週:鐵達尼號案例分析實務
第二週以鐵達尼號資料集為案例,進行完整的探索性資料分析。學生將學習使用 head()、info()、describe() 等函式初步觀察資料,並運用 value_counts() 分析資料分佈特性。
課程重點探討「性別」與「艙等」兩項特徵對生還狀況的影響。透過 groupby() 函式進行資料分組,結合長條圖視覺化比較不同群體的生還率差異,並計算各群體的生還百分比。
最終整合分析結果,總結影響生還的重要特徵,為機器學習模型建立奠定基礎。進階練習包括年齡因素分析及多變數相關性探索。

講述教學
實作教學

課程回饋

尚無相關回饋內容