Python 數據分析：從零開始的實用指南

data analysis 課程,STEM到校課程,ui ux 課程

一、 Python 數據分析環境搭建

踏入Python數據分析領域的第一步，就是建立一個穩定且高效的開發環境。對於初學者而言，這一步至關重要，它能避免後續許多因環境配置不當而產生的問題。一個整合良好的環境，能讓你專注於數據分析的核心邏輯，而非糾結於套件安裝或版本衝突。近年來，香港許多大學和機構開設的 data analysis 課程，也大多從環境搭建開始教學，確保學員能順利上手。

1.1 安裝 Python 與 Anaconda

雖然可以直接從Python官方網站下載安裝，但對於數據分析工作，我們強烈推薦使用Anaconda發行版。Anaconda是一個開源的Python和R發行版，它集成了數據科學領域最常用的數百個套件，並提供了強大的套件管理工具Conda。這意味著你無需手動逐一安裝NumPy、Pandas等工具，安裝Anaconda時它們就已準備就緒。此外，Conda能有效解決套件之間的依賴關係，建立獨立的虛擬環境，讓不同專案使用不同版本的套件而不互相干擾。下載時請選擇適合你作業系統（Windows、macOS或Linux）的Python 3.x版本安裝程式。安裝過程簡單直觀，完成後你就擁有了一個功能完整的數據分析工作站。

1.2 常用的 Python 數據分析套件：NumPy、Pandas、Matplotlib、Seaborn

Python數據分析的生態系統之所以強大，得益於一系列專精的核心套件。這些套件各有分工，共同構成了數據處理的流水線：

NumPy：提供支援大型多維陣列和矩陣運算的基礎庫，其底層由C語言實現，運算效率極高。幾乎所有其他數據分析套件都建立在NumPy的基礎之上。
Pandas：數據分析的核心武器。它提供了兩種主要的數據結構：Series（一維）和DataFrame（二維表格），並圍繞它們設計了豐富的數據操作功能，如讀寫各種格式文件、數據清洗、轉換、篩選、分組、聚合等。
Matplotlib： Python最基礎、最廣泛使用的繪圖庫。它提供了類似MATLAB的繪圖介面，可以創建靜態、動態和互動式的各種圖表，從簡單的折線圖到複雜的3D圖形均可實現。
Seaborn：基於Matplotlib的進階視覺化庫。它提供了更高層次的API，預設的圖表樣式更美觀，且特別擅長繪製統計圖形，如分佈圖、熱力圖、分類散點圖等，能用更少的代碼呈現更豐富的統計資訊。

這些套件是任何 STEM到校課程 中涉及數據科學模組時必然會深入講解的工具，它們是將數學與統計知識轉化為實際洞察的橋樑。

1.3 Jupyter Notebook 的使用

Jupyter Notebook（現已發展為Jupyter Lab）是數據分析師和科學家的「數位實驗筆記本」。它是一個開源的Web應用程式，允許你創建和分享包含實時代碼、方程式、視覺化圖表和敘述性文字的文档。其「單元格」（Cell）的設計理念，讓你可以分段執行代碼，即時查看結果，非常適合用於探索性數據分析、教學演示和撰寫分析報告。在Anaconda中，Jupyter Notebook已預先安裝，你只需在終端機或Anaconda Navigator中啟動即可。它的互動性與直觀性，對於學習和溝通複雜的數據分析流程有極大幫助，這也是它成為業界和學界標準工具的原因。

二、 Python 數據分析基礎

掌握環境後，我們需要深入理解四大核心套件的基礎操作。這部分知識是數據分析的基石，如同學習樂理之於音樂家。紮實的基礎能讓你在面對真實、雜亂的數據時，知道從何處著手，如何一步步將其轉化為清晰、有價值的資訊。

2.1 NumPy：高效的數值運算

NumPy的核心是ndarray（N-dimensional array）物件，這是一個多維的同質數據容器。與Python原生的列表（list）相比，NumPy陣列在儲存和運算上效率有數量級的提升。例如，對一個包含一百萬個元素的陣列進行數學運算，NumPy的向量化操作比使用Python迴圈快上百倍。其基礎操作包括：建立陣列（如使用np.array(), np.zeros(), np.ones()）、陣列索引與切片、形狀操作（reshape）、基本的數學與統計函數（求和、平均、標準差等）、以及廣播（Broadcasting）機制——這是一種讓不同形狀陣列進行算術運算的強大規則。理解NumPy是理解後續Pandas等庫內部機制的關鍵。

2.2 Pandas：數據處理與分析

如果說NumPy是處理數值的利器，那麼Pandas就是處理「表格數據」的瑞士軍刀。DataFrame是Pandas的靈魂，你可以將其想像成一個Excel工作表或SQL資料表。Pandas的強大之處在於其豐富的數據操作方法：

數據讀取與寫入：輕鬆讀寫CSV、Excel、JSON、SQL資料庫等多種來源的數據。
數據檢視與篩選：使用head(), tail(), loc[], iloc[]等方法檢視和選取特定行列。
處理缺失值：使用isnull(), dropna(), fillna()識別和處理數據中的空值。
數據轉換：新增、刪除、重新命名欄位，改變數據類型，以及應用函數到數據上。
分組與聚合：使用groupby()方法，能像樞紐分析表一樣，對數據進行分組並計算統計量（如各組平均、總和）。

透過Pandas，你可以將原始數據整理成乾淨、結構化的格式，為後續分析和視覺化做好準備。這項技能不僅在數據分析中核心，對於從事 ui ux 課程 設計的專業人士而言，在分析用戶行為數據、A/B測試結果時也極為實用。

2.3 Matplotlib：數據視覺化

「一圖勝千言」。Matplotlib提供了將數據轉化為圖形的全套工具。其繪圖邏輯通常分為三步：創建圖形（Figure）和座標軸（Axes）、在座標軸上繪製圖形元素、最後進行細節美化（如標題、標籤、圖例）。常用的圖表類型包括：

折線圖（plot）：展示數據隨時間或有序類別的變化趨勢。
散點圖（scatter）：展示兩個變數之間的相關性或分佈。
長條圖（bar）：比較不同類別之間的數值大小。
直方圖（hist）：展示單一變數的數值分佈情況。
箱形圖（boxplot）：展示數據的四分位數、中位數和離群值。

雖然Matplotlib的預設樣式較為簡樸，但其高度可定制性允許你調整幾乎所有圖表元素的樣式，以滿足報告或出版的要求。

2.4 Seaborn：更進階的數據視覺化

Seaborn在Matplotlib的基礎上，提供了更簡潔的高階介面，並內建了更多統計圖形。它預設的配色和美學風格更現代、更專業。Seaborn的強項在於輕鬆繪製複雜的關係圖和多變數圖。例如：

分佈圖： distplot（現為histplot或displot）可以同時繪製直方圖和核密度估計曲線。
關係圖： relplot用於繪製散點圖和折線圖，並能輕鬆分面（Facet），按其他變數分組繪製多個子圖。
分類圖： catplot用於繪製分類數據的圖形，如箱形圖、小提琴圖、群組長條圖等。
熱力圖： heatmap非常適合展示矩陣數據（如相關性矩陣）或交叉列表。

使用Seaborn，你可以用一兩行程式碼就生成資訊豐富、視覺效果出色的統計圖形，極大提升數據探索和報告呈現的效率。

三、 Python 數據分析實戰案例

理論需結合實踐。讓我們以一個貼近香港生活的案例——「分析香港公共房屋（公屋）的相關數據」來貫穿整個分析流程。假設我們從政府統計處或公開資料平台獲得了一份包含歷年公屋申請數、輪候時間、建成數量等信息的數據集。

3.1 數據清洗與預處理

真實數據幾乎不可能是完美無瑕的。我們首先使用Pandas讀取數據（例如df = pd.read_csv('hk_public_housing.csv')），然後進行一系列清洗操作：

探索數據結構：使用df.info()查看欄位名稱、數據類型和缺失值情況；用df.describe()查看數值欄位的統計摘要。
處理缺失值：對於缺失的數值，我們可能用該欄位的平均值或中位數填充（fillna()）；對於類別數據，可能用眾數填充或直接標記為「未知」。若某行缺失值過多，則考慮刪除該行（dropna()）。
處理異常值：透過箱形圖或描述性統計（如超出3個標準差的數值）識別異常值。根據業務邏輯決定是修正、刪除還是保留。
數據格式轉換：將日期字串轉為datetime類型，將類別數據轉為category類型以節省記憶體並提升效能。
創建衍生變數：例如，從「申請日期」和「編配日期」計算出「實際輪候時間」。