探索資料的利器:莖葉圖
化繁為簡,深入瞭解資料特性,是探索資料分析(EDA)的核心理念。其中,莖葉圖作為EDA中不可或缺的工具,以其簡潔明瞭的圖形呈現,揭示資料的奧秘。
莖葉圖的構建原理明晰而巧妙。將資料值拆解為「莖」(數值的高位部分)和「葉」(數值末尾的數字),再將莖按大小順序排列,讓葉依據對應莖的數值依序排列。如此一來,一份雜亂的數字便化為一幅清晰的圖景。


試舉例而言,倘若給定一組分數:44、45、46、64、65、71、72、73、74、84、85、86、87、90。將這些分數分解為莖葉展示:
莖 | 葉 |
---|---|
4 | 456 |
5 | |
6 | 45 |
7 | 1234 |
8 | 4567 |
9 | 0 |
從此莖葉圖中,一目瞭然地得知最低分為44分,最高分為90分。多數分數集中在70-79分的區段,整體分佈不對稱,低分數明顯多於高分數。
若資料範圍廣泛,可適時調整莖的重複次數以彰顯分佈細節。例如將每個莖重複顯示兩次:
莖 | 葉 |
---|---|
⋆ 4 | 456 |
· 4 | |
⋆ 5 | |
· 5 | |
⋆ 6 | 45 |
· 6 | |
⋆ 7 | 1234 |
· 7 | |
⋆ 8 | 4567 |
· 8 | |
9 | 0 |
由該莖葉圖可更清晰地看出,雖分數最高位於75-79分,但整體分佈仍偏向低分,低於70分的分數明顯居多。
莖葉圖不僅能展示單一資料集的分佈,更能用於對比多組資料間的差異。如此,便能直觀地比較各組資料的集中趨勢和分佈特徵,推導有意義的結論。
SPSS等統計軟體亦提供莖葉圖繪製功能,操作便捷。將資料輸入SPSS後,依序點選「分析 > 描述統計 > 預檢資料」。勾選莖葉圖選項並執行分析,即可獲取莖葉圖結果,輕鬆解析資料。
總結而言,莖葉圖作為EDA中的利器,不僅能洞悉資料分佈趨勢,更能比較多組資料間的差異。其簡單易懂、直觀形象的特點,令其成為探索資料奧妙、精準解讀數據的得力助手。
莖葉圖怎麼看
莖葉圖是一種以數字和位置來表示資料分佈的圖形,它可以讓我們快速地掌握資料的中心位置、變異程度和異常值。
如何理解莖葉圖:
莖 | 葉 | 描述 |
---|---|---|
莖 | 圖形中垂直的數字 | 資料的第一個顯著數字 |
葉 | 莖右側的數字 | 資料的最後一個顯著數字 |
閲讀莖葉圖:
- 確認莖:找出垂直排列的數字,它們代表資料的第一個顯著數字。
- 找出葉:每個莖右側的數字是葉,它們代表資料的最後一個顯著數字。
- 找出中間值:中間值是資料的分界點,它將資料分為兩半。中間值位於莖葉圖的中央,由莖和葉組成。例如,莖葉圖 5|368 表示中間值為 56。
- 瞭解變異程度:變異程度是指資料相對於中間值的擴散程度。莖葉圖越長,變異程度越大。
- 檢查異常值:異常值是顯著偏離資料一般趨勢的值。它們通常出現在莖葉圖的兩端。
範例:
考慮以下資料:
43, 51, 56, 60, 62, 65, 67, 72, 74
其對應的莖葉圖為:
5 | 16
6 | 0257
7 | 24
可以看出,中間值為 62。資料分佈相對平均,沒有明顯的異常值。
莖葉圖是一種直觀且有用的工具,可以幫助我們快速瞭解資料的分佈特徵。通過理解莖和葉,我們可以確定中間值、變異程度和異常值,從而更好地掌握資料的特性。