莖葉圖

(Stem-and-Leaf Diagram)

 

 

 

名稱

說明

莖葉圖

(Stem-and-Leaf Diagram)

  • 一種用圖形來表現數據(或稱資料)的方法,常用於探索數據分析。

  • 一種方便且容易畫的圖形,用來說明數據的分佈情形。

  • 優點:保留原始數據。

  • 缺點:不適用於大筆的數據。

  • 莖葉圖:stem(x,scale=1,width=80,atom=1e-08)

            參數說明

  • x:必須是數值向量物件

  • scale:控制圖形的長度。

  • width:圖形的寬度。

  • atom:容許的誤差。

   資料說明:(來源:統計軟體R之內建資料庫) 

  

  此筆數據來自美國懷俄明(Wyoming)洲之黃石公園(Yellowstone National Park)的老忠實噴泉(Old Faithful geyser )共記載了兩筆數據,一為兩次噴發的時間間隔,一為每次噴發維持的時間。

  資料內容如下:

 

 

   eruptions: 噴發時間(以分為單位);

   waiting: 前一次噴發結束到下一次噴發開始的間隔時間(以分為單位)。

        由內建資料庫中載入名為"faithful" (老忠實噴泉)的資料,此資料的物件型態

              為"data.frame" (資料表),其中包含兩個名稱分為"eruptions""waiting"

              向量物件,若要繪出"waiting"向量的莖葉圖,方式如下:

 

      範例程式碼:                   

 

程式碼中之"faithful$waiting" 為呼叫此資料表中"waiting" 向量的語

     法。  

     

 


直方圖

(Histogram)

 

 

名稱

說明

直方圖

(Histogram)

  • 一種常用來展示數據的圖。

  • 圖中每個長方形的寬度比例與組區間,面積則比例於他所代表的次數。

  • 直方圖:

  •   hist(x,freg=TRUE,col="顏色名稱",labels = TRUE , breaks=c(設定區間長度))

            參數說明

  •  x:必須是數值向量物件;

  • freg:邏輯判斷式。一般預設為"TRUE",表圖形是以頻率(個數)的方式來表示,若改為"FALSE",則表圖形是以機率(probability)的方式來表示。

  • col:長方形的填充顏色。預設值為"NULL",表一般是不填顏色(即為白色)。

  • labels:是否在每個長方條上附加累計數字。

  • breaks:設定長方形的寬度。

  資料說明:(來源:統計軟體R之內建資料庫) 

 

      利用內建資料庫中之"faithful" (老忠實噴泉)的資料,此資料包含兩個名稱分

            為"eruptions""waiting"的向量物件,各別對"waiting"和"eruptions"畫其直

            方圖,方式如下:

      範例程式碼:     

    

 


長條圖

(Bar Plot)

 

 

名稱

說明

長條圖

(Bar plot)

  • 一種用許多寬度相同,長度與已知次數成比例的長方形顯示數據的統計圖。

  • 有許多種畫法:垂直放置、水平放置。

  • 長條圖:barplot(x, beside=FALSE, horiz=FALSE, legend=NULL)

            參數說明

  •  x:必須是數值向量物件或數值矩陣物件,若為矩陣,則圖形

  •            以"行向量"為優先分類,再以行向量中的分量為次要分類;

     

  •  beside:當物件為矩陣時才有作用,其作用為"是否將次要分類以獨立的長方

  •         條以獨立的長方條表示"。預設值為"FALSE",表示將"行資料"作垂

         直的堆疊。若改為"TRUE",表示將次要分類以獨立的長方條以獨立

         的長方條表示。

  • horiz: "是否為橫向長條圖"。預設值為"FALSE"表示為垂直之長條圖。

  • legend: 每一類長方條的標示名稱,預設值為"不標示"。

     

  資料說明:

             (來源:Probability and Statistics,     Hastings, K. J. (1997)

                         Example 7. 2. 3, p. 301)

 

   範例資料為一問卷調查(1985和1994年),其問題為"最近六個月內是否曾在家喝

 

       過咖啡",並將年齡分為六個組別,列出的數據為"曾在家喝過咖啡"者的比率(如下

 

       表):

 

 

       將資料鍵入Excel中,如下:(數字為佔所有受訪者的比率)

 

 

       將檔案另存成文字檔(其副檔名為 .txt)並放在作業資料夾中以便匯入R中。

 

 

       由於用"read.table"指令匯入的資料型態為"data.frame",因此必須

 

               用"as.matrix"指令將物件轉成矩陣型式。

 

      範例程式碼:         

                            

         

 

     

 


盒鬚圖

(Box-and-Whisker Plot)

 

 

名稱

說明

盒鬚圖

(Box-and-Whisker plot,boxplot)

  • 盒鬚圖亦稱為長鬚圖。

  • 一很有效的表示資料的方法。

  • 一種用來呈現數據分佈的某些重要特性的圖形。

  • 可用來了解資料的偏斜性(skewness)及離群值(outliers)。

  • 盒鬚圖:boxplot(x, boxwex=0.8, col=NULL, horizontal=FALSE, add=FALSE, at=NULL)

            參數說明

  • x:必須是數值向量物件;

  • boxwex為盒子的寬度,預設為0.8個單位;

  • col:盒子的填充顏色;

  • horizontal:是否為橫向的盒形圖,預設為"FALSE"

  • add:是否與前一張圖畫在一起,預設為"FALSE"

  • at:盒子的x座標位置,例如:圖中有三個盒子,則預設的x座標位置分別為

  •           1,2,3。

  資料說明:(來源:統計軟體R之內建資料庫)

 

  此筆數據紀錄了10位實驗者的牙齒長度紀錄。實驗有三種不同劑量的維生素C(0.5,1,和2毫克)和兩種給藥方式(柳橙汁或抗壞血酸(維生素C))。

 

   len:牙齒長度;

   supp:補充方式;

   dose:劑量。

 

     先載入內建資料,此資料的型態為資料表,包含了三個欄位,其中 "supp" 欄

        位有兩個水準,"dose" 有三個水準。

 

                 以下示範三種建立盒鬚圖的方法:

    

          方法一:對單一變數建立盒鬚圖。例如:對"len"欄位建立盒鬚圖。

 

      範例程式碼:                                      

 

     

 

         方法二:在不同的變數水準下,對某一變數建立盒鬚圖。例如:在不同的

                          "supp" 水準之下,對 "len" 欄位建立盒鬚圖。

 

 

      範例程式碼:                                      

 

         方法二:在二個不同的變數水準下,對某一變數建立盒鬚圖。例如:在不同

                                的"supp" "dose" 水準之下,對 "len" 欄位建立盒鬚圖。

 

      範例程式碼:   

    語法一:                                   

 

 

  語法二:

 

 

    "dose"的每個水準和"supp"中的"VC"水準之下

      "len"欄位建立盒鬚圖,此時只有三個盒子;

    這三個盒子的x座標位置分別為(1-0.2), (2-0.2), (3-0.2)

 

 

    "dose"的每個水準和"supp"中的"OJ"水準之下,再建立

      三個盒鬚圖

    這三個盒子的x座標位置分別為(1+0.2), (2+0.2), (3+0.2)

    將這個盒鬚圖與前一張圖形畫在一起。

 

     最後再加入說明方塊在左上方。

 

 

 


散佈圖

(Scatter plots)

 

 

名稱

說明

散佈圖

(Scatter plots)

  • 用來說明某二個變量分佈的樣本的直角座標圖。

  • 散佈圖上只畫數據點,點與點之間不予連接。

  • 散佈圖通常畫在計算相關係數之前。

  • 如果數據大致落在一直線上,那麼作相關係數的計算是合理的;如果所有數據散佈在整個圖上,那麼計算相關係數很可能沒有任何意義。

  • 散佈圖有時也會顯示某種非線性關係、離群值等。

  • 散佈圖:plot(x, y, xlim=range(x), ylim=range(y), type="p", main, xlab, ylab, pch="1", col="blue")

            參數說明

  •  x,y向量物件,每個點的 x, y 座標所成的 x 向量和 y 向量。

  • xlim, ylimx, y 軸的範圍。

  • type:圖形的型態。各種型態指令如下:

    p

    點圖

    l

    線段圖

    b

    點線圖

    h

    長條圖

    s

    階梯圖

     

  • main標題文字。

  • xlab, ylab x, y 座標軸的文字說明。

  •  pch點的樣式。樣式如下

     

  •  col點和線段的顏色。

      畫函數圖形:

 

      範例程式碼:                                    

 > x=c(-10:10) 向量 "x" 包含 -10 10 的整數。
 > fx=x^2  
向量 "fx" 對應 "x" 的每個位置的平方
 > plot(x, fx, xlim=c(-15,15), ylim=c(0,100), type="b",    

    main="plot of function f(x)=x^2",xlab="x",ylab="f(x)", 

    pch=10, col="blue")

 

 

     

 

     資料說明:(來源:統計軟體R之內建資料庫)  

        利用內建資料庫中之"faithful" (老忠實噴泉)的資料。對 "waiting" 和 

           "eruptions" 畫其散佈圖,方式如下:

 

      範例程式碼:                                      

     


常態分位數圖

(Quantile-Quantile Normal Plots)

 

 

名稱

說明

分位圖

(Quantile-Quantile  plot,

Q-Q plot)

  • 利用樣本分位數來繪資料的圖。

  • 以圖形來檢驗數據是否來自某一分部的方法。

常態分佈的Q-Q圖

(Normal Quantile-Quantile  plot,

Normal Q-Q plot)

  • 在實際的應用裡,常會想知道收集到的資料是否來自常態分佈的母體,可利用常態分佈的Q-Q 圖來做初步的檢驗。

  • 若樣本是來自常態分佈的母體,則其Q-Q 圖近似於一條直線,否則便不是。

  • 一種簡易檢驗常態性(normality)的方法。

  • 常態分位數圖:

  • qqnorm(x)

    qqline(x)  在常態分位數圖中加入通過第一和第三分位數的直線。

            參數說明

  •  x:必須是數值向量物件。

     

      資料說明:生成一自由度為4之T分佈之隨機樣本。 

 

      範例程式碼:  

      

        "rt(200,df=4)"為產生一組自由度為4的T分佈隨機樣

             本。

 

 

       資料說明:生成一自由度為30之T分佈之隨機樣本。 

      範例程式碼:         

              

         自由度為30T分佈機率密度函數非常近似

   常態分佈的機率密度函數

     

 


時間序列圖

(Time Series Plots)

 

 

名稱

說明

時間序列圖

(Time Series plots)

  •  時間序列:觀測值的集合,每一個觀測直接紀錄

  •                         一個特定的時間。

  • 一種用來觀測時間序列資料的方式

  • 時間序列圖:plot(x)

            參數說明

  •  x:必須為時間序列物件(ts)。

     

      範例程式碼:                                      

   

       m01為一(100×3)的矩陣矩陣中每個值皆為T分佈的隨機亂數(自由度為3)。

       將矩陣m01轉成時間序列的物件aaa"frequency=12"表示時間的間隔相差

           一個月,對應時間從19611月開始到19694月止共100個時間點(因為矩

           陣m01100個列):

       物件aaa是一個多個變量(因為包含了三個序列)的時間序列物件,其時間序列

           圖為:

     此為三個序列分別對時間軸的圖形,也可將三個序列畫在一起,如下:

      加入參數"plot.type="single"",並且可更改顏色和線段型態,此時序列1為紅

           色實線,序列2為橘色虛線,序列3為藍色虛線。

     


散佈圖矩陣

(Scatterplot Matrices)

 

 

名稱

說明

散佈圖矩陣

(Scatterplot Matrices)

  • 三變數以上的樣本的關係圖形。

  • 散佈圖矩陣:pairs(x)

            參數說明

  •  x物件型態必須是 "矩陣" (matrix) "資料表"(data.frame)

     

  資料說明:(來源:統計軟體R之內建資料庫) 

 

  此筆數據共紀錄了50朵不同品種的鳶尾(別名愛麗斯,為一種植物)之花萼的長寬和花瓣的長寬的測量值(單位為公分)。此不同品種的鳶尾分別為“Iris setosa”,“versicolor”和“virginica”。

圖為中國鳶尾-紫蝴蝶

(圖片來源:田尾花卉園藝中心)

         

   Sepal.Length, Sepal.Width:花萼的長與寬(公分)

   Petal.Length, Petal.Width 花瓣的長與寬(公分)。

   Species:鳶尾屬植物(俗稱蝴蝶花)的品種。

 

      範例程式碼:     

    >data(iris)
    >pairs(iris[1:4])