[R 프로그램] 기초부터 다지기 - 데이터 파악 함수 사용하기_head(), tail(), View(), dim(), str(), summary()
R 프로그램을 설치한지도 공부할 책도 구매한지 몇 달이 지나가는데 이런저런 활동들과 개강준비 때문에 미루고 미루게 된 R 프로그램 스터디...
드디어 시작...!
데이터 파악 함수
함수 | 기능 |
head() | 데이터 앞부분 출력 |
tail() | 데이터 뒷부분 출력 |
View() | 뷰어 창에서 데이터 확인 |
dim() | 데이터 차원 출력 |
str() | 데이터 속성 출력 |
summary() | 요약 통계량 출력 |
head() → 데이터 앞부분 확인하기
데이터의 내용을 확인하려면 data frame명을 입력하여 실행하면 되지만, 화면에 너무 많은 데이터가 출력되기 때문에 알아보기 어렵다.
데이터의 일부만 출력하여 데이터의 형태를 확인할 때 head() 을 이용한다.
head(데이터프레임 이름) 을 입력하면, 데이터의 앞에서부터 6번째 행까지 출력이 된다.
데이터 프레임 이름 뒤에 쉼표를 쓰고 숫자를 입력하면, 입력한 행까지의 데이터가 출력된다.
head(데이터 프레임 이름, 숫자) -> 앞에서부터 '숫자'행까지 출력
View() → 뷰어 창에서 데이터 확인하기
View()는 '뷰어 창'에 원자료를 직접 보여주는 기능을 한다. 이 때, View의 맨 앞 글자 'V'는 대문자로 입력되어야 한다.
View(exam)을 실행하면 위와 같이 exam이라는 이름의 데이터 뷰어 창이 생성된다.
dim() → 데이터의 행, 열 구성 알아보기
dim()은 데이터 프레임의 행과 열 구성을 파악하고자 할 때 사용한다.
출력된 두 개의 숫자 중 앞의 숫자는 '행'의 개수를, 뒤의 숫자는 '열'의 개수를 나타낸다.
exam 데이터의 경우, 하나의 행이 한 학생의 시험 성적을 의미하므로 exam 데이터가 학생 20명에 대한 5개 변수로 구성된다는 것을 알 수 있다.
str() → 데이터 속 변수들의 속성 파악
str()은 데이터 속 변수들의 속성을 파악할 때 사용한다.
exam 데이터 변수들의 속성을 파악해보자.
data.frame → exam 데이터
20 obs. → 20개의 관측치(Observation)
5 variables → 5개 변수(variables)
$ id, $ class .. : int → 정수(Integar)로 된 변수
summary() → 요약 통계량 산출하기
summary()는 평균과 같은 변수의 값을 요약한 '요약 통계량'을 산출하는 함수이다.
요약 통계량을 보면 변수의 특성을 파악하는 데 도움이 된다.
출력 결과를 보면 데이터를 구성하는 변수들의 요약 통계량을 알 수 있는데, 각 출력값들은 아래와 같은 요약통계량을 의미한다.
출력값 | 통계량 |
Min | 최솟값(Minimum) |
1st Qu | 1사분위수(1st Quantile) |
Median | 중앙값(Median) |
Mean | 평균(Mean) |
3rd Qu | 3사분위수(3rd Quantile) |
Max | 최댓값(Maximum) |
library(ggplot2) 를 불러온 후, qplot함수를 통해 그린 english 변수에 대한 histogram은 아래와 같다.
※ 위 포스팅은 「Do it! 쉽게 배우는 R 데이터 분석(이지스리퍼블리싱)」 도서를 참고하여 작성되었습니다.