R

[R 프로그램] 기초부터 다지기 - 데이터 파악 함수 사용하기_head(), tail(), View(), dim(), str(), summary()

Yeenn 2021. 9. 8. 17:42
728x90

 

R 프로그램을 설치한지도 공부할 책도 구매한지 몇 달이 지나가는데 이런저런 활동들과 개강준비 때문에 미루고 미루게 된 R 프로그램 스터디...

 

드디어 시작...!

 

 

데이터 파악 함수

함수 기능
head() 데이터 앞부분 출력
tail() 데이터 뒷부분 출력
View() 뷰어 창에서 데이터 확인
dim() 데이터 차원 출력
str() 데이터 속성 출력
summary() 요약 통계량 출력

 

 

 

 

head() → 데이터 앞부분 확인하기

 

데이터의 내용을 확인하려면 data frame명을 입력하여 실행하면 되지만, 화면에 너무 많은 데이터가 출력되기 때문에 알아보기 어렵다. 

 

데이터의 일부만 출력하여 데이터의 형태를 확인할 때 head() 을 이용한다.

 

head(데이터프레임 이름) 을 입력하면, 데이터의 앞에서부터 6번째 행까지 출력이 된다.

 

 

 

 

데이터 프레임 이름 뒤에 쉼표를 쓰고 숫자를 입력하면, 입력한 행까지의 데이터가 출력된다.

 

head(데이터 프레임 이름, 숫자) -> 앞에서부터 '숫자'행까지 출력

 

 

 

 

 

View() → 뷰어 창에서 데이터 확인하기

 

View()는 '뷰어 창'에 원자료를 직접 보여주는 기능을 한다. 이 때, View의 맨 앞 글자 'V'는 대문자로 입력되어야 한다. 

 

 

View(exam)을 실행하면 위와 같이 exam이라는 이름의 데이터 뷰어 창이 생성된다. 

 

 

 

 

 

dim() → 데이터의 행, 열 구성 알아보기

 

dim()은 데이터 프레임의 행과 열 구성을 파악하고자 할 때 사용한다. 

출력된 두 개의 숫자 중 앞의 숫자는 '행'의 개수를, 뒤의 숫자는 '열'의 개수를 나타낸다. 

 

 

exam 데이터의 경우, 하나의 행이 한 학생의 시험 성적을 의미하므로 exam 데이터가 학생 20명에 대한 5개 변수로 구성된다는 것을 알 수 있다. 

 

 

 

 

 

str() → 데이터 속 변수들의 속성 파악

 

str()은 데이터 속 변수들의 속성을 파악할 때 사용한다. 

 

exam 데이터 변수들의 속성을 파악해보자.

 

 

data.frame → exam 데이터

20 obs. → 20개의 관측치(Observation)

5 variables → 5개 변수(variables)

$ id, $ class .. : int → 정수(Integar)로 된 변수 

 

 

 

 

 

summary() → 요약 통계량 산출하기

 

summary()는 평균과 같은 변수의 값을 요약한 '요약 통계량'을 산출하는 함수이다. 

요약 통계량을 보면 변수의 특성을 파악하는 데 도움이 된다.

 

 

출력 결과를 보면 데이터를 구성하는 변수들의 요약 통계량을 알 수 있는데, 각 출력값들은 아래와 같은 요약통계량을 의미한다.

 

출력값 통계량
Min 최솟값(Minimum)
1st Qu 1사분위수(1st Quantile)
Median 중앙값(Median)
Mean 평균(Mean)
3rd Qu 3사분위수(3rd Quantile)
Max 최댓값(Maximum)

 

 

library(ggplot2) 를 불러온 후, qplot함수를 통해 그린 english 변수에 대한 histogram은 아래와 같다. 

 

 

 

 

※ 위 포스팅은 「Do it! 쉽게 배우는 R 데이터 분석(이지스리퍼블리싱)」 도서를 참고하여 작성되었습니다.

728x90