일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Kaggle출전
- 서울시상권분석
- 데이터분석
- houseprice
- 모델링
- 코딩없이데이터분석
- EDA
- Brightics
- Datascientist
- 브라이틱스서포터즈
- BrighticsStudio
- Brightics서포터즈
- 브라이틱스
- samsungsds
- 골목상권데이터분석
- 회귀모형평가
- 삼성자격증
- kaggle
- associateDS
- 데이터전처리
- AdSP
- 데이터분석대외활동
- 분석모델링
- 상권배후지
- 삼성sds
- 삼성SDSBrightics
- 브라이틱스데이터분석
- IT멘토링
- ProDS
- SDSBrightics
- Today
- Total
Database for Everything
[R 프로그램] 기초부터 다지기 - 데이터 파악 함수 사용하기_head(), tail(), View(), dim(), str(), summary() 본문
[R 프로그램] 기초부터 다지기 - 데이터 파악 함수 사용하기_head(), tail(), View(), dim(), str(), summary()
Yeenn 2021. 9. 8. 17:42
R 프로그램을 설치한지도 공부할 책도 구매한지 몇 달이 지나가는데 이런저런 활동들과 개강준비 때문에 미루고 미루게 된 R 프로그램 스터디...
드디어 시작...!
데이터 파악 함수
함수 | 기능 |
head() | 데이터 앞부분 출력 |
tail() | 데이터 뒷부분 출력 |
View() | 뷰어 창에서 데이터 확인 |
dim() | 데이터 차원 출력 |
str() | 데이터 속성 출력 |
summary() | 요약 통계량 출력 |
head() → 데이터 앞부분 확인하기
데이터의 내용을 확인하려면 data frame명을 입력하여 실행하면 되지만, 화면에 너무 많은 데이터가 출력되기 때문에 알아보기 어렵다.
데이터의 일부만 출력하여 데이터의 형태를 확인할 때 head() 을 이용한다.
head(데이터프레임 이름) 을 입력하면, 데이터의 앞에서부터 6번째 행까지 출력이 된다.
데이터 프레임 이름 뒤에 쉼표를 쓰고 숫자를 입력하면, 입력한 행까지의 데이터가 출력된다.
head(데이터 프레임 이름, 숫자) -> 앞에서부터 '숫자'행까지 출력
View() → 뷰어 창에서 데이터 확인하기
View()는 '뷰어 창'에 원자료를 직접 보여주는 기능을 한다. 이 때, View의 맨 앞 글자 'V'는 대문자로 입력되어야 한다.
View(exam)을 실행하면 위와 같이 exam이라는 이름의 데이터 뷰어 창이 생성된다.
dim() → 데이터의 행, 열 구성 알아보기
dim()은 데이터 프레임의 행과 열 구성을 파악하고자 할 때 사용한다.
출력된 두 개의 숫자 중 앞의 숫자는 '행'의 개수를, 뒤의 숫자는 '열'의 개수를 나타낸다.
exam 데이터의 경우, 하나의 행이 한 학생의 시험 성적을 의미하므로 exam 데이터가 학생 20명에 대한 5개 변수로 구성된다는 것을 알 수 있다.
str() → 데이터 속 변수들의 속성 파악
str()은 데이터 속 변수들의 속성을 파악할 때 사용한다.
exam 데이터 변수들의 속성을 파악해보자.
data.frame → exam 데이터
20 obs. → 20개의 관측치(Observation)
5 variables → 5개 변수(variables)
$ id, $ class .. : int → 정수(Integar)로 된 변수
summary() → 요약 통계량 산출하기
summary()는 평균과 같은 변수의 값을 요약한 '요약 통계량'을 산출하는 함수이다.
요약 통계량을 보면 변수의 특성을 파악하는 데 도움이 된다.
출력 결과를 보면 데이터를 구성하는 변수들의 요약 통계량을 알 수 있는데, 각 출력값들은 아래와 같은 요약통계량을 의미한다.
출력값 | 통계량 |
Min | 최솟값(Minimum) |
1st Qu | 1사분위수(1st Quantile) |
Median | 중앙값(Median) |
Mean | 평균(Mean) |
3rd Qu | 3사분위수(3rd Quantile) |
Max | 최댓값(Maximum) |
library(ggplot2) 를 불러온 후, qplot함수를 통해 그린 english 변수에 대한 histogram은 아래와 같다.
※ 위 포스팅은 「Do it! 쉽게 배우는 R 데이터 분석(이지스리퍼블리싱)」 도서를 참고하여 작성되었습니다.
'R' 카테고리의 다른 글
[R 프로그램] 인터랙티브 그래프(2)_plotly 패키지로 인터랙티브 그래프 만들기 (0) | 2021.11.26 |
---|---|
[R 프로그램] 인터랙티브 그래프(1)_미국 주별 강력 범죄율 인터랙티브 지도 시각화 - ggiraphExtra 패키지 (0) | 2021.11.25 |
[R 프로그램] 기초부터 다지기-데이터 전처리(2)_데이터 정렬, 요약, 통합하기 (0) | 2021.11.07 |
[R 프로그램] 기초부터 다지기(1) - 데이터 전처리_조건에 맞는 데이터 추출하기 ( filter(), %>%, %in% ) (0) | 2021.09.23 |
[R 프로그램] 기초부터 다지기-파생변수 만들기(Derived Variable)_조건문 생성 (0) | 2021.09.09 |