Database for Everything

[R 프로그램] 한국복지패널데이터 분석 프로젝트(3) - 종교 유무에 따른 이혼율, 지역별 연령대 비율 본문

R

[R 프로그램] 한국복지패널데이터 분석 프로젝트(3) - 종교 유무에 따른 이혼율, 지역별 연령대 비율

Yeenn 2021. 12. 4. 19:06
728x90

● 종교유무에 따른 이혼율

 

종교유무에 따른 이혼율을 알아보겠다. 먼저, 종교변수의 정보를 살펴보았다. 종교변수는 numeric 변수이며, 종교가 있는 사람(1)은 8047명, 종교가 없는 사람(2)는 8617명인 것을 확인할 수 있다.

 

 

 

분석의 편의를 위해 1과 2로 코딩된 종교유무에 이름을 부여하였다.

 

 

 

혼인 상태 변수인 marriage변수 또한 살펴보았다. 

혼인상태변수는 배우자가 있을 경우, 1, 이혼했을 경우 3으로 코딩되어 있다. 이를 이용해 이혼여부를 나타내는 퍼생 변수 group_marriage를 만들어보았다.

 

 

출력결과를 보면, 결혼상태인 사람은 8431명, 이혼한 사람은 712명이라는 것을 알 수 있다.

둘 중 어디에도 속하지 않아 결측치로 분류된 경우는 7521명이었다. 이는 이후 결측치 처리를 해주어야 한다.

 

 

다음은, 종교유무에 따른 이혼율 표를 만들어보았다. 

먼저 종교 유무 및 결혼 상태별로 나누어 빈도를 각각 구한 뒤, 각 종교 유무 집단의 전체 빈도로 나누어 비율을 구하였다. 

비율은 round()를 이용해 소수점 첫째 자리까지 표현되도록 하였다.

 

 

 

*집단별 빈도는 아래와 같이 count()함수를 사용해서도 구할 수 있다.

이후, 이 표에서 이혼에 해당하는 값만 추출해 이혼율 표를 만들었다.

 

 

빈도 그래프로 확인해본 결과는 아래와 같다. 

이혼율은 종교가 있는 경우 7.2%, 종교가 없는 경우 8.3%로 나타났다.

따라서, 종교가 있는 사람들이 이혼을 덜 한다고 볼 수 있다.

 

 

 

 

 

 

 

 

● 지역별 연령대 비율

 

이번에는 지역별 연령대 비율을 살펴보겠다. 

 

class()와 table()을 통해 변수를 살펴본 바, 지역변수는 numeric 변수이며, 7개 권역을 의미하는 지역코드로 이루어져 있는 것을 확인할 수 있었다.

 

내용
1 서울
2 수도권(인천/경기)
3 부산/경남/울산
4 대구/경북
5 대전/충남
6 강원/충북
7 광주/전남/전북/제주도

 

 

이를 바탕으로 welfare에 지역명 변수를 추가하였다.

 

 

welfare과 list_region에 모두 들어있는 code_region변수를 기준으로 결합하였다.

 

 

 

앞서 처리한 연령대변수를 바탕으로 변수간 관계 분석을 위한 지역별 연령대 비율표를 만들었다.

지역 및 연령대별로 나누어 빈도를 구한 뒤, 각 지역의 전체 빈도로 나누어 비율을 구하였다.

round()를 사용해 비율을 소수점 첫 째자리까지 나타내었다.

 

 

 

이를 그래프로 나타내보았다.

 

 

위의 그래프는 막대가 밑에서부터 지역명 가나다 순으로 정렬되어있는 그래프이다. 이를 노년층 비율이 높은 순으로 정렬하기 위해,

노년층 비율 순으로 지역병이 정렬된 변수를 만들어주었다.

*앞서 만든 표를 노년층 비율 순으로 정렬한 후, 지역명만 추출해 order변수를 만들었다. 

 

이후, 노년층 비율 순으로 정렬된 order변수를 활용해 앞에서 사용한 그래프 생성코드에 scale_x_discrete()를 추가하고, limits 파라미터에 order변수를 지정하여 그래프를 출력하였다.

 

 

 

위의 그레프는 막대 색깔이 young, old, middle 순으로 나열되어 있는데, 이를 이번에는 연령대 순으로 막대 색깔을 나열해 보았다.

 

fill 파라미터에 지정할 변수의 범주 순서(levels)를 지정하면 된다.

 

하지만, 현재 age_n변수는 character 타입이기 때문에 levels가 없다. 따라서, factor()을 이용해 age_n 변수를 factor 타입을 변환한 후, level 파라미터를 이용해 순서를 지정하였다.

 

 

그래프를 살펴보면, 노년층 비율이 대구/경북, 강원/충북, 광주/전남/전북/제주도 순으로 높다는 것을 확인할 수 있다.

728x90
Comments