일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 데이터전처리
- 코딩없이데이터분석
- 브라이틱스
- AdSP
- 서울시상권분석
- EDA
- ProDS
- samsungsds
- 브라이틱스데이터분석
- BrighticsStudio
- 삼성SDSBrightics
- 회귀모형평가
- Brightics서포터즈
- 상권배후지
- 브라이틱스서포터즈
- 삼성sds
- IT멘토링
- 모델링
- Kaggle출전
- 분석모델링
- associateDS
- 데이터분석대외활동
- houseprice
- Datascientist
- SDSBrightics
- 데이터분석
- kaggle
- 삼성자격증
- Brightics
- 골목상권데이터분석
- Today
- Total
Database for Everything
[삼성 SDS Brightics] Brightics 개인 분석 프로젝트_서울시 골목상권 데이터분석_상관관계분석, Geocoder 설치 본문
[삼성 SDS Brightics] Brightics 개인 분석 프로젝트_서울시 골목상권 데이터분석_상관관계분석, Geocoder 설치
Yeenn 2021. 9. 27. 22:51
안녕하세요! Brightics 서포터즈 yeenn입니다!!
벌써 개강한지 한 달이 다 되어간다는 사실이 믿기지 않는 것 같네요..
Brightics 서포터즈의 마지막 미션인 분석 프로젝트도 벌써 5주차에 접어들었습니다!
자꾸만 드는 이 아쉽고 서운한 감정...ㅠㅠ Brightics 절대 못 보내...
마지막이니만큼.. 앞으로 남은 프로젝트 정말 끝까지 잘 마무리 해보고싶습니다!
거둬보자 유종의 미!!★

지난 포스팅 ↓
https://blog.naver.com/yennybly/222512753315
[삼성 SDS Brightics] Brightics 개인 분석 프로젝트_서울시 골목상권 데이터분석_데이터 전처리, EDA, 파
안녕하세요 Brightics 서포터즈 yeenn입니다! 다들 추석 연휴 잘 보내고 계신가요?! 추석인데도 불구하고 ...
blog.naver.com
에 이러한 댓글이 달렸습니다!
.
확실한건 아니지만..(거의확신ㅎㅎ)
매 주 저희 서포터즈들의 미션을 확인하시고 모니터링 해주시는 멘토님으로 추정되는(?) 분께서
지난 EDA포스팅을 보고 댓글을 달아주셨는데요,
업종별 평균매출액으로도 분석이 가능할 것 같다는 고견을 전달해주셔서,
아!!! (유레카 짤)
하고 기쁜 마음으로 바로 파생변수를 추가로 생성해주었습니다!ㅎㅎ
유의미하게 사용할 수 있는 변수들이 워낙 많은 dataset이기 때문에, 지난 번 한 차례 처리를 해주었던 업종별 분류 변수를 다른 방향으로 어떻게 활용하면 좋을지에 대한 고민이 있던차에...
이런 좋은 조언을 해주신 덕분에 회귀분석결과에 대한 기대감이 한 층 부푼채로!
모델링을 준비하게 되었습니다 ^-^
(이자리를 빌려 다시 한번 멘토님 감사드립니다♥)
파생변수 생성
그래서 만들게 된 '서비스 업종별 평균매출금액' 변수!
Add Function Column을 통해
New Column Name에 서비스_업종별_평균_매출_금액을 지정한 후, 총매출금액 / 점포수 수식을 입력해주었습니다.
[상권 - 서비스업종별 평균매출금액]
[상권배후지 - 서비스업종별 평균매출금액]
Random Sampling
그 다음은, random sampling 을 통해 상관관계 분석을 위한 데이터 추출 작업을 진행했습니다.
현재 상권 추정매출액 데이터 기준 행이 약 26만 8000개 존재하기 때문에,
이 대로 상관관계 분석을 진행하니 데이터의 개수가 너무 많아 속도가 느려지는 현상이 발생하더라구요.
이러한 문제를 해결하기 위한 방법 중에는, Data의 Size를 축소하는 방법이 있는데요,
Brightics에서는 간단히
1. Random Sampling 함수
2. Split 함수
를 통해 데이터를 분리하고, 추출할 수 있습니다!
Split함수는 이후 회귀분석에 사용할 예정이기 때문에.. Random Sampling를 사용해 10,000개의 데이터를 추출해주었습니다.
* 알고가자! *
Random Sampling의 parameter 중 'Replacement' 는 무슨 역할을 하는지가 궁금하셨던 저같은 분들을 위해..
Replacement 가 True로 설정이 되어있으면 복원 추출(이미 선택된 데이터도 중복 추출할 수 있음), False로 설정이 되어있으면 비복원 추출로 데이터 추출이 진행됩니다!
디폴트 값이 False 이기 때문에, number과 seed값만 넣고 run해주시면 비복원 추출방식으로 데이터가 추출됩니다!
상관관계 (Correlation) 파악
그 다음은, 이후 진행할 분석에 사용할 분석모델을 결정하기 위해 Correlation을 통해
총 매출금액 변수와 다른 독립변수와의 상관관계를 알아보았습니다.
[상권]
분기당 매출금액, 분기당 매출건수, 주중매출금액, 주말 매출 금액 - 총 매출금액
분기당 매출금액과 주중/주말의 매출금액의 경우 총 매출액과 강한 상관관계를 보이고 있음을 확인할 수 있었는데요, 분기당 매출 건수의 경우는 0.39로 비교적 낮은 약한 상관관계를 보였습니다.
요일별 (월-일) 매출 금액 - 총 매출금액
월-일의 매출금액도 총 매출액과 높은 상관관계를 보이고 있네요!
시간대별 매출금액 (00-06시, 11-14시, 14-17시, 17-21시, 21-24시) - 총 매출금액
시간대별 매출금액을 살펴보니, 총 매출금액과 경제활동인구가 적은 시간대인 00-06시의 매출액과는 상관관계가 약한 반면, 14-17시의 매출액의 경우, 강한 상관관계를 나타내는 것을 확인할 수 있었습니다.
성별별 (남성, 여성) 매출금액 - 총 매출금액
남성과 여성의 매출액의 경우 또한 총 매출액과 강한 상관관계를 보이고 있네요!
연령대별 매출 금액(10대, 20대, 30대, 40대, 50대, 60대 이상) - 총 매출금액
연령대별 매출 금액과 총 매출금액의 상관관계를 살펴보니, 연령대 중 특히 40-50대의 매출액이 총 매출액과 강한 상관관계를 보이는 것을 확인할 수 있었습니다.
점포수, 서비스 업종별 평균 매출 금액 - 총 매출금액
점포수, 서비스 업종별 평균매출금액과의 총 매출금액은 비교적 약한 상관관계를 보였는데요,
알다시피 상관관계 != 인과관계 이므로, 이후 분석모델링과정에서 영향력을 다시 파악해볼 예정입니다!
이번에는 매출금액이 아닌, 매출 건수와 총 매출액과의 상관관계를 확인해보았습니다.
주중 매출건수, 주말 매출 건수 - 총 매출금액
요일별 매출 건수(월-일) - 총 매출금액
시간대별 매출 건수(00-06시, 11-14시, 14-17시, 17-21시, 21-24시) - 총 매출금액
성별별 매출건수(남성, 여성) - 총 매출금액
연령대별(10대, 20대, 30대, 40대, 50대, 60대 이상)매출 건수 - 총 매출금액
확인해보니, 매출건수와 총 매출액은 앞서 살펴보았던 매출금액만큼의 강한 상관관계를 보이지 않는 것으로 확인되었습니다!
하지만 대체적으로 비교적 높은 양의 상관관계를 보이고 있었기 때문에,
우선 다음 모델링 과정에서는 선형회귀를 이용하여 분석해보기로 결정했습니다!
(상권배후지 data도 동일한 방식으로 상관관계분석을 진행해주었습니다.)
+ 매출액 map 시각화를 위한 Geocoding 준비
이렇게 상관관계 분석을 진행해봤는데요,
이후 분석모델링 과정에서 진행할 Geocoding 과정의 시작을 조금 포스팅해보려고 합니다!
분석의 주제가 '서울시 골목상권 분석' 인만큼, 2019년과 2020년의 골목상권 현황을 지도로 시각화하여 코로나 발생 전후를 기준으로 비교해보면 의미있는 차이를 발견할 수 있겠다라는 생각이 들었는데요,
이렇게 map형태로 시각화하기 위해서는 '위도'와 '경도' 좌표가 필요합니다!
현재 dataset에서는 상권_코드명 변수에 이러한 주소지가 입력되어있습니다.
구글링을 하던 중, 주소지를 바탕으로 위도와 경도좌표를 얻을 수 있는 Geocoder프로그램을 발견했고,
(해당 프로그램은 아래 링크에서 다운받을 수 있습니다)
http://www.gisdeveloper.co.kr/?p=4784
주소 좌표 변환 툴, Geocoder-Xr – GIS Developer
개 요 Geocoder-Xr은 주소를 좌표로 변환하거나 좌표를 주소로 변환하여 그 결과를 SHP 파일로 저장해 주는 툴입니다. 전국의 지번주소와 도로명주소를 기반으로 지속적으로 DB가 업데이트됩니다.
www.gisdeveloper.co.kr
바로 설치를 진행해주었습니다!
다운을 받은 후, local 파일에서 위와 같은 프로그램을 더블 클릭하여 설치를 시작하시면 됩니다.
저는 10초도 걸리지 않고 빠르게 다운 받았습니다!
다운을 받은 후, 프로그램을 열어보면 위와같은 창이 뜨는데요,
이후 여기에 주소지 변수를 추출한 csv데이터를 넣고 주소지 → 위도/경도 변환 작업을 진행할 예정입니다!
-본 게시물은 Brightics 서포터즈 활동의 일환으로 작성된 포스팅 입니다.