삼성 SDS Brightics

[삼성 SDS Brightics] Kaggle 1975-2018년 전세계 영화 박스 오피스 매출액 분석하기 ② - Data 시각화

Yeenn 2021. 6. 18. 22:54
728x90

 

지난 포스팅

https://yeenn-db.tistory.com/6

 

[Brightics] Kaggle 1975-2018년 전세계 영화 박스 오피스 매출액 분석하기 ① - Data Load 오류 해결

안녕하세요! 벌써 여름이 된 것 같으면서도 아직은 낮에도 선선한 바람이 불어서.. 한여름이 되어 더워지기 전 마지막이 될(?) 시원한 여름을 나름 즐겨보려고 노력중인 요즘입니다. 이번에는 Kag

yeenn-db.tistory.com

에 이어서, 영화 박스오피스 데이터를 분석해보도록 하겠습니다!

dataset 정보는 위 포스팅을 참고해주세요.

 

 

 

데이터 Load까지 마친 Brightics 화면입니다.

 

 

이번 포스팅에서는, Brightics의 다양한 시각화 기능을 이용하여 영화 매출액에 영향을 미쳤던 변수들을 확인해보도록 하겠습니다.

 

 

 

 

0. 영화 장르별 분포

 

먼저, 가볍게 dataset의 영화장르별 분포를 pie chart를 통해 살펴보겠습니다!

Thriller과 Comedy, Fantasy, Sci-Fi와 Romance 장르가 상당부분을 차지하고 있네요.

화려해서 너무 예쁩니다ㅋ-ㅋ

 

 

 

1. 영화별 매출액 분포

 

 

다음은, 우측의 Chart Settings 항목의 Histogram을 이용하여 영화별 매출액에 따른 분포를 시각화해보았습니다. 

X-axis: worldwide_gross

를 설정해주세요. 

 

-Right Skewed된 분포형태가 나타났네요! 

-가장 우측의 매출액은 27억-28억 달러인데요, 한화로 약 3조원에 해당하는 금액입니다.

 

 

 

2. 연도별 매출액 분포

 

 

이번에는 연도별 영화 매출액을 살펴보기 위해, Column Chart를 선택한 후,

X-axis: year

Y-axis: worldwide_gross(average)

를 설정하여 시각화를 진행해보았습니다.

 

 

-1975년부터 2014년까지는 꾸준히 증가추세를 보이다가, 2015년부터는 평균 매출액이 감소추세를 보이고 있네요!

-1975-1988년까지의 매출액은 타 연도에 비해 현저히 낮은 모습을 보입니다.

 

 

 

3. imdb영화 평점과 매출액과의 관계

 

개인적으로 가장 궁금했던 관계 분석인데요,

과연 평점이 높을 수록 매출액도 높을까요?

바로 확인해도록 하겠습니다!

 

이번에는 Scatter Plot Chart를 통해 산점도를 분석해보겠습니다.

평점별 매출액의 분포를 파악해볼 수 있겠죠?

X-axis: imdb_rating(영화평점)

Y-axis: Count(worldwide_gross)(영화매출액)

를 설정하여 시각화를 진행했습니다.

 

-대체적으로는 우상향을 보이고 있으나,

-예상과는 다르게 imdb rating_고평점(8-9)의 영화 매출액이 생각보다 높지 않은 영화도 있고,

-imdb rating이 6-7점대여도 매출액이 높은 영화도 있는 것을 확인할 수 있었습니다.

-고평점이 항상 매출액의 증가로 이어지는 것은 아니네요!

 

 

위와 동일한 data setting으로 box-plot chart도 확인해보았습니다.

 

 

-imdb rate의 평점이 7.7, 8.1점대인 영화 매출액의 편차가 큰 것으로 보이고,

-평점 7.9점대의 영화 중 매출액의 규모가 굉장히 큰 작품이 하나 있네요.(이상치) → 앞서 histogram chart에서 살펴본 한화 3조원에 해당하는 매출액을 기록한 영화인 것 같습니다.

 

 

 

4. 영화 장르와 매출액간의 관계

 

 

Box-Plot Chart를 통해 영화 장르별 매출액을 살펴보겠습니다.

X-axis: Main_genre

Y-axis: worldwide_gross

를 설정하고, 시각화를 진행해보면,

 

위와 같은 그래프가 나타납니다!

 

-가장 매출이 높은 장르 1순위는 Fantasy, 2순위는 Adventure로 나타났습니다. 대중을 끌어당기는 흥미요소가 많은 장르들이라 매출액이 모두 높게 나온 것 같네요! 

-Fantasy 장르에 outlier(이상치) 이 1개 존재하는데, 앞서 계속 언급되었던 최고 매출액 영화네요! 이 영화의 정체는,,, 아바타였습니다!(바로 납득)

 

 

-그 다음으로 높은 매출액을 기록한 Romance 장르의 outlier의 정체도 궁금해졌는데요, 왜인지 예상이 되는..

바로 Titanic이었습니다!

 

 

 

5. 영화 등급과 매출액간의 관계

 

다음은, 영화 등급(rate)과 매출액간의 관계를 살펴보겠습니다!

 

출처: 영상물등급위원회

 

현재 dataset에는 NC-17에 해당하는 청소년관람불가 등급의 영화는 존재하지 않고, 

R부터 G등급까지의 영화가 존재합니다. 

우리나라와는 영화등급을 매기는 방식이 조금 다르죠?

 

 

Box-Plot Chart를 통해

X-axis: Rating

Y-axis: worldwide_gross

를 설정하여 시각화합니다!

 

-전체관람가 G등급 보다는, 부모를 동반한 13세이하 관람가인 PG-13등급의 영화 매출액이 더 높게 나타났습니다.

-R등급의 영화의 매출액이 가장 낮은데, 17세이상으로 관람객이 한정되어서 관람객 범위가 줄어듦이 그 이유가 될 수 있겠네요!

-매출의 상위 outlier은 PG-13등급에 몰려있습니다. outlier(이상치)이 4개나 발견되었네요.

 

또, tree map을 통해 시각화를 해보니, PG-13 > PG > R > G 등급별로 매출액의 순서가 정렬되는 것을 한 눈에 확인할 수 있었습니다!

 

 

 

 

6. 영화 상영시간, Studio과 매출액 간의 관계

 

지금까지는 두 변수간의 관계를 시각화해봤는데요,

Brightics에서는 세 변수간의 관계Complex Chart를 통해 시각화할 수 있습니다!

 

Complex Chart의

Chart 1 설정창에서는 시각화 그래프의 두 큰 축과 Color변수를 설정해줍니다.

X-axis: Studio(영화사)

Y-axis: Average(worldwide_gross)

Color By: Main_Genre

 

Chart 2 설정창에서는 

X-axis: Studio → x축 변수는 Chart 1설정 그대로 두고, 

추가로 살펴보고 싶은 변수(상영시간의 평균)를

Y-axis: Average(length)

로 설정하였습니다. 

 

 

 

장르-상영시간-매출액의 관계가 위와 같이 시각화되었습니다!

scatter된 점들이 꼭 구슬아이스크림 같네요..

 

 

-대부분 상영시간의 평균은 비슷했으나, National Air and Space Museum사의 상영시간이 다른 영화사 작품들의 상영시간보다 현저히 적은 것을 확인할 수 있습니다. 매출액도 마찬가지로 낮네요! 그도 그럴것이.. 위 영화사는 사실 정식 영화사가 아니고, 워싱턴 DC에 있는 국립항공우주박물관인데요, 내부에 '록히드 마틴 아이맥스 극장'이 있어 항공우주 관련 영화를 종종 상영한다고 합니다! 타 영화사와 매출액과 상영시간에 있어 극명한 차이를 보일 수 밖에 없었네요.

-우측에서 두번째에 위치한 Studio는 Walt Disney사로, 영화 장르와 매출액의 분포가 가장 다양하고 넓은 모습을 보이고 있습니다. 마블과 픽사, 21세기 폭스를 인수한 초대형 영화사답네요!

 

 

 


이렇게 1975-2018 전세계 박스오피스 영화 데이터 분석을 마치도록 하겠습니다!

매번 실습을 진행할 때마다 다채롭고 흥미롭고,,또 쉽고 효율적인 기능들로 신선한 충격을 주는 브라이틱스..

더욱 열심히 공부하고 분석해보도록 하겠습니다:)

 

다음 포스팅에서 만나요!

 

 

 

-본 게시물은 Brightics 서포터즈 활동의 일환으로 작성된 포스팅 입니다.

728x90