삼성 SDS Brightics

[삼성 SDS Brightics] Kaggle 1975-2018년 전세계 영화 박스 오피스 매출액 분석하기 ① - Data Load 오류 해결

Yeenn 2021. 6. 18. 19:19
728x90

 

안녕하세요! 

벌써 여름이 된 것 같으면서도 아직은 낮에도 선선한 바람이 불어서..

한여름이 되어 더워지기 전 마지막이 될(?) 시원한 여름을 나름 즐겨보려고 노력중인 요즘입니다.

 

 

이번에는 Kaggle의 공개 dataset 중 하나인 

"Top 10 High Grossing Films"를 분석해보겠습니다. 

 

해당 dataset은 아래 링크에서 다운받을 수 있습니다!

https://www.kaggle.com/bidyutchanda/top-10-highest-grossing-films-19752018

 

Top 10 Highest Grossing Films (1975-2018)

The highest grossing Hollywood films of each year from 1975 to 2018

www.kaggle.com

 

링크로 들어가서, 페이지 오른쪽 상단의 Download(40KB) 버튼을 눌러주시면 다운로드가 시작됩니다.

 

 


 

Dataset 변수 구성
변수(Variable) 정의(Definition)
Main_Genre 메인 장르
Genre_2 세부 장르2
Genre_3 세부 장르3
imdb_rating 영화 평점
length 영화 상영 시간
rank_in_year 당해 순위
rating 영화 등급
studio 영화사
title 영화 제목
worldwide_gross 전세계 매출액
year 연도

 

 

 

1. 데이터 Load

 

'Movie' Model을 생성해준 후, 

 

Delimiters를 Comma로 설정하여

 

Data를 load하려는데....

문제가 발생했습니다..!

 

Data Load 단계에서 오류가 발생하는 경우는 처음 겪어봐서 살짝 당황했지만..

(사실은 외부 데이터를 이용하여 데이터 분석을 진행할 때 정말 흔히 마주할 수 있는 문제상황이죠☆)

원만하게 해결하고 분석으로 넘어가보도록 하겠습니다!

 

 

0. Raw Dataset 오류 수정

 

오류창의 Detail을 클릭하여 문제가 되는 행을 파악해보았습니다.

 

친절한 Brightics는 error position까지 알려주네요!

133row에 에러가 발생했다고 하여, 원본 dataset의 해당 위치를 확인해보았습니다.

 

Movie title column에서 ,(쉼표) 때문에 error가 발생한 것을 확인할 수 있었습니다. 

그렇다면 이 부분 하나만 수정을 하면 해결될 문제..가 아니겠죠?

 

data load에 문제가 될 수 있는 모든 comma를 제거하기 위해,

Movie 이름 Column을 전체 선택한 후, 

 

엑셀 우측 상단에 있는 돋보기 모양 밑의 찾기 및 선택 > 바꾸기 항목을 클릭하여 

 

찾을 내용 (') → 바꿀내용 () 으로 입력한 다음, 모두 바꾸기 버튼을 눌러주면 됩니다.

바꿀 내용은 공란으로 두어야 해요!

 

※ 만약, 제거를 할 수 없는 기호 또는 문자일 경우, '_'등의 기호로 대체하여도 무방합니다.

 

총 6개 행의 ,(쉼표)가 제거되었습니다.!

 

 

이렇게 movie title column의 ,(쉼표) 는 모두 제거가 완료되었으나,

매출액 worldwide_gross의 경우, '$'기호와 함께 1000단위 ,(쉼표)가 들어가 있어 수정작업을 진행했습니다.

분석을 위해서는 해당 data type이 Double(숫자형 변수)가 되어야 하나, '$'기호로 인해 String(문자열 변수)로 인식이 되더라구요.

두 기호를 모두 제거해주기로 하였습니다.

 

worldwide_gross column을 전체선택한 후, 마우스 우클릭을 통해 셀서식 항목에 들어가

표시형식의 숫자항목 > "1000단위 구분 기호(,) 사용"을 해제해줍니다.

 

통화항목>의 기호'없음' 으로 변경해줍니다. 

 

드디어 정상적으로 data load가 마무리 되었습니다!

다음 포스팅은, 위 데이터를 통해 전세게 영화 박스오피스 매출액을 분석하고, 시각화해보도록 하겠습니다.

 

 

 

 

 

-본 게시물은 Brightics 서포터즈 활동의 일환으로 작성된 포스팅 입니다.

 

728x90