일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- kaggle
- ProDS
- 삼성SDSBrightics
- Brightics서포터즈
- 브라이틱스서포터즈
- 상권배후지
- 삼성자격증
- 삼성sds
- AdSP
- 서울시상권분석
- 회귀모형평가
- EDA
- Datascientist
- 코딩없이데이터분석
- 분석모델링
- 데이터분석대외활동
- samsungsds
- 모델링
- 골목상권데이터분석
- associateDS
- 데이터전처리
- BrighticsStudio
- 브라이틱스
- Brightics
- 데이터분석
- IT멘토링
- houseprice
- Kaggle출전
- 브라이틱스데이터분석
- SDSBrightics
- Today
- Total
목록R (24)
Database for Everything

https://www.kaggle.com/code/mursideyarkin/mobile-games-ab-testing-with-cookie-cats/data Mobile Games AB Testing with Cookie Cats Explore and run machine learning code with Kaggle Notebooks | Using data from Mobile Games A/B Testing - Cookie Cats www.kaggle.com | A/B Test란? : 기존 서비스(A)와 새로 적용하고 싶은 서비스(B)를 통계적인 방법으로 비교하여 새로운 서비스가 기존 서비스에 비해 효과가 있는지 알아보는 방법 | A/B Test의 단계 1. 가설설정 2. 메트릭 정의 -가설이 참인지..

군집분석이란? 군집 분석은 비지도학습(Unsupervised learning) 분석 기법 중 하나로, 사전 정보 없이 자료를 컴퓨터에게 주고, “유사한 대상끼리 묶어보아라” 고 명령을 내리는 분석 방법이다. 따라서 군집분석에서는 어떤 변수를 컴퓨터에게 입력하느냐(주요 변수 선정과정)가 매우 중요한 고려사항이다. K-Means 군집분석이란? 군집 분석은 유사한 대상끼리 그룹핑 하는 분석이다. 여기서, 대상간의 유사도, 거리를 측정하는 방법에는 여러가지가 존재한다. K-means 군집 분석은 비계층적 군집 분석 방법을 사용하는데, 계산량이 적기 때문에 대용량 데이터도 빠르게 처리할 수 있다는 장점이 존재한다. K-means 군집 분석 알고리즘 분석자가 설정한 K개의 군집 중심점을 랜덤하게 선정 관측치를 가장..

분석 시나리오: 신용카드 고객데이터로 K-Means 군집분석을 수행하여 고객 Segementation에 활용하려고 한다. 해당 데이터는 아래 파일을 다운받아 사용하면 된다. Data Load 및 필요 라이브러리 호출 read.csv로 german_credit_data.csv 파일을 불러온 후, 필요한 라이브러리를 호출하였다. #데이터 load bank

실습 데이터 mushrooms.csv는 위에서 다운로드 하면 된다. 데이터 불러오기 및 확인 #데이터 load mushroom = read.csv("mushrooms.csv", header=T, stringsAsFactors = T) #데이터 확인 View(mushroom) str(mushroom) 'data.frame':8124 obs. of 23 variables: $ type : Factor w/ 2 levels "edible","poisonous": 2 1 1 2 1 1 1 1 2 1 ... $ cap_shape : Factor w/ 6 levels "bell","conical",..: 3 3 1 3 3 3 1 1 3 1 ... $ cap_surface : Factor w/ 4 levels "fi..

R Markdown이란? -마크다운 문법을 통해 R 데이터 분석 보고서를 생성하는 기능 -HTML, 워드, PDF 등 다양한 포맷으로 저장이 가능하며, 별도 문서 작성 소프트웨서 없이 R로 보고서 작성 가능 R studio > File > New File > R Markdown을 클릭 R markdown의 Title과 Author을 지정하고 나면 아래와 같이 출력된다. 이후 스크립트 창의 Knit을 누르면, HTML, PDF, Word 등으로 R 마크다운 문서를 생성할 수 있다. 예시 R Markdown 문서

이번 실습을 위한 데이터는 아래에서 다운받을 수 있다. (apple.csv) 데이터 Load 후 살펴보기 #의사결정나무 apple

Modeling 전 최종 data 확인 #Feature Engineering 이후 data str(data) 'data.frame':1309 obs. of 14 variables: $ PassengerId: int 1 2 3 4 5 6 7 8 9 10 ... $ Survived : Factor w/ 2 levels "No","Yes": 1 2 2 2 1 1 1 1 2 2 ... $ Pclass : Factor w/ 3 levels "1","2","3": 3 1 3 1 3 3 1 3 3 2 ... $ Sex : chr "male" "female" "female" "female" ... $ Age : num 22 38 26 35 35 ... $ SibSp : int 1 1 0 1 0 0 0 3 0 1 .....

이번 실습은 Feature Engineering 단계이다. Feature Engineering단계에서 모형의 성능을 향상시킬 수 있는 다양한 변수 처리를 할 수 있는데, EDA단계에서 탐색한 결과를 잘 반영하여 적용하면 모델 구현에 큰 도움이 된다. EDA를 통해 도출한 Feature Engineering IDEA 정리 Feature Engineering IDEA 1. Age 특정 나이대, 즉 영유아의 생존률이 상대적으로 굉장히 높음 → 영유아 여부에 따른 binomial variable 생성 Feature Engineering IDEA 2. SibSp & Parch 동승객에 대한 정보는 동승그룹에 대한 정보로 치환이 가능 → 즉, SibSp + Parch + 1(본인) = 동승그룹의 인원수로 변환 가능..

Cabin(객실 번호) 변수 #Cabin 변수 탐색 head_tail_cabin 3 변환 위한 문자열>팩터 변환 data$Embarked[which(data$Embarked == "")] % summarise(count=n()) %>% ggplot()+ geom_col(aes(x=Embarked, y=count, fill=Embarked)) 결측치를 S값으로 대체 후, Embarked 변수의 범주를 시각화해보았다. S값이 가장 많은 것으로 보인다. #Embarked Survived 관계 chisq.test(data$Embarked, data$Survived) Pearson's Chi-squared test data: data$Embarked and data$Survived X-squared = 25.96..