[삼성 SDS Brightics] 브라이틱스 함수 라이브러리-PALLETE_필요한 Function 찾는 방법
안녕하세요! yeenn입니다.
이제 개인 분석과제가 끝나가고,,, 곧 팀 미션이 시작되는데
팀원분들과 새로운 분석 프로젝트, 홍보미션을 진행할 생각에 설레는 하루하루를 보내고 있습니다ㅎㅎ
이번 포스팅을 작성하게 된 계기는 브라이틱스 Function 활용때문인데요..!
아시다시피, 브라이틱스는 Work Flow Model 에서 다양한 Function들을 추가하며 데이터분석을 진행할 수 있는데,
워낙 다양한 상황에 쓰이는 다양한 함수들이 있다보니
이런 함수들을 사용하는 case별로 한눈에 확인할 수 있는 방법에 대해 궁금해하시는 분들도 있을 것 같아요!
브라이틱스의 Work Flow Model 우측 상단에 위치한 PALLETE를 보시면, Function tab이 있는데요,
이 Function 탭은 브라이틱스 내부에서 쓸 수 있는 여러 함수 및 데이터를 한 눈에 알아볼 수 있도록 여러 기능을 제공하고 있습니다!
특정한 데이터 분석 상황에 어떤 기능을 사용할지 모르겠다면, 이 PALLETE를 열어서 해당 Function을 추가하여 사용하시면 됩니다.
다만, 이 브라이틱스 함수들은 지속적으로 추가되고, 또 업데이트되고 있기 때문에 아래에 정리한 함수들과는 달라진 부분이 있을 수 있다는 점 유의해주시기 바라고, 혹시 변경사항이 확인되면 포스팅 내용에 수정 반영하도록 하겠습니다:)
아래는 PALLETE에 있는 기능별 함수들을 그대로 정리한 내용인데요,
1. 스크롤을 내리며 필요한 함수를 찾으셔도 되고,
2. Ctrl+F 를 누르시고, function 또는 function 설명들을 검색하셔서 필요한 함수들을 찾으셔도 됩니다!
★ ctrl+f 검색 keyword:
파일 입출력/분석 프로세스/컨트롤 플로우/데이터 추출/데이터 조작/데이터 변환/데이터 결합/데이터 전처리/통계 분석/T-test/ANOVA/차이/분류/회귀분석/군집/시계열 분석/추천/협업 필터링/연관분석/텍스트 분석/모델 평가/코드
[PALLETE 속 기능별 함수 정리]
(2021.06.28기준)
I/O
-파일 입출력과 관련된 기능이 모아져 있습니다.
-보통은 CSV와 같은 로컬파일을 읽거나, 또는 DB와 직접 연결하여 데이터를 꺼내오고 다시 집어넣는역할을 합니다.
- Load
- Unload
- Create Table
- Load Model
- Unload Model
- Read CSV
- Write CSV
- Read Excel
- Read from DB
- Write to DB
- Read from S3
- Write to S3
Process
-분석 프로세스의 흐름과 관련한 기능이 있습니다.
- Set Value
Control
-data flow를 총괄하는 역할을 하는 기능입니다.
-만약 분석프로세스대로 기능을 나누어 브라이틱스에 저장했다면, 이를 한꺼번에 실행시키는 로직도 필요할 텐데요, 이 때 컨트롤 플로우를 이용하면 됩니다.
- Condition
- For Loop
- While Loop
- Flow
Extraction
-데이터를 추출하는데 쓰는 함수들입니다.
-이동평균값을 내거나, PCA 등을 통해 데이터들의 이면을 추출해내는 등의 역할을 합니다.
- Add Column
- Add Function Column
- Add Function Columns
- Add Lead Lag
- Add Row Number
- Array to Columns
- Columns To Array
- Binarizer
- Bucketizer
- Discretize Quantile
- Datetime Formatter
- Decompose Datetime
- Extend Datetime
- Shift Datetime
- EWMA
- Moving Average
- Label Encoder
- Label Encoder Model
- One Hot Encoder
- One Hot Encoder Model
- Capitalize Variable
- Normalization
- Normalization Model
- Polynominal Expansion
- String Split
Manipulation
-데이터 조작과 관련한 기능입니다.
- Filter
- Outlier Detection(Local Outlier Factor)
- Outlier Detection(Local Outlier Factor) Model
- Outlier Detection(Turkey/Carling)
- Outlier Detection(Turkey/Carling) Model
- Replace Missing Number
- Replace Mssing String
- Replace String Variable
- Sort
Transform
-데이터의 형태를 바꾸는 역할을 가진 함수들입니다. (데이터 변환, 데이터 결합)
-피벗테이블과 같은 경우가 대표적인데, 열과 행을 바꾸거나, 특정 모양을 바꾸거나 한다면 이 곳에서 함수를 찾아서 사용하시면 됩니다.
-데이터 전처리과정에서 가장 많이 사용되는 함수들입니다.
- Bind Row Column
- Select Column
- Delete Missing Data
- Distinct
- Flatten Json
- Get Table
- Join
- Linear Sampling
- Over Sampling(SMOTE)
- Under Sampling(Cluster Centroids)
- Random Sampling
- Pivot
- Unpivot
- LDA
- LDA Model
- PCA
- PCA Model
- SVD
- SVD Model
- t-SNE
- Correlation Filter
- Variance Filter
- Savitzky-Golay Filter
- Split Data
- Transpose
- Transpose Time Series
- Explode and Unexplode
Statistics
-통계 분석과 관련된 함수들이 위치되어 있습니다.
-T-test 부터 ANOVA까지 통계적으로 검증하고, 이를 통해 차이 등을 확인하는 함수가 있습니다.
- Bartlett's Test
- Chi-Square Test of Independence
- Correlation
- Cross Table
- Duncun Test
- F Test For Stacked Data
- Friedman Test
- Kernel Density Estimation
- Kruskal Wallis Test
- Levene's Test
- Ljung-Box Test
- Mann Whitney Test
- Normality Test
- One Sample T Test
- Two Sample T Test for Stacked Data
- Paired T Test
- One Way ANOVA
- Two Way ANOVA
- Pair Plot
- Profile Table
- Statistic Summary
- Statistic Derivation
- String Summary
- Turkey's Range Test
- Wilcoxon Test
Classification
-분류를 하기 위한 함수입니다.
- AdaBoost Classification Train
- AdaBoost Classification Predict
- Decision Tree Classification Train
- Decision Tree Classification Predict
- KNN Classification
- Logistic Regression Train
- Logistic Regression Predict
- MLP Classification Train
- MLP Classification Predict
- Naive Bayes Train
- Naive Bayes Predict
- Random Forest Classification Train
- Random Forest Classification Predict
- SVM Classification Train
- SVM Classification Predict
- XGB Classification Train
- XGB Classification Predict
- Classification Predict
Regression
-회귀분석을 위한 함수입니다.
- AdaBoost Regression Train
- AdaBoost Regression Predict
- Decision Tree Regression Train
- Decision Tree Regression Predict
- GLM Train
- GLM Predict
- Isotonic Regression Train
- Isotonic Regression Predict
- KNN Regression
- Linear Regression Train
- Linder Regression Predict
- MLP Regression Train
- MLP Regression Predict
- Penalized Linear Regression Train
- Penalized Linear Regression Predict
- PLS Regression Train
- PLS Regression Predict
- Random Forest Regression Train
- Random Forest Regression Predict
- XGB Regression Train
- XGB Regression Predict
- Regression Predict
Clustering
-데이터들의 군집을 나누기 위한 함수입니다.
- Agglomerative Clustering
- Gaussian Mixture
- Gaussian Mixture Predict
- Hierarchical Clustering
- Hierarchical Clustering Post Process
- K-Means
- K-Means(Silhouette)
- K-Means Predict
- Mean Shift
- Mean Shift Predict
- Spectral Clustering
- Clustering Predict
Time Series
-시계열 분석에 필요한 함수들입니다.
- ARIMA Train
- ARIMA Predict
- Auto ARIMA Train
- Auto ARIMA Predict
- Holt-Winters Train
- Holt-Winters Predict
- AutoCorrelation
- Time Series Decomposition
- Time Series Distance
- Unit Root Test
Recommendation
-추천에 관련된 함수로서, 협업 필터링과 연관성 분석등의 함수를 제공합니다.
- ALS Train
- ALS Predict
- ALS Recommend
- Association Rule
- Association Rule Visualization
- Collaborative Filtering Train
- Collaborative Filtering Predict
- Collaborative Filtering Recommend
Text Analytics
-텍스트 분석에 관련된 함수입니다.
- Tokenizer(Korean)
- Tokenizer(English)
- Stopwords Remover
- Synonym Converter
- Doc2Vec
- Doc2Vec Model
- Word2Vec
- Word2Vec Model
- Word2Vec Similarity
- Documents Summarizer(Korean)
- Documents Summarizer(English)
- Bag of Words
- Document-document Matrix
- Term-document Matrix
- Term-term Matrix
- TF-IDF
- Extract Sentimental Words
- Latent Dirichlet Allocation
- GSDMM
- Dynamic Topic Modeling
- Document Influence Model
- Topic Name Extraction
- NGram
- Split Sentences
- Text Search
- Regular Expression
- NER(English)
- NER CRF Train
- NER CRF Predict
Evaluation
-모델을 만든 후에, 모델을 평가하는 함수입니다. (모델 평가)
- Evaluate Classification
- Evaluate Regression
- Evaluate Ranking Algorithm
- Plot ROC and PR Curves
Script
-브라이틱스의 기본 제공 함수 외에도 자신만의 코드를 작성하고자 할 때 사용합니다.
- Query Executor
- Fast Query Executor
- Python Script
-본 게시물은 Brightics 서포터즈 활동의 일환으로 작성된 포스팅 입니다.