삼성 SDS Brightics

[삼성 SDS Brightics] 브라이틱스 함수 라이브러리-PALLETE_필요한 Function 찾는 방법

Yeenn 2021. 6. 28. 18:23
728x90

 

 

안녕하세요! yeenn입니다.

이제 개인 분석과제가 끝나가고,,, 곧 팀 미션이 시작되는데 

팀원분들과 새로운 분석 프로젝트, 홍보미션을 진행할 생각에 설레는 하루하루를 보내고 있습니다ㅎㅎ

 

 

이번 포스팅을 작성하게 된 계기는 브라이틱스 Function 활용때문인데요..!

 

아시다시피, 브라이틱스는 Work Flow Model 에서 다양한 Function들을 추가하며 데이터분석을 진행할 수 있는데, 

워낙 다양한 상황에 쓰이는 다양한 함수들이 있다보니

이런 함수들을 사용하는 case별로 한눈에 확인할 수 있는 방법에 대해 궁금해하시는 분들도 있을 것 같아요!

 

 

 

 

 

 

브라이틱스의 Work Flow Model 우측 상단에 위치한 PALLETE를 보시면, Function tab이 있는데요, 

이 Function 탭은 브라이틱스 내부에서 쓸 수 있는 여러 함수 및 데이터를 한 눈에 알아볼 수 있도록 여러 기능을 제공하고 있습니다!

 

특정한 데이터 분석 상황에 어떤 기능을 사용할지 모르겠다면, 이 PALLETE를 열어서 해당 Function을 추가하여 사용하시면 됩니다.

 

다만, 이 브라이틱스 함수들은 지속적으로 추가되고, 또 업데이트되고 있기 때문에 아래에 정리한 함수들과는 달라진 부분이 있을 수 있다는 점 유의해주시기 바라고, 혹시 변경사항이 확인되면 포스팅 내용에 수정 반영하도록 하겠습니다:)

 

 

 

아래는 PALLETE에 있는 기능별 함수들을 그대로 정리한 내용인데요,

 

 

1. 스크롤을 내리며 필요한 함수를 찾으셔도 되고, 

2. Ctrl+F 를 누르시고, function 또는 function 설명들을 검색하셔서 필요한 함수들을 찾으셔도 됩니다!

 

 

★ ctrl+f 검색 keyword:

파일 입출력/분석 프로세스/컨트롤 플로우/데이터 추출/데이터 조작/데이터 변환/데이터 결합/데이터 전처리/통계 분석/T-test/ANOVA/차이/분류/회귀분석/군집/시계열 분석/추천/협업 필터링/연관분석/텍스트 분석/모델 평가/코드

 

 


 

[PALLETE 속 기능별 함수 정리]

(2021.06.28기준)

 

 

 

I/O
-파일 입출력과 관련된 기능이 모아져 있습니다.
-보통은 CSV와 같은 로컬파일을 읽거나, 또는 DB와 직접 연결하여 데이터를 꺼내오고 다시 집어넣는역할을 합니다.

  • Load
  • Unload
  • Create Table
  • Load Model
  • Unload Model
  • Read CSV
  • Write CSV
  • Read Excel
  • Read from DB
  • Write to DB
  • Read from S3
  • Write to S3

 

 

Process

-분석 프로세스의 흐름과 관련한 기능이 있습니다.

  • Set Value

 

 

Control

-data flow를 총괄하는 역할을 하는 기능입니다.

-만약 분석프로세스대로 기능을 나누어 브라이틱스에 저장했다면, 이를 한꺼번에 실행시키는 로직도 필요할 텐데요, 이 때 컨트롤 플로우를 이용하면 됩니다.

  • Condition
  • For Loop
  • While Loop
  • Flow

 

 

Extraction

-데이터를 추출하는데 쓰는 함수들입니다. 

-이동평균값을 내거나, PCA 등을 통해 데이터들의 이면을 추출해내는 등의 역할을 합니다.

  • Add Column
  • Add Function Column
  • Add Function Columns
  • Add Lead Lag
  • Add Row Number
  • Array to Columns
  • Columns To Array
  • Binarizer
  • Bucketizer
  • Discretize Quantile
  • Datetime Formatter
  • Decompose Datetime
  • Extend Datetime
  • Shift Datetime
  • EWMA
  • Moving Average
  • Label Encoder
  • Label Encoder Model
  • One Hot Encoder
  • One Hot Encoder Model
  • Capitalize Variable
  • Normalization 
  • Normalization Model
  • Polynominal Expansion
  • String Split

 

 

Manipulation

-데이터 조작과 관련한 기능입니다.

  • Filter
  • Outlier Detection(Local Outlier Factor)
  • Outlier Detection(Local Outlier Factor) Model
  • Outlier Detection(Turkey/Carling)
  • Outlier Detection(Turkey/Carling) Model
  • Replace Missing Number
  • Replace Mssing String
  • Replace String Variable
  • Sort

 

 

Transform

-데이터의 형태를 바꾸는 역할을 가진 함수들입니다. (데이터 변환, 데이터 결합)

-피벗테이블과 같은 경우가 대표적인데, 열과 행을 바꾸거나, 특정 모양을 바꾸거나 한다면 이 곳에서 함수를 찾아서 사용하시면 됩니다.

-데이터 전처리과정에서 가장 많이 사용되는 함수들입니다.

  • Bind Row Column
  • Select Column
  • Delete Missing Data
  • Distinct
  • Flatten Json
  • Get Table
  • Join
  • Linear Sampling
  • Over Sampling(SMOTE)
  • Under Sampling(Cluster Centroids)
  • Random Sampling
  • Pivot
  • Unpivot
  • LDA
  • LDA Model
  • PCA
  • PCA Model
  • SVD
  • SVD Model
  • t-SNE
  • Correlation Filter
  • Variance Filter
  • Savitzky-Golay Filter
  • Split Data
  • Transpose
  • Transpose Time Series
  • Explode and Unexplode

 

 

Statistics

-통계 분석과 관련된 함수들이 위치되어 있습니다.

-T-test 부터 ANOVA까지 통계적으로 검증하고, 이를 통해 차이 등을 확인하는 함수가 있습니다.

  • Bartlett's Test
  • Chi-Square Test of Independence
  • Correlation
  • Cross Table
  • Duncun Test
  • F Test For Stacked Data
  • Friedman Test
  • Kernel Density Estimation
  • Kruskal Wallis Test
  • Levene's Test
  • Ljung-Box Test
  • Mann Whitney Test
  • Normality Test
  • One Sample T Test
  • Two Sample T Test for Stacked Data
  • Paired T Test
  • One Way ANOVA
  • Two Way ANOVA
  • Pair Plot
  • Profile Table
  • Statistic Summary
  • Statistic Derivation
  • String Summary
  • Turkey's Range Test
  • Wilcoxon Test

 

 

Classification

-분류를 하기 위한 함수입니다.

  • AdaBoost Classification Train
  • AdaBoost Classification Predict
  • Decision Tree Classification Train
  • Decision Tree Classification Predict
  • KNN Classification 
  • Logistic Regression Train
  • Logistic Regression Predict
  • MLP Classification Train
  • MLP Classification Predict
  • Naive Bayes Train
  • Naive Bayes Predict
  • Random Forest Classification Train
  • Random Forest Classification Predict
  • SVM Classification Train
  • SVM Classification Predict
  • XGB Classification Train
  • XGB Classification Predict
  • Classification Predict

 

 

Regression

-회귀분석을 위한 함수입니다.

  • AdaBoost Regression Train
  • AdaBoost Regression Predict
  • Decision Tree Regression Train
  • Decision Tree Regression Predict
  • GLM Train
  • GLM Predict
  • Isotonic Regression Train
  • Isotonic Regression Predict
  • KNN Regression
  • Linear Regression Train
  • Linder Regression Predict
  • MLP Regression Train
  • MLP Regression Predict
  • Penalized Linear Regression Train
  • Penalized Linear Regression Predict
  • PLS Regression Train
  • PLS Regression Predict
  • Random Forest Regression Train
  • Random Forest Regression Predict
  • XGB Regression Train
  • XGB Regression Predict
  • Regression Predict

 

 

Clustering

-데이터들의 군집을 나누기 위한 함수입니다.

  • Agglomerative Clustering
  • Gaussian Mixture
  • Gaussian Mixture Predict
  • Hierarchical Clustering
  • Hierarchical Clustering Post Process
  • K-Means
  • K-Means(Silhouette)
  • K-Means Predict
  • Mean Shift
  • Mean Shift Predict
  • Spectral Clustering
  • Clustering Predict

 

 

Time Series

-시계열 분석에 필요한 함수들입니다.

  • ARIMA Train
  • ARIMA Predict
  • Auto ARIMA Train
  • Auto ARIMA Predict
  • Holt-Winters Train
  • Holt-Winters Predict
  • AutoCorrelation
  • Time Series Decomposition
  • Time Series Distance
  • Unit Root Test

 

 

Recommendation

-추천에 관련된 함수로서, 협업 필터링과 연관성 분석등의 함수를 제공합니다.

  • ALS Train
  • ALS Predict
  • ALS Recommend
  • Association Rule
  • Association Rule Visualization
  • Collaborative Filtering Train
  • Collaborative Filtering Predict 
  • Collaborative Filtering Recommend

 

 

Text Analytics

-텍스트 분석에 관련된 함수입니다.

  • Tokenizer(Korean)
  • Tokenizer(English)
  • Stopwords Remover
  • Synonym Converter
  • Doc2Vec
  • Doc2Vec Model
  • Word2Vec
  • Word2Vec Model
  • Word2Vec Similarity
  • Documents Summarizer(Korean)
  • Documents Summarizer(English)
  • Bag of Words
  • Document-document Matrix
  • Term-document Matrix
  • Term-term Matrix
  • TF-IDF
  • Extract Sentimental Words
  • Latent Dirichlet Allocation
  • GSDMM
  • Dynamic Topic Modeling
  • Document Influence Model
  • Topic Name Extraction
  • NGram
  • Split Sentences
  • Text Search
  • Regular Expression
  • NER(English)
  • NER CRF Train
  • NER CRF Predict

 

 

Evaluation

-모델을 만든 후에, 모델을 평가하는 함수입니다. (모델 평가)

  • Evaluate Classification
  • Evaluate Regression
  • Evaluate Ranking Algorithm
  • Plot ROC and PR Curves

 

 

Script

-브라이틱스의 기본 제공 함수 외에도 자신만의 코드를 작성하고자 할 때 사용합니다.

  • Query Executor
  • Fast Query Executor
  • Python Script

 

 

 

 


-본 게시물은 Brightics 서포터즈 활동의 일환으로 작성된 포스팅 입니다.

728x90