Algorithm 5

추천 시스템 | TensorFlow Recommenders 리뷰 & 실습

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 이번 포스트에서는 2020년 9월에 공개된 추천시스템 라이브러리인 TensorFlow Recommenders의 대략적인 컨셉에 대해 알아보고 예제 데이터로 모델이 어떻게 돌아가지는 지 살펴보겠습니다. 최근 추천 관련 대회를 준비하면서 여러 가지 추천 방법론을 시도해 보았는데, 그중 나름 성능이 괜찮았던 TFRS에 대해 한번 정리해보려고 합니다. 추천 시스템?! 일상생활에서 많이 접해보셨을텐데요, 사용자의 취향에 맞는 상품, 컨텐츠를 추천해 주어 사용자에게는 맞춤 서비스를 제공할 수 있고 기업에서는 매출을 증가시키거나 사이트 체류시간을 높일 수 있을 것 입니다. McKindsey의 조사에 따르면, 아래와 같이 각종 서비스에서 추천 시스템은 주요한 역할을 ..

Algorithm 2023.11.14

DBSCAN 차근차근 이해하기

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 오늘은 클러스터링 방법 중에 널리 사용되는 DBSCAN에 대해 정리해보겠습니다. 성능이 괜찮다하니 그냥 무작정 코드만 갖다 쓰다가 이건 왜 predict가 안되는 걸까 의문이 생겨 DBSCAN이 어떻게 군집을 형성하는지 찾아보았는데요. 작은 개념부터 차근차근 살펴보도록 하겠습니다. 0. DBSCAN?! DBSCAN(Density-based spatial clustering of application with noise) 이름 그대로 밀도기반 클러스터링 방법 입니다. 비계층적 군집화 방법에는 크게 distance-based 방법과 density-based 방법이 있는데, 군집분석을 하면 가장 처음 접하는 k-means clustering은 distance..

Algorithm 2022.10.19

모델 앙상블 방법 | Stacking, Blending, Voting

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 본 포스팅은 아래 블로그를 번역하여 작성하였으며, 중간중간 이해가 잘 안 되는 부분들에 내용 추가하였습니다. https://towardsdatascience.com/ensemble-learning-stacking-blending-voting-b37737c4f483 Ensemble Learning: Stacking, Blending & Voting If you want to increase the effectiveness of your ML model, maybe you should consider Ensemble Learning towardsdatascience.com 앙상블 학습이란? 분류나 회귀 등의 문제를 풀기 위해 ML 알고리즘을 jointly ..

Algorithm 2022.10.19

[최적해 찾기] Multiple response optimization

우리는 종종 모델을 만들고 그 모델을 분석 목적에 맞게 최적화해야 하는 상황에 직면하게 됩니다. 예를 들어, 모델1과 모델2는 trade-off 관계라 하나가 증가하면 하나는 감소한다면 두 모델을 동시에 작게 하는 feature의 조합을 찾기란 쉽지 않을 것입니다. 따라서 우리는 이 두가지 모델을 적절하게 작게 하는 타협점을 찾아야 합니다. 여기서 multiple reponse optimization이 출발하게 됩니다. 만약 X1, X2, X3에 따라 움직이는 Y1과 Y2이 있다고 가정했을 때, Y1와 Y2를 동시에 작게 하는 X1, X2, X3의 최적해를 찾을 수 있습니다. (물론 Y를 각각 크게 또는 작게 하는 최적 X1, X2, X3도 찾을 수 있겠죠?!) 만족도함수를 활용한 최적해를 찾기 위한 방..

Algorithm 2022.10.19

[데이터 전처리] Yeo Johnson 변환

모델링의 가장 기본이 되는 선형 회귀모델을 적합할 때는 4가지 기본 가정을 만족해야 한다. 다음과 같은 회귀모델이 있다고 하면, 1. 선형성 : 독립변수(X)와 종속변수(Y) 간의 선형 관계 존재 2. 독립성 : 오차항 epsilon 간 서로 독립 3. 등분산성 : 오차항 epsilon들의 분산이 일정 4. 정규성 : 오차항 epsilon은 평균이 0인 정규분포를 따름 오늘은 선형 회귀 적합시, 정규성이나 등분산성 가정을 만족하지 않는 경우 처리하는 방법에 대해 알아보려고 한다. 모델링을 할 때, 한쪽으로 쏠린 데이터나, 잔차 그래프에서 점점 분산이 커지는 것을 데이터를 만나는 경우가 많은데 이경우 적용할 수 있는 방법 중 하나가 Y를 변환해주는 것이다. Box-Cox변환을 일반적으로 많이 사용하고 있다..

Algorithm 2022.10.19