전체 글 37

[도서 리뷰] Introducing MLOps, MLOps 도입가이드 part2

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 아래 part1에 이어 MLOps 도입 가이드 도서 정리하였습니다. 본 포스팅에서는 상용 배포, 모니터링과 피드백 루프 챕터에 대한 내용을 다룹니다. 2022.10.27 - [Review/도서 리뷰] - [도서 리뷰] Introducing MLOps, MLOps 도입가이드 part1 [도서 리뷰] Introducing MLOps, MLOps 도입가이드 part1 ML모델 관련 구글링을 하다 보면 DevOps와 비슷한 MLOps라는 용어를 손쉽게 접할 수 있습니다. 저는 처음에는 당장 필요하지 않아 보여 관심을 두지 않았는데, 회사에서 모델을 배포/서빙을 하거나 slowsteadystat.tistory.com Ch6. 상용배포 머신러닝 상용 배포 시 알아..

[도서 리뷰] Introducing MLOps, MLOps 도입가이드 part1

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) ML모델 관련 구글링을 하다 보면 DevOps와 비슷한 MLOps라는 용어를 손쉽게 접할 수 있습니다. 저는 처음에는 당장 필요하지 않아 보여 관심을 두지 않았는데, 회사에서 모델을 배포/서빙을 하거나 개인 프로젝트를 하더라도 API를 만들어 서비스가 가능한 모델을 만들려면 MLOps에 대한 배경지식이 필요하게 됩니다. 본 포스팅은 Introducing MLOps, MLOps 도입 가이드를 읽으며 MLOps를 구상하는데 도움이 되는 부분을 정리하였습니다. https://product.kyobobook.co.kr/detail/S000001810502 MLOps 도입 가이드 | 데이터이쿠 - 교보문고 MLOps 도입 가이드 | MLOps의 개념부터 도입과 ..

DBSCAN 차근차근 이해하기

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 오늘은 클러스터링 방법 중에 널리 사용되는 DBSCAN에 대해 정리해보겠습니다. 성능이 괜찮다하니 그냥 무작정 코드만 갖다 쓰다가 이건 왜 predict가 안되는 걸까 의문이 생겨 DBSCAN이 어떻게 군집을 형성하는지 찾아보았는데요. 작은 개념부터 차근차근 살펴보도록 하겠습니다. 0. DBSCAN?! DBSCAN(Density-based spatial clustering of application with noise) 이름 그대로 밀도기반 클러스터링 방법 입니다. 비계층적 군집화 방법에는 크게 distance-based 방법과 density-based 방법이 있는데, 군집분석을 하면 가장 처음 접하는 k-means clustering은 distance..

Algorithm 2022.10.19

PyOD 라이브러리로 간단하게 이상치 탐지하기

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 이상치 탐지를 하다 보면 데이터에 맞는 방법들이 있어 여러 가지 방법들을 적용해보는 편인데, 아무래도 일관성이 떨어지다 보니 이런 방법론들이 모여있는 라이브러리가 없을까?! 하고 찾던 중 PyOD를 발견하게 되어 정리를 해봅니다. 풀네임이 Python Outlier Detection인 PyOD는 다변량 데이터에 적용 가능한 이상치 탐지 방법론들이 30개 이상 구현되어 있는 라이브러리입니다. 가장 기본적인 LOF부터 HBOS, OCSVM, IForest와 제가 좋아하는 AutoEncoder와 VAE까지 방법론이 너무 많아 우선 여기 있는 이상치 탐지 방법론부터 공부해봐도 좋겠다 생각이 들었습니다. 예전에 나온 방법론뿐 아니라 2022년에 나온 ECOD라는..

Programming/Python 2022.10.19

[Kaggle] TPSMAR22, Temporal Fusion Transform 써보기(Private 4등!!!)

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 캐글에서 Tabular Playground Series라고 캐글 초보자들을 위한 Tabular 형식의 데이터 분석 과제를 매 달 만들어 주고 있습니다. playground series는 캐글의 다른 대회와는 성격이 조금 다른데, Tabular 데이터를 제공해 누구나 접근할 수 있는 문제를 제시하여 비기너들이 학습하고 성장하는 것을 목표로 합니다. 그래서 타 대회는 상금이 있는 반면, TPS는 상위 3개 팀에게 Kaggle Merchandise를 줍니다. 저도 언젠가 받을 수 있겠죠...? 아직 진행 중이지만, 추후 코드/아이디어 재활용을 위한 기록을 남겨봅니다. 0. TPSMAR22 3월 TPS에서는 미국의 도로 정체를 예측하는 과제를 풀게 됩니다. h..

[논문 리뷰] 정형 데이터를 위한 딥러닝 | Tabnet

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 2019년 구글에서 개발한 tabular data 분석을 위한 딥러닝 아키텍처인 Tabnet에 대해 간단하게 알아보겠습니다. 캐글이나 데이콘과 같은 여러 대회에서 tabular data 분석은 주로 Xgboost나 lightGBM과 같은 트리 기반 모델들의 앙상블 모델이 상위권을 차지하고 있습니다. 이미지나 텍스트, 오디오와 같은 비정형 분석에서 주로 딥러닝이 활용되고 뛰어난 성능을 보이는데 왜 정형 데이터에서는 아직 트리 기반의 방법론들이 우세한 걸까요? Tabnet의 저자들도 이러한 부분을 언급하며 딥러닝의 장점과 트리의 장점을 가지는? 트리와 비슷?하게 학습해가는 a novel high-performance and interpretable 딥러닝 ..