Review 20

[논문 실습] 페이스북 시계열예측 모델 | prophet with 제주도 관광객 예측

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 아래의 포스팅에서 공부해본 prophet을 제주도 관광객 데이터를 가지고 Python 실습해보려고 합니다. 이론적 설명이 필요하시면 아래의 [논문 리뷰]로 이동하시면 됩니다~ https://slowsteadystat.tistory.com/7?category=922379 [논문 리뷰] 페이스북 시계열예측 모델 | prophet 2017년 페이스북에서 공개한 시계열 예측 방법인 prophet 논문을 리뷰해보려고 합니다. prophet은 R/Python 라이브러리도 공개되어 있어서 적용하기도 쉽고 날짜 정보와 예측할 y만 있으면 되기 때문 slowsteadystat.tistory.com 여기서 분석해볼 데이터는 제주도의 월별 관광객 데이터입니다. 데이터 수집..

[Kaggle] IEEE-CIS fraud detection, 이상거래 탐지 캐글 1등 솔루션

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 이번 포스팅에서는 2년 전 캐글에서 3개월간 진행된 Fraud detection Competition에서 우승한 분의 분석 과정과 팁에 대해 배워보려고 합니다. 평소 관심 있었던 주제이기도 하고 1등 하는 사람들은 데이터 불균형 문제를 어떻게 해결하고 어떤 모델을 쓰는지가 무척 궁금했습니다. 이상치 탐지를 위한 새롭고 복잡한 방법론들이 많이 나오긴 했지만 실제 적용해봐도 성능이 좋은지 모르겠더라고요...ㅎ 제가 뭘 빠트리고 있는지 체크할 겸! IEEE-CIS fraud detection의 1등 솔루션을 번역 및 정리해보겠습니다. 0. Overview 식료품점의 계산대 앞에 긴 줄을 서고 계산원이 조용히 카드가 거부되었다고 발표한다고 상상해 보십시오. 이..

[논문 리뷰] 이미지 클러스터링 | Deep Adaptive Image Clustering(2017)

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 오늘은 이미지 클러스터링 방법론 중에 2017년 ICCV에 게재된 Deep Adaptive Image Clustering 논문을 리뷰해보려고 합니다. github에 코드도 공유되어서 가볍게 돌려보기도 좋습니다. 기존의 방법들과 어떤 게 다른지, 성능은 어떤지에 대해 간략하게 알아보도록 하겠습니다. 이번 포스팅에 사용된 사진과 문서는 모두 DAC 논문과 저자 발표 자료에서 발췌하였습니다. 0. basic approach 가장 일반적인? 기본적인? 이미지 군집화 방법은 CNN류의 레이어로 이미지들의 feature를 추출하고 그 feature들로 tabular 데이터에 사용하는 k-means와 같은 군집화 방법론을 적용하는 것입니다. 이 사이에 PCA를 추가..

[논문 리뷰] 이상치 탐지 | Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 이번 포스팅에서는 anomaly탐지를 위한 오토인코딩을 활용한 GMM논문을 간략하게 리뷰해보고 Kaggle의 Credit Card Data에 실습해보겠습니다. Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection(DAGMM) 논문은 링크에 걸어두었고 구현된 코드는 구글에 치면 여러가지가 나오는데 credit card data를 활용한 github를 첨부해두었습니다. 논문 리뷰에 앞서 GMM에 대해 간략하게 알아보겠습니다. 0. GMM이란? Gaussian Mixture Model(GMM)은 이름에서 알 수 있듯이 가우시안 분포가 혼합된 모델로 Clustering하는 방법입..

[도서 리뷰] 핸즈온 비지도 학습 | 3장 차원축소

핸즈온 비지도 학습국내도서저자 : 안쿠르 A. 파텔(Ankur A. Patel) / 강재원,권재철역출판 : 한빛미디어 2020.07.20상세보기 이번 포스팅에서는 핸즈온 비지도 학습 책에서 설명하는 차원 축소 방법들에 대해 간단히 알아보겠습니다. 차원축소 알고리즘은 고차원 데이터를 저차원 공간에 투영해 중복 정보를 제거하면서 가능한 핵심정보를 유지하는 방법입니다. 데이터를 낮은 차원으로 축소시키면 노이즈가 많이 줄어들어 머신러닝 알고리즘이 패턴을 더 효과적이고 효율적으로 식별할 수 있다고 합니다. 3.2 차원 축소 알고리즘 차원 축소에는 두 가지 유형이 있습니다. 선형투영 개념 : 고차원 공간에서 저차원 공간으로 선형적으로 데이터를 투영하는 방법 방법 : 주성분 분석(PCA), 특이값 분해(SVD), 랜..

[논문 리뷰] Helical time representation to visualize return-periods of spatio-temporal events(2017)

최근에 카카오톡에서 if라는 온라인 세미나?를 진행했었는데 그중 "이상 거래 탐지를 위한 실시간 데이터 처리와 금융사기 행동 분석"이 흥미로워 비슷한 컨셉의 논문을 찾아 공부해보았습니다. if.kakao.com/session/82 if(kakao)2020 오늘도 카카오는 일상을 바꾸는 중 if.kakao.com 카카오페이에서는 이상 거래를 탐지하기 위해 사용자의 과거의 행적을 사용한다고 합니다. 하지만 사용자의 데이터는 시간/날짜/액션이 있는데 이러한 데이터를 테이블 형식으로 보고 이번에 실행된 거래가 이상 거래인지 아닌지 판단하기가 쉽지 않습니다. 그래서 카카오페이에서는 Helix Structure를 활용하였는데 아래 그림처럼 기둥의 단면은 시간을 의미하고 z 축이 한 칸 올라가면 하루가 지나고 이벤트..