Data Science 39

[Kaggle] IEEE-CIS fraud detection, 이상거래 탐지 캐글 1등 솔루션

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 이번 포스팅에서는 2년 전 캐글에서 3개월간 진행된 Fraud detection Competition에서 우승한 분의 분석 과정과 팁에 대해 배워보려고 합니다. 평소 관심 있었던 주제이기도 하고 1등 하는 사람들은 데이터 불균형 문제를 어떻게 해결하고 어떤 모델을 쓰는지가 무척 궁금했습니다. 이상치 탐지를 위한 새롭고 복잡한 방법론들이 많이 나오긴 했지만 실제 적용해봐도 성능이 좋은지 모르겠더라고요...ㅎ 제가 뭘 빠트리고 있는지 체크할 겸! IEEE-CIS fraud detection의 1등 솔루션을 번역 및 정리해보겠습니다. 0. Overview 식료품점의 계산대 앞에 긴 줄을 서고 계산원이 조용히 카드가 거부되었다고 발표한다고 상상해 보십시오. 이..

[논문 리뷰] 이미지 클러스터링 | Deep Adaptive Image Clustering(2017)

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 오늘은 이미지 클러스터링 방법론 중에 2017년 ICCV에 게재된 Deep Adaptive Image Clustering 논문을 리뷰해보려고 합니다. github에 코드도 공유되어서 가볍게 돌려보기도 좋습니다. 기존의 방법들과 어떤 게 다른지, 성능은 어떤지에 대해 간략하게 알아보도록 하겠습니다. 이번 포스팅에 사용된 사진과 문서는 모두 DAC 논문과 저자 발표 자료에서 발췌하였습니다. 0. basic approach 가장 일반적인? 기본적인? 이미지 군집화 방법은 CNN류의 레이어로 이미지들의 feature를 추출하고 그 feature들로 tabular 데이터에 사용하는 k-means와 같은 군집화 방법론을 적용하는 것입니다. 이 사이에 PCA를 추가..

[Linux] 리눅스 디렉토리 구조 초간단 살펴보기(+ 기본 단축키)

대용량의 데이터를 다루다 보면 로컬 컴퓨터가 아닌 서버에서 작업을 하게 되는데, 서버에 분석 환경을 구축하고 관리를 원활하게 하기 위해서 리눅스 공부를 시작했습니다. 이번 포스팅은 리눅스를 처음 접하는 사람들에게 좀처럼 익숙해지지않는 디렉터리 구조를 살펴보려고 합니다. 윈도우는 윈도우 탐색기에서 눈으로도 전체 구조를 볼 수 있고 마우스로 간편...하게 확인할 수 있는 반면, 리눅스는 명령어를 입력해서 무엇이 어디 있고 속성을 어떤지 확인을 해야 하기 때문에 보이지 않는 진입장벽이 저를 힘들게 하더군요. 저와 비슷한 어려움을 느끼시는 분들과 저를 위해 가장 기본이 되는 디렉토리 구조에 대해 살펴보도록 하겠습니다. 아래에서 설명드릴 내용은 모두를 위한 리눅스 프로그래밍이라는 책과 구글링을 바탕으로 작성되었습..

Programming/Others 2022.10.19

PyTorch란 무엇일까?! with GANomaly

이번 포스팅에서는 PyTorch에 대해 알아보도록 하겠습니다. 매년 10월에 발표하는 AI 현황 보고서, State of AI Report에서는 2020년에 발표된 논문에 가장 많이 사용한 Framework로 PyTorch가 선정되었습니다. 항상 TensorFlow가 앞서 다 사상 처음으로 PyTorch가 TensorFlow보다 18% 많은 47%를 차지했다고 합니다. Framework? 응용 프로그램을 개발하기 위한 여러 라이브러리나 모듈 등을 효율적으로 사용할 수 있도록 하나로 묶어 놓은 일종의 패키지라고 할 수 있습니다. 일종의 개발 템플릿 가장 유명한 딥러닝 프레임 워크로 구글브레인-텐서플로우 / 페이스북-파이토치가 있습니다. TensorFlow vs PyTorch Tensorflow(2015)는..

Programming/Python 2022.10.19

[논문 리뷰] 이상치 탐지 | Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 이번 포스팅에서는 anomaly탐지를 위한 오토인코딩을 활용한 GMM논문을 간략하게 리뷰해보고 Kaggle의 Credit Card Data에 실습해보겠습니다. Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection(DAGMM) 논문은 링크에 걸어두었고 구현된 코드는 구글에 치면 여러가지가 나오는데 credit card data를 활용한 github를 첨부해두었습니다. 논문 리뷰에 앞서 GMM에 대해 간략하게 알아보겠습니다. 0. GMM이란? Gaussian Mixture Model(GMM)은 이름에서 알 수 있듯이 가우시안 분포가 혼합된 모델로 Clustering하는 방법입..

[도서 리뷰] 핸즈온 비지도 학습 | 3장 차원축소

핸즈온 비지도 학습국내도서저자 : 안쿠르 A. 파텔(Ankur A. Patel) / 강재원,권재철역출판 : 한빛미디어 2020.07.20상세보기 이번 포스팅에서는 핸즈온 비지도 학습 책에서 설명하는 차원 축소 방법들에 대해 간단히 알아보겠습니다. 차원축소 알고리즘은 고차원 데이터를 저차원 공간에 투영해 중복 정보를 제거하면서 가능한 핵심정보를 유지하는 방법입니다. 데이터를 낮은 차원으로 축소시키면 노이즈가 많이 줄어들어 머신러닝 알고리즘이 패턴을 더 효과적이고 효율적으로 식별할 수 있다고 합니다. 3.2 차원 축소 알고리즘 차원 축소에는 두 가지 유형이 있습니다. 선형투영 개념 : 고차원 공간에서 저차원 공간으로 선형적으로 데이터를 투영하는 방법 방법 : 주성분 분석(PCA), 특이값 분해(SVD), 랜..