python 5

PyOD 라이브러리로 간단하게 이상치 탐지하기

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 이상치 탐지를 하다 보면 데이터에 맞는 방법들이 있어 여러 가지 방법들을 적용해보는 편인데, 아무래도 일관성이 떨어지다 보니 이런 방법론들이 모여있는 라이브러리가 없을까?! 하고 찾던 중 PyOD를 발견하게 되어 정리를 해봅니다. 풀네임이 Python Outlier Detection인 PyOD는 다변량 데이터에 적용 가능한 이상치 탐지 방법론들이 30개 이상 구현되어 있는 라이브러리입니다. 가장 기본적인 LOF부터 HBOS, OCSVM, IForest와 제가 좋아하는 AutoEncoder와 VAE까지 방법론이 너무 많아 우선 여기 있는 이상치 탐지 방법론부터 공부해봐도 좋겠다 생각이 들었습니다. 예전에 나온 방법론뿐 아니라 2022년에 나온 ECOD라는..

Programming/Python 2022.10.19

[논문 실습] 페이스북 시계열예측 모델 | prophet with 제주도 관광객 예측

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 아래의 포스팅에서 공부해본 prophet을 제주도 관광객 데이터를 가지고 Python 실습해보려고 합니다. 이론적 설명이 필요하시면 아래의 [논문 리뷰]로 이동하시면 됩니다~ https://slowsteadystat.tistory.com/7?category=922379 [논문 리뷰] 페이스북 시계열예측 모델 | prophet 2017년 페이스북에서 공개한 시계열 예측 방법인 prophet 논문을 리뷰해보려고 합니다. prophet은 R/Python 라이브러리도 공개되어 있어서 적용하기도 쉽고 날짜 정보와 예측할 y만 있으면 되기 때문 slowsteadystat.tistory.com 여기서 분석해볼 데이터는 제주도의 월별 관광객 데이터입니다. 데이터 수집..

plotly와 dash로 만드는 python dashboard 기초

이 글이 도움되셨다면 광고 클릭 부탁드립니다 : ) 이번 포스팅에서는 실시간 데이터 현황 파악을 하거나 사용자의 목적에 맞게 데이터를 시각화해서 보여주기위해 python으로 dash board를 만드는 절차나 기본 구조가 어떻게 되어 있는지 정리해보려고 합니다. 참고한 도서는 파이썬을 이용한 인터랙티브 대시보드 만들기라는 책이고 POD 상품으로 주문하면 그 때 제작이 들어가서 살까말까 오랫동안 망설였는데, plotly나 dash에 대한 아무 개념이 없다면 충분히 사도 좋은 책이라고 생각합니다. 함수들이 어떤 구조로 어떤 절차로 진행되는 지 설명이 있어서 기초를 쌓는데 도움이 많이 되었습니다. http://www.yes24.com/Product/Goods/102267640 파이썬을 이용한 인터랙티브 대시보..

Programming/Python 2022.10.19

[EDA] density plot, correlation plot | seaborn

대표적인 데이터 시각화 패키지인 seaborn 패키지를 활용하여 데이터 분포와 상관관계 그래프를 그립니다. # 커널 밀도 함수 + 히스토그램 import seaborn as sns # 데이터 시각화 패키지 sns.distplot(tr_y["hhb"], color="blue", label="hhb") sns.distplot(tr_y["hbo2"], color="red", label="hbo2") sns.distplot(tr_y["ca"], color="green", label="ca") sns.distplot(tr_y["na"], color="yellow", label="na") plt.legend(title = 'Ys') # 상관관계 sns.heatmap(data = tr_y.corr(), annot=F..

Programming/Python 2022.10.19

[EDA] 결측 데이터 분포 탐색 | missingno pkg.

데이터 분석을 하다 보면 fully 관측된 데이터를 받는 게 얼마나 감사하고 또 드물게 일어나는지 모두 잘 아실 텐데요. 저는 EDA 분석할 때 먼저 결측 데이터의 분포를 살펴보는 편입니다. 때로는 결측 값 자체로 어떠한 의미를 가지는 경우가 있기 때문이죠. 결측의 mechanism에는 4가지가 있습니다. 1. MCAR(missing completely at random) : 결측의 여부가 랜덤 2. MAR(missing at random) : 특정 변수의 결측 여부가 다른 변수와 관련 3. MNAR(missing not at random) : 특정 변수의 결측 여부가 다른 변수에 의해 결정 오늘은 Python 함수에 이런 결측의 분포를 쉽게 살펴보기 위한 missingno라는 패키지를 소개합니다. im..

Programming/Python 2022.10.19