Review/도서 리뷰

[도서 리뷰] 핸즈온 비지도 학습 | 3장 차원축소

어쩌다통계 2022. 10. 19. 00:55
728x90
  핸즈온 비지도 학습국내도서저자 : 안쿠르 A. 파텔(Ankur A. Patel) / 강재원,권재철역출판 : 한빛미디어 2020.07.20상세보기

이번 포스팅에서는 핸즈온 비지도 학습 책에서 설명하는 차원 축소 방법들에 대해 간단히 알아보겠습니다.

 

차원축소 알고리즘은 고차원 데이터를 저차원 공간에 투영해 중복 정보를 제거하면서 가능한 핵심정보를 유지하는 방법입니다. 데이터를 낮은 차원으로 축소시키면 노이즈가 많이 줄어들어 머신러닝 알고리즘이 패턴을 더 효과적이고 효율적으로 식별할 수 있다고 합니다.

 

차원의 저주; 차원이 증가할 수록 데이터의 밀도는 낮아짐.

 

3.2 차원 축소 알고리즘

차원 축소에는 두 가지 유형이 있습니다.

  1. 선형투영
    • 개념 : 고차원 공간에서 저차원 공간으로 선형적으로 데이터를 투영하는 방법
    • 방법 : 주성분 분석(PCA), 특이값 분해(SVD), 랜덤 투영
  2. 매니폴드 학습

  • 개념 : 비선형 차원 축소
  • 매니폴드 가설 : 고차원의 데이터를 설명하는 낮은 차원의 다양체(manifold)가 존재함
  • 방법 : 아이소맵(유클리디안 거리가 아닌 데이터 포인트들 사이 곡선거리 학습), 다차원 스케일링(MDS), 지역 선형 임베딩(LLE), t-sne, 사전학습, 랜덤 트리 임베딩, 독립 성분 분석

3.3 PCA

가장 일반적인 선형 차원 축소 방법인 PCA는 데이터의 분산을 최대한 유지하면서 저차원의 성분을 찾아 차원을 축소하는 방법입니다.

피처들 간의 상관관계를 이용하여 진행하는데, 상관관계가 높은 피처들을 결합해서 선형적인 관계가 없는 더 적은 수의 피처들로 데이터를 표현합니다.

이 알고리즘은 원본인 고차원 데이터에서 최대 분산 방향(원본 데이터 포인트와 투영한 데이터 포인트 간의 평균 제곱거리를 최소화)을 찾음으로써 상관관계를 지속적으로 감소시키고 저차원에 투영하고, 그렇게 파생된 성분을 주성분이라고 합니다.

 

PCA

주성분 분석을 통해 고차원의 데이터를 낮은 차원으로 효과적으로 압축할 수 있지만, 실제 데이터 점과 고차원 평면에 투사된 점의 거리가 생길 수 밖에 없으며 이는 정보의 손실을 의미합니다. 데이터가 비선형적으로 구성될 수록 이러한 정보의 손실은 많이 발생하게 됩니다. -> 매니폴드 방식의 장점

 

  • 점진적 Incremental PCA
    • 데이터 크기가 매우 커서 메모리가 저장할 수 없는 경우, 메모리에 저장되는 크기로 배치를 작게 설정하여 점진적으로 PCA 수행
    • 일반 PCA와 유사한 결과를 보임
  • 희소 Sparse PCA
    • 주성분의 선형 결합을 회귀문제로 전환하여 elasticnet 벌점함수를 적용하여 설명력을 많이 잃지 않으면서 보다 간결한 선형결합의 형태를 가짐
    • 쉽게 말해, 주성분의 선형결합 식에서 loading값(회귀계수)가 작은 건 0으로(/가까이) 보내서 간결한 선형결합으로 만듬
  • 커널 Kernel PCA
    • 앞서 소개한 방법들과 달리 PCA에 kernel_trick을 적용하여 비선형적으로 차원을 축소하는 방법
    • 커널 함수(일반적으로 가우시간 커널을 많이 씀)를 이용해 고차원 공간으로 맵핑하여 PCA 수행하는 개념

가우시안 커널을 활용하여 고차원으로 맵핑

 

3.4 SVD

데이터 원본 행렬의 계수(rank)를 더 작은 계수로 줄이고 더 작은 계수 행렬에서 일부 벡터의 선형 결합을 사용해 원본 행렬을 다시 만들 수 있도록 하는 방법...이지만 관심이 없어서 자세히 살펴보지 않습니다

 

 

3.5 랜덤 투영

존슨-린덴슈트라우스 보조정리를 기반으로 한 방법

존슨-린덴슈트라우스 보조정리 : 고차원 공간의 데이터 포인트들은 포인트 사이의 거리가 거의 보존되는 방식으로 훨씬 더 낮은 차원의 공간에 삽입될 수 있다. 즉, 고차원 공간에서 저차원 공간으로 이동하는 경우에도 원본 피처셋의 핵심정보가 유지된다.

  1. 가우시안 랜덤 투영(GRP)
  2. 희소 랜덤 투영(SRP)

 

 

 

TBC...

반응형