혼자공부하는 머신러닝 딥러닝 5주차 후기 및 미션 완료

@혼자공부하는 머신러닝, 딥러닝

 

혼자공부하는 머신러닝 딥러닝 5주차 후기 및 미션 완료



@혼자공부하는 머신러닝, 딥러닝



  • 챕터 6 비지도 학습


이번 시간에는 지금까지 학습했든 지도학습과 다르게 비지도학습에 대해서 공부를 했는데요, 비지도 학습의 주 목적은 데이터 구조, 패턴, 관계를 찾아내는 것입니다. 이를 통해 데이터의 특징을 추철하거나 차원을 축소하여 데이터를 더 잘 이해할수 있습니다.

그 중에서 챕터6에서는 대표적인 비지도 학습 알고리즘에 대해서 학습했습니다.


1. 군집 알고리즘 : 비지도 학습 방법 중 하나로, 데이터의 구조나 패턴을 명시적인 기준 없이 찾아내는 방법입니다. 데이터 포인트를 비슷한 특징을 가진 그룹으로 분류하며, 이 그룹을 군집이라고 합니다. 교재에서는 실습으로 사과, 바나나, 파인애플을 담고 있는 흑백사진을 사용했습니다. 


2. K-평균 알고리즘 : 군집 알고리즘 중 가장 널리 사용되는 방법으로, 데이터를 K개의 클러스터로 묶는 알고리즘입니다. 먼저 임의의 중심을 정한 후, 각 데이터 포인트를 가장 가까운 중심점에 할당하고, 할당된 중심점의 평균 위치를 새로운 중심점으로 업데이트하며 반복적으로 진행합니다. 이 과정을 중심점이 변하지 않거나, 특정 횟수가 반복될 때까지 수행합니다.


3. 주성분 분석 (PCA): 대표적인 차원 축소 알고리즘 중 하나이며, 고차원 데이터의 차원을 축소하거나, 특징 추출을 위한 비지도 학습 방법입니다. 데이터의 변동성을 최대한 설명하는 새로운 축을 찾아, 원본 데이터를 이 축에 투영하며 차원을 축소합니다. 



  • 기본 미션 : k-평균 알고리즘 작동 방식 설명하기


k-평균 알고리즘은 비지도 학습에서 많이 사용되는 군집화 알고리즘입니다. 주어진 데이터 집합을 k개의 군집으로 나누는데 사용되며, 아래와 같은 작동 방식으로 진행됩니다.

1. 무작위로 k개의 클러스터 중심을 정합니다.

2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정합니다.

3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경합니다.

4. 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복합니다. 



  • 선택 미션 : Ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리 하기


1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇 개일까요?

① 10개

② 20개  <--- 정답

➂ 50개

④ 100개


* 주성분 개수는 원본 데이터셋의 특성 개수와 같거나 작을 수 있습니다. 따라서, 특성이 20개인 데이터셋에서 찾을 수 있는 주성분 개수는 20개입니다.



2. 샘플 개수가 1,000개이고 특성 개수는 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100)입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?

① (1000, 10) <--- 정답

② (10, 1000)

➂ (10, 10)

④ (1000, 1000)


* 변환된 데이터셋의 크기는 (샘플 개수, 차원수)로 표현하기 때문에, 10개의 주성분을 찾아 변환 했다면 변환된 데이터셋의 크기는 (1000, 10) 이 됩니다.



3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?

① 첫 번째 주성분 <--- 정답

② 다섯 번째 주성분

➂ 열 번째 주성분

④ 알 수 없음


* 설명된 분산이 가장 큰 주성분은 첫 번째 주성분입니다. 주성분 분석은 데이터 변동성을 최대한 보존하는 방향으로 축소하기 때문에 첫 번째 주성분이 가장 큰 변화를 설명합니다.





#혼공학습단 #혼공단 #혼공머신 #머신러닝 #딥러닝 #비지도학습 #k평균 #군집알고리즘 #주성분분석 #PCA #파이썬

댓글 쓰기

0 댓글