k-means 파이썬 예제

Off
Non classé

위의 코드를 실행하기 전에 2차원 데이터 집합을 Excel 파일에 저장해야 합니다. 예를 들어이 게시물의 시작 부분에서 보았던 날짜 집합을 Excel 파일에 저장했습니다. 알고리즘의 이러한 한계에 주의, 우리는 다양한 상황에서 우리의 이점에 k-수단을 사용할 수 있습니다. 이제 몇 가지 예를 살펴보겠습니다. 위의 데이터를 기반으로 DataFrame을 만든 후에는 2 개의 추가 Python 모듈을 가져와야합니다 : 감독되지 않은 기계 학습은 기본 구조의 질문에 가장 자주 적용됩니다. 예를 들어, 유전체학은 우리가 근본적인 구조를 진정으로 이해하지 못하는 영역입니다. 따라서, 우리는 우리가 구조를 파악하는 데 도움이 자율 기계 학습을 사용합니다. 네 개의 색 클러스터가 있지만 맨 위에 있는 두 개의 클러스터와 아래쪽에 있는 두 개의 클러스터가 겹칩니다. k-평균 클러스터링의 첫 번째 단계는 임의의 중심을 선택하는 것입니다. 이 경우 k=4이므로 4개의 임의 중심이 필요합니다. 다음은 처음부터 내 구현에서 어떻게 보였는지입니다.

파이썬에서 k-means를 실행하려면 공상 과학 키트 학습에서 KMeans를 가져와야합니다. 클러스터링의 흥미로운 응용 프로그램 중 하나는 이미지 내에서 색상 압축입니다. 예를 들어 수백만 개의 색상이 있는 이미지가 있다고 가정해 보겠습니다. 대부분의 이미지에서 많은 수의 색상이 사용되지 않으며 이미지의 많은 픽셀은 유사하거나 동일한 색상을 갖습니다. k-means의 또 다른 일반적인 과제는 예상되는 클러스터 수를 알려주어야 한다는 것입니다. 예를 들어 알고리즘에 6개의 클러스터를 식별하도록 요청하면 행복하게 진행하여 최상의 6개의 클러스터를 찾습니다. 거리를 측정하는 방법에는 여러 가지가 있지만 파이썬에서 np.linalg.norm을 사용하여 측정 할 수있는 유클리드 거리를 사용했습니다. 예를 들어 Scikit-Learn 데이터 집합 모듈의 다음 그림에 표시된 이미지를 고려해 보십시오(이 작업을 수행하려면 베개 파이썬 패키지를 설치해야 합니다). 이제 피자 체인이 고객에게 타겟 쿠폰을 보내고 싶다고 가정 해 봅시다. 대가족, 소규모 가족, 독신, 대학생 등 4개 그룹으로 고객을 세분화하고자 합니다. 우리는 사전 주문 데이터 (예 : 주문 크기, 가격, 빈도 등)를 제공받으며 각 고객을 4 개의 버킷 중 하나에 넣는 임무를 맡고 있습니다.

이것은 우리가 예측을하지 않기 때문에 « 자율 학습 »의 예가 될 것입니다. 우리는 단지 고객을 그룹으로 분류하고 있습니다. k-means 클러스터링이 어떻게 작동하는지 살펴보겠습니다. 먼저, 제 좋은 친구, 로비를 소개해 드리겠습니다. 즉, 파이썬의 공상 과학 키트 학습 라이브러리에서 make_blobs 함수. make_blobs를 사용하여 작업을 돕기 위해 네 개의 임의클러스터를 만듭니다. 간단한 k-means 알고리즘만으로도 입력 숫자의 80%에 대한 올바른 그룹화를 발견했습니다! 이에 대한 혼란 매트릭스를 확인해 봅시다: 기대-최대화(E-M)는 데이터 과학 내에서 다양한 맥락에서 등장하는 강력한 알고리즘입니다.

Comments are closed.