예제로 배우는 sas 데이터 분석 입문 솔루션

Off
Non classé

데이터 마이닝 및 머신 러닝을 포함한 SAS Viya 및 관련 제품의 클라우드 지원 기능에 대해 알아보십시오. 2 – 3 프로젝트를 완료하면 이력서와 GitHub 프로필 (매우 중요!)에 전시하십시오. 요즘 많은 채용 담당자가 GitHub 프로필을 확인하여 후보자를 고용합니다. 모든 프로젝트를 수행하는 것이 아니라 해결해야 할 문제, 도메인 및 데이터 집합 크기에 따라 선택한 프로젝트를 선택하는 것이 좋습니다. 전체 프로젝트 솔루션을 살펴보려면 이 문서를 살펴보십시오. 이 데이터 집합은 미국의 자전거 공유 서비스에서 제공됩니다. 이 데이터 집합에서는 프로 데이터 머글링 기술을 연습해야 합니다. 이 데이터는 2010년(4분기) 이후 분기별로 제공됩니다. 각 파일에는 7개의 열이 있습니다. 분류 문제입니다. 다양한 도메인의 다양한 문제를 맛볼 수 있도록 했습니다. 우리는 모든 사람들이 방대한 양의 데이터로 현명하게 작업하는 법을 배워야 하므로 대용량 데이터 집합이 포함되어 있어야 한다고 생각합니다.

또한 모든 데이터 집합이 열려 있고 자유롭게 액세스할 수 있도록 했습니다. 데이터 과학의 세계를 처음 접하는 경우, 애널리틱스 Vidhya는 초보자를 대상으로 포괄적인 `데이터 과학 소개`를 기획했습니다! 우리는 통계로 이동하고 마지막으로 다양한 모델링 기술을 통해 가기 전에, 파이썬의 기초를 다룰 것입니다. 소매는 비즈니스 프로세스를 최적화하기 위해 분석을 광범위하게 사용하는 또 다른 산업입니다. 제품 배치, 재고 관리, 맞춤형 오퍼, 제품 번들 링 등과 같은 작업은 데이터 과학 기술을 사용하여 현명하게 처리되고 있습니다. 이름에서 알 수 있듯이 이 데이터는 판매점의 트랜잭션 레코드로 구성됩니다. 이것은 회귀 문제입니다. 데이터에는 12개의 변수로 구성된 8523행이 있습니다. 요즘 모든 데이터 과학자는 대규모 데이터 집합을 처리할 수 있는 능력이 기대됩니다. 기업은 더 이상 전체 데이터 집합에서 작업할 수 있는 컴퓨팅 성능을 선호하지 않습니다. 이 데이터 집합은 로컬 컴퓨터에서 대용량 데이터 집합을 처리하는 데 필요한 실무 경험을 제공합니다. 문제는 쉽지만 데이터 관리가 핵심입니다! 이 데이터 집합에는 6M 관찰이 있습니다. 그것은 다중 분류 문제입니다.

모든 산업 중에서 보험 도메인은 분석 및 데이터 과학 방법의 가장 큰 용도 중 하나입니다. 이 데이터 집합은 보험 회사의 데이터 세트 작업( 어떤 과제, 어떤 전략이 사용되는지, 어떤 변수가 결과에 영향을 미치는지 등)을 제공합니다. 이것은 분류 문제입니다. 데이터에는 615개의 행과 13개의 열이 있습니다. 통계 SAS에 대한 JMP (점프)의 도입으로 매킨토시에 의해 도입 된 그래픽 사용자 인터페이스를 활용했다. 점프는 기본적으로 식스 시그마, 디자인, 품질 관리 및 엔지니어링 및 과학 분석과 같은 응용 프로그램에 사용됩니다. 무료 7일 평가판을 시작하고 데이터 과학자가 되기 위한 여정을 시작하십시오. 분산 분석, 회귀, 다변량 분석, 생존 분석 및 심리 측정 분석, 혼합 모델 분석을 통해 통계 분석을 수행합니다. 기계 학습 여정을 시작하면 타이타닉 생존 예측과 같은 간단한 기계 학습 문제로 이동합니다.

그러나 실제 문제에서 충분한 연습을 하지 못합니다. 따라서 이 연습 문제는 일반적인 분류 시나리오에서 오디오 처리를 소개하기 위한 것입니다. 이 데이터 세트는 10 개 클래스에서 도시 소리의 8,732 사운드 발췌로 구성되어 있습니다. 데이터 과학이 엔터테인먼트 산업에서도 사용될 수 있다는 것을 알고 계셨습니까? 지금 직접 해보십시오.

Comments are closed.