출처 : http://www.windowsazure.com/en-us/develop/net/tutorials/hadoop-marketplace/ 이 샘플은 Windows Azure 상에서 2 가지 방법으로 Apache Hadoop 기반의 클러스터에서 MapReduce 프로그램을 어떻게 수행하는지를 알아보고, 클러스터에 수집된 데이터를 Excel 에서 분석하는 방법에 대해서 알아보는 것이다. 실제 데이터 분석을 처리하는 것은 자바로 구현된 MapReduce 프로그램이며, 이 프로그램을 수행하는 방법은 아래와 같이 두 가지 방법을 사용할 수 있다. Hadoop jar 파일 – “Create Job UI” 에서 jar 파일을 이용해서 수행한다. Pig 에서 스크립트 – Pig 에서 제공되는 Fluent API 를 이용하는 자바스크립트를 이용해서 수행한다. 샘플에서 사용할 데이터는 Azure Marketplace 를 통해서 데이터, 이미지, 주요 상업 데이터 제공자들로부터 실 시간 웹 서비스 및 신뢰할 수 있는 공공 데이터들을 수집하게 된다. 이렇게 수집된 데이터는 인구 통계학적, 환경, 금융, 소매, 스포츠 데이터를 포함한 데이터들의 다양한 구매 및 소비를 단순화하는 것이다. 이렇게 수집된 데이터는 Azure에서 Hadoop 으로 업로드 되고, Excel 을 이용해서 데이터를 분석한 결과를 조회하는 방식이다. MS 에서 제공하는 빅 데이터의 핵심은 BI (Business Intelligence) 의 구성 요소와 Hadoop 의 통합이라고 볼 수 있다. MS BI 와 Hadoop 과의 통합의 가장 좋은 사례는 Hadoop 클러스터의 Data warehouse 프레임워크에 Excel 로 접속이 가능하다는 점이다. 이 샘플에서는 Hive ODBC 드라이버를 통해서 Excel에서 Hadoop 클러스터에 존재하는 데이터에 접근하는 방법에 대해서 알아보도록 한다. 이 샘플을 통해서 확인하고 배울 수 있는 내용은 다음과 같다. Hadoop jar 파일을 이용