기본 콘텐츠로 건너뛰기

라벨이 Excel인 게시물 표시

Azure Big Data 시리즈 2 – Hadoop Task 실행과 Excel Add-In 을 사용한 분석 결과 처리

출처 : http://www.windowsazure.com/en-us/develop/net/tutorials/hadoop-marketplace/ 이 샘플은 Windows Azure 상에서 2 가지 방법으로 Apache Hadoop 기반의 클러스터에서 MapReduce 프로그램을 어떻게 수행하는지를 알아보고, 클러스터에 수집된 데이터를 Excel 에서 분석하는 방법에 대해서 알아보는 것이다. 실제 데이터 분석을 처리하는 것은 자바로 구현된 MapReduce 프로그램이며, 이 프로그램을 수행하는 방법은 아래와 같이 두 가지 방법을 사용할 수 있다. Hadoop jar 파일 – “Create Job UI” 에서 jar 파일을 이용해서 수행한다. Pig 에서 스크립트 – Pig 에서 제공되는 Fluent API 를 이용하는 자바스크립트를 이용해서 수행한다. 샘플에서 사용할 데이터는 Azure Marketplace 를 통해서 데이터, 이미지, 주요 상업 데이터 제공자들로부터 실 시간 웹 서비스 및 신뢰할 수 있는 공공 데이터들을 수집하게 된다. 이렇게 수집된 데이터는 인구 통계학적, 환경, 금융, 소매, 스포츠 데이터를 포함한 데이터들의 다양한 구매 및 소비를 단순화하는 것이다. 이렇게 수집된 데이터는 Azure에서 Hadoop 으로 업로드 되고, Excel 을 이용해서 데이터를 분석한 결과를 조회하는 방식이다. MS 에서 제공하는 빅 데이터의 핵심은 BI (Business Intelligence) 의 구성 요소와 Hadoop 의 통합이라고 볼 수 있다. MS BI 와 Hadoop 과의 통합의 가장 좋은 사례는 Hadoop 클러스터의 Data warehouse 프레임워크에 Excel 로 접속이 가능하다는 점이다. 이 샘플에서는 Hive ODBC 드라이버를 통해서 Excel에서 Hadoop 클러스터에 존재하는 데이터에 접근하는 방법에 대해서 알아보도록 한다. 이 샘플을 통해서 확인하고 배울 수 있는 내용은 다음과 같다. Hadoop jar 파일을 이용

.NET 에서의 빅 데이터 시나리오들은?

빅 데이터들에 대한 정보를 찾으면 거의 대부분은 자바 오픈 소스를 기준으로 언급이 된다. 물론 하둡등 오픈 소스들이 자바진영에서 활발하게 사용되고 있기 때문이기도 하겠지만, .NET 에서도 하둡과의 연계나 자체적인 Azure 활용을 통한 시나리오들이 존재할 것이라고 생각한다. Windows Azure 도 정형화된 또는 비 정형화된 데이터 저장 옵션을 제공하고 있으며 데이터로 부터 BI 를 추출하고 분석하는 다양한 도구들을 제공하고 있다. 따라서 이번에는 .NET 진영의 빅 데이터 시나리오를 실용적인 측면에서 소개한 정보들을 정리해 보도록 한다. 출처 : http://www.windowsazure.com/en-us/develop/net/scenarios/big-data/ 이제 순차적으로 하나씩 실제 적용 가능한 샘플을 시리즈로 검토해 보도록 한다. 시리즈 1 – Azure 에서 VM 상의 MongoDB 와 Web Site 의 연계에 대해 검토한다. 시리즈 2 – Azure 에서 하둡 작업을 실행하고, Excel Add-in 기능을 이용하여 데이터를 분석하는 것에 대해 검토한다. 시리즈 3 – Apache Mahout 를 이용해서 단순한 추천 엔진을 생성하는 것에 대해 검토한다.