기본 콘텐츠로 건너뛰기

라벨이 Windows Azure인 게시물 표시

Windows Azure 상의 Hadoop

  Introduction to Hadoop on Windows Azure Apache Hadoop 기반의 Azure 서비스는 클라우드 상에 클러스터들을 준비하고 배포하는 서비스로 빅 데이터를 관리하고, 분석하고, 결과를 리포팅하기 위해 설계된 프레임워크를 제공한다. “빅 데이터”는 점점 더 빠른 속도로 커지고 있는 데이터 볼륨이며, 구조화되지 않은 형식과 다양한 의미적인 변수들을 가지는 것을 의미한다. 빅 데이터 컬렉션 자체가 기업에 의미를 가지는 것은 아니며, 의미를 가지기 위해서는 다양한 소스들로부터 수집되고, 다양하게 조합되고, 정제되고, 분석되고, 액세스가 가능하도록 지능적이고, 통찰력이 있는 형식으로 제공되어야 한다. Apache Hadoop 는 빅 데이터를 관리하고 분석하기 위한 장치들을 가지는 프레임워크로 HDFS (Hadoop Distributed File System) 로 신뢰할 수 있는 저장소를 제공하는 것이 가장 중요한 기능이며, 저장된 데이터를 병렬로 처리하고 분석하기 위한 간단한 MapReduce프로그램 모델을 제공하고 있다. HDFS는 높은 가용성을 가지는 시스템으로 하드웨어 오류 문제를 해결하기 위해서 데이터 복제 기능을 사용하고 있다. 다양한 소스로부터 비 정형화 데이터를 분석하는데 발생하는 분석의 복잡성을 단순화 시키기 위해서 MapReduce 프로그램 모델은 Map 과 작업의 경감을 위한 추상화를 제공한다. 모든 데이터를 Key-Value 의 집합으로 계산할 수 있는 모든 방법이 가능하도록 지원하므로 입력과 출력이 되는 파일은 모두 Key-Value 쌍의 데이터 집합이어야 한다. 그리고 Pig 와 Hive 와 같은 Hadoop 과 연계된 다른 프로젝트들은 HDFS 와 MapReduce 를 기반으로 구성되어 있고, 이런 데이터들에 대한 warehousing 과 mining 뿐만 아니라 질의나 데이터의 흐름 제어와 같은 기능들에 대한 높은 추상화를 제공하고 있다. 물론 End to End 관리도 제공하고 있다. 클라우드 서비

Azure Big Data 시리즈 2 – Hadoop Task 실행과 Excel Add-In 을 사용한 분석 결과 처리

출처 : http://www.windowsazure.com/en-us/develop/net/tutorials/hadoop-marketplace/ 이 샘플은 Windows Azure 상에서 2 가지 방법으로 Apache Hadoop 기반의 클러스터에서 MapReduce 프로그램을 어떻게 수행하는지를 알아보고, 클러스터에 수집된 데이터를 Excel 에서 분석하는 방법에 대해서 알아보는 것이다. 실제 데이터 분석을 처리하는 것은 자바로 구현된 MapReduce 프로그램이며, 이 프로그램을 수행하는 방법은 아래와 같이 두 가지 방법을 사용할 수 있다. Hadoop jar 파일 – “Create Job UI” 에서 jar 파일을 이용해서 수행한다. Pig 에서 스크립트 – Pig 에서 제공되는 Fluent API 를 이용하는 자바스크립트를 이용해서 수행한다. 샘플에서 사용할 데이터는 Azure Marketplace 를 통해서 데이터, 이미지, 주요 상업 데이터 제공자들로부터 실 시간 웹 서비스 및 신뢰할 수 있는 공공 데이터들을 수집하게 된다. 이렇게 수집된 데이터는 인구 통계학적, 환경, 금융, 소매, 스포츠 데이터를 포함한 데이터들의 다양한 구매 및 소비를 단순화하는 것이다. 이렇게 수집된 데이터는 Azure에서 Hadoop 으로 업로드 되고, Excel 을 이용해서 데이터를 분석한 결과를 조회하는 방식이다. MS 에서 제공하는 빅 데이터의 핵심은 BI (Business Intelligence) 의 구성 요소와 Hadoop 의 통합이라고 볼 수 있다. MS BI 와 Hadoop 과의 통합의 가장 좋은 사례는 Hadoop 클러스터의 Data warehouse 프레임워크에 Excel 로 접속이 가능하다는 점이다. 이 샘플에서는 Hive ODBC 드라이버를 통해서 Excel에서 Hadoop 클러스터에 존재하는 데이터에 접근하는 방법에 대해서 알아보도록 한다. 이 샘플을 통해서 확인하고 배울 수 있는 내용은 다음과 같다. Hadoop jar 파일을 이용