Introduction to Hadoop on Windows Azure Apache Hadoop 기반의 Azure 서비스는 클라우드 상에 클러스터들을 준비하고 배포하는 서비스로 빅 데이터를 관리하고, 분석하고, 결과를 리포팅하기 위해 설계된 프레임워크를 제공한다. “빅 데이터”는 점점 더 빠른 속도로 커지고 있는 데이터 볼륨이며, 구조화되지 않은 형식과 다양한 의미적인 변수들을 가지는 것을 의미한다. 빅 데이터 컬렉션 자체가 기업에 의미를 가지는 것은 아니며, 의미를 가지기 위해서는 다양한 소스들로부터 수집되고, 다양하게 조합되고, 정제되고, 분석되고, 액세스가 가능하도록 지능적이고, 통찰력이 있는 형식으로 제공되어야 한다. Apache Hadoop 는 빅 데이터를 관리하고 분석하기 위한 장치들을 가지는 프레임워크로 HDFS (Hadoop Distributed File System) 로 신뢰할 수 있는 저장소를 제공하는 것이 가장 중요한 기능이며, 저장된 데이터를 병렬로 처리하고 분석하기 위한 간단한 MapReduce프로그램 모델을 제공하고 있다. HDFS는 높은 가용성을 가지는 시스템으로 하드웨어 오류 문제를 해결하기 위해서 데이터 복제 기능을 사용하고 있다. 다양한 소스로부터 비 정형화 데이터를 분석하는데 발생하는 분석의 복잡성을 단순화 시키기 위해서 MapReduce 프로그램 모델은 Map 과 작업의 경감을 위한 추상화를 제공한다. 모든 데이터를 Key-Value 의 집합으로 계산할 수 있는 모든 방법이 가능하도록 지원하므로 입력과 출력이 되는 파일은 모두 Key-Value 쌍의 데이터 집합이어야 한다. 그리고 Pig 와 Hive 와 같은 Hadoop 과 연계된 다른 프로젝트들은 HDFS 와 MapReduce 를 기반으로 구성되어 있고, 이런 데이터들에 대한 warehousing 과 mining 뿐만 아니라 질의나 데이터의 흐름 제어와 같은 기능들에 대한 높은 추상화를 제공하고 있다. 물론 End to End 관리도 제공하고 있다. 클라우...