기본 콘텐츠로 건너뛰기

라벨이 Apache Mahout인 게시물 표시

Windows Azure 상의 Hadoop

  Introduction to Hadoop on Windows Azure Apache Hadoop 기반의 Azure 서비스는 클라우드 상에 클러스터들을 준비하고 배포하는 서비스로 빅 데이터를 관리하고, 분석하고, 결과를 리포팅하기 위해 설계된 프레임워크를 제공한다. “빅 데이터”는 점점 더 빠른 속도로 커지고 있는 데이터 볼륨이며, 구조화되지 않은 형식과 다양한 의미적인 변수들을 가지는 것을 의미한다. 빅 데이터 컬렉션 자체가 기업에 의미를 가지는 것은 아니며, 의미를 가지기 위해서는 다양한 소스들로부터 수집되고, 다양하게 조합되고, 정제되고, 분석되고, 액세스가 가능하도록 지능적이고, 통찰력이 있는 형식으로 제공되어야 한다. Apache Hadoop 는 빅 데이터를 관리하고 분석하기 위한 장치들을 가지는 프레임워크로 HDFS (Hadoop Distributed File System) 로 신뢰할 수 있는 저장소를 제공하는 것이 가장 중요한 기능이며, 저장된 데이터를 병렬로 처리하고 분석하기 위한 간단한 MapReduce프로그램 모델을 제공하고 있다. HDFS는 높은 가용성을 가지는 시스템으로 하드웨어 오류 문제를 해결하기 위해서 데이터 복제 기능을 사용하고 있다. 다양한 소스로부터 비 정형화 데이터를 분석하는데 발생하는 분석의 복잡성을 단순화 시키기 위해서 MapReduce 프로그램 모델은 Map 과 작업의 경감을 위한 추상화를 제공한다. 모든 데이터를 Key-Value 의 집합으로 계산할 수 있는 모든 방법이 가능하도록 지원하므로 입력과 출력이 되는 파일은 모두 Key-Value 쌍의 데이터 집합이어야 한다. 그리고 Pig 와 Hive 와 같은 Hadoop 과 연계된 다른 프로젝트들은 HDFS 와 MapReduce 를 기반으로 구성되어 있고, 이런 데이터들에 대한 warehousing 과 mining 뿐만 아니라 질의나 데이터의 흐름 제어와 같은 기능들에 대한 높은 추상화를 제공하고 있다. 물론 End to End 관리도 제공하고 있다. 클라우드 서비

.NET 에서의 빅 데이터 시나리오들은?

빅 데이터들에 대한 정보를 찾으면 거의 대부분은 자바 오픈 소스를 기준으로 언급이 된다. 물론 하둡등 오픈 소스들이 자바진영에서 활발하게 사용되고 있기 때문이기도 하겠지만, .NET 에서도 하둡과의 연계나 자체적인 Azure 활용을 통한 시나리오들이 존재할 것이라고 생각한다. Windows Azure 도 정형화된 또는 비 정형화된 데이터 저장 옵션을 제공하고 있으며 데이터로 부터 BI 를 추출하고 분석하는 다양한 도구들을 제공하고 있다. 따라서 이번에는 .NET 진영의 빅 데이터 시나리오를 실용적인 측면에서 소개한 정보들을 정리해 보도록 한다. 출처 : http://www.windowsazure.com/en-us/develop/net/scenarios/big-data/ 이제 순차적으로 하나씩 실제 적용 가능한 샘플을 시리즈로 검토해 보도록 한다. 시리즈 1 – Azure 에서 VM 상의 MongoDB 와 Web Site 의 연계에 대해 검토한다. 시리즈 2 – Azure 에서 하둡 작업을 실행하고, Excel Add-in 기능을 이용하여 데이터를 분석하는 것에 대해 검토한다. 시리즈 3 – Apache Mahout 를 이용해서 단순한 추천 엔진을 생성하는 것에 대해 검토한다.