기본 콘텐츠로 건너뛰기

라벨이 Leader인 게시물 표시

[SolrCloud] SolrCloud 환경에 DataImport 사용하기 (Schedule 작업 포함)

Notes DataImport 처리에 대해서 처음 접하는 경우는 아래와 같은 정보를 사전에 검토해야 한다. DataImport 처리를 처음 구성하는 경우는 이미 많은 정보들이 존재하므로 찾아서 검토를 하고, DataImport 와 관련된 다음의 정보를 검토해야 한다. DataImport 처리할 때 주의할 점 DataImport 에서 last_index_time 의 의미와 사용법 Quartz Schedule 을 이용한 DataImport 작업 수행 그리고 실제 작업을 진행하면서 만났던 오류를 기준으로 정리한 것으로 다른 원인과 다른 오류가 더 많을 수 있으므로 Solr관련 정보를 확인해야 한다. DataImport on SolrCloud 단일 서버에 구성했던 Solr 로 DataImport 를 처리하는 것과 동일하게 처리하면 된다. 아래는 기존 샘플 에서 사용했던 Collection 을 대상으로 DataImport (Full-Import) 를 처리하는 명령이다. http: / /localhost:7070/solr /test-collection/dataimport ?command=full-import&clean= true &commit= true 단, 차이점이라면 Solr Admin UI 에서 처리하는 “DataImport” 는 Collection name 을 이용하는 것이 아니라 실제 Core 를 사용한다는 점이다. 예를 들면 다음과 같은 명령이 호출된 것과 같다. http: / /localhost:7070/solr /test-collection_shard1_replica1/dataimport ?command=full-import&clean= true &commit= true 명령을 처리하는 방식 (Request or Admin UI) 의 차이를 제외하면 기존 방식과 동일하게 처리하면 된다. Problems dataimport.p

[SolrCloud] ZooKeeper와 SolrCloud를 Tomcat7 에 설정해 보기

[ 참고 및 주의 사항 ] 여기에 정리된 내용은 원문 을 기준으로 여러 가지 테스트와 문제점의 검토 및 해결책을 찾으면서 나름대로 정리한 내용으로 오역과 잘 못 이해하고 정리한 부분이 있을 수 있습니다. 또한 원문의 Solr 버전이 지금 테스트를 진행하고 있는 4.10.2 버전과 다르기 때문에 내용을 잘 확인하면서 진행 해야 합니다. SolrCloud Collection 디자인 SolrCloud 를 운영하기 위해서는 Cluster를 디자인을 하는 것이 가장 중요한 부분이다. 개념적으로는 SolrCloud Cluster 내에서 Collection 과 Shard 는 논리적인 요소로 여러 개의 물리적인 Core 들의 집합을 형성하기 위한 것 이다. 샘플 테스트를 위해서 다음과 같이 Cluster를 디자인 한 것으로 가정한다. Cluster에는 단일 Collection을 관리하고 이름을 test_collection 이라고 한다. ZooKeeper Ensemble 은 3개의 복제된 서버들을 사용하는 것으로 한다. Replication Factor를 3으로 지정하여 SolrCloud 에 3개의 Node를 구성한다. SolrCloud 에 3개의 Shard 를 구성한다. 3개 노드의 3개 Shard에 복제 본들을 수동으로 배포한다. 필요 항목들 이 작업을 테스트하기 위해서는 다음과 같은 구성이 필요하다. Apache Tomcat 7.x Apache ZooKeeper 3.4.6 Apache Solr 4.10.2 Notes 위의 디자인된 SolrCloud 는 단일 장비에서 테스트를 진행한다. 실제로는 여러 장비에 분산하여 운영되는 것이 정상이다. 샘플 디렉터리 구성 단일 장비에서 테스트를 진행할 것이기 때문에 “D:\SolrCloud” 를 기본 경로로 사용한다. Node 구성을 위한 각 Solr Home 폴더 D: \SolrCloud \solr \home 1 D: \SolrCloud \solr \home 2