기본 콘텐츠로 건너뛰기

[Kubernetes-Troubleshooting] 삭제되지 않는 Namespace 강제로 삭제하기

How to force deletion of a namespace

문제 상황

Argo Project의 Argo Events를 테스트해 보기 위해서 여러 가지 작업을 하던 중 제대로 처리가 되지 않아서 다시 시작할 겸 Namespace를 삭제해서 소속된 리소스들을 모두 삭제했다.

Kubernetes에서 Namespace가 삭제되지 않는 문제

그런데 위의 그림처럼 Argo Events Namespace가 삭제되지 않고 Terminating 상태로 계속 유지되는 문제가 발생했다.

문제 원인

정상적으로 삭제될 수 있는 시간을 지나서도 Terminating 상태로 남아있어서 원인에 대한 부분을 찾다가 Namespace의 다른 모든 Resource들은 삭제되었는데 (정확하게는 Dashboard에도 조회가 되지 않고, kubectl get 명령으로도 보이지 않는) Namespace만 저런 상태라서 Namespace에 대한 정보를 출력해 보았다.

# Resource 정보 출력
$ kubectl get namespace argo-events -o yaml

apiVersion: v1
kind: Namespace
metadata:
  creationTimestamp: "2021-01-13T10:40:07Z"
  deletionTimestamp: "2021-01-15T09:31:30Z"
...
spec:
  finalizers:
  - kubernetes              # Namespace에 대한 Finalizers
status:
  conditions:
  - lastTransitionTime: "2021-01-15T09:31:36Z"
    message: All resources successfully discovered
    reason: ResourcesDiscovered
    status: "False"
    type: NamespaceDeletionDiscoveryFailure
  - lastTransitionTime: "2021-01-15T09:31:36Z"
    message: All legacy kube types successfully parsed
    reason: ParsedGroupVersions
    status: "False"
    type: NamespaceDeletionGroupVersionParsingFailure
  - lastTransitionTime: "2021-01-15T09:31:36Z"
    message: All content successfully deleted, may be waiting on finalization
    reason: ContentDeleted
    status: "False"
    type: NamespaceDeletionContentFailure
  - lastTransitionTime: "2021-01-15T09:31:36Z"
    message: 'Some resources are remaining: eventbus.argoproj.io has 1 resource instances'    # 일부 리소스가 남아 있다는 상태
    reason: SomeResourcesRemain
    status: "True"
    type: NamespaceContentRemaining
  - lastTransitionTime: "2021-01-15T09:31:36Z"
    message: 'Some content in the namespace has finalizers remaining: eventbus-controller
      in 1 resource instances'                                                                # 일부 리소스의 Finalizer가 남아 있다는 상태
    reason: SomeFinalizersRemain
    status: "True"
    type: NamespaceFinalizersRemaining
  phase: Terminating

위의 결과에서 status 부분을 보면 2 가지 문제가 존재하는 것을 확인할 수 있다.

  • eventbus.argoproj.io 에 하나의 리소스 인스턴스가 남아 있는 상태
  • eventbus-controllerfinalizer가 남아 있는 상태

유추해 보면 리소스 자체는 삭제가 되었지만 Finalizer가 제대로 처리되지 못해서 발생하는 상태로 보인다. 주로 이와 같은 상황은 아래와 같이 두 가지로 판단할 수 있을 것 같다.

  • Custom Finalizer가 정리되지 않는 경우

    Namespace의 Spec (.spec.finalizers) 내용에 kubernetes 이외의 다른 요소가 존재하는 경우는 주로 CRD (Custom Resource Definition)에 따른 Extension Cotroller가 정리되지 않는 상태로 볼 수 있다.

    이런 경우라면 finalizer와 연관된 Controller가 무엇인지를 확인하고 수정해야 한다.

  • Kubernetes Finalizer가 정리되지 않는 경우

    Namespace의 Spec (.spec.finalizers) 내용에 kubernetes만 존재하는 경우로 기본 Finalizer이므로 Namespace내의 모든 리소스가 삭제되면 마지막으로 처리가 되는 것인데 진행되지 않고 있다는 것은 실제 모든 리소스가 삭제되었는지 확인해 봐야하는 것을 의미한다.

    확인 결과 모든 리소스가 삭제된 상태라면 admission webhook이나 extension api server에서 오류가 발생했을 수 있음을 의미한다. Namespace가 삭제될 때 각 리소스를 삭제하기 위해서 보내는 요청은 delete가 아니라 delete-collection 이므로 이 요청이 제대로 처리되었는지를 확인해야 한다.

참고

  • Namespace의 .spec.finalizers 는 Sub resource기 때문에 kubectl edit, kubectl update 등의 명령으로 수정되지 않는다. 따라서 curl 또는 Postman 등으로 직접 API를 호출해서 처리해야 한다.

해당 오류를 찾아서 해결하면 되지만 Namespace를 삭제하는 과정에서 이런 문제가 발생된 것이기 때문에 이미 Namespace의 리소스들은 삭제 처리가 되어 정상적인 방법으로 처리할 수 없다. 따라서 이 상태에는 Namespace를 기준으로 강제 삭제를 해야 한다.

해결 방법

지금 발생한 상황은 위에서 설명한 두 가지 경우중 Kubernetes Finalizer가 정리되지 않는 경우에 해당하기 때문에 모든 리소스가 삭제되었는지를 먼저 확인해 보도록 한다.

$ kubectl get all

위 명령은 Category All의 의미기 때문에 실제 모든 리소스를 보여주는 것이 아니다. 따라서 아래의 명령으로 실제 api-resourrce에 namespace로 한정된 리소스들의 이름을 조회해 보아야 한다.

$ kubectl api-resources --namespaced=true -o name
...
eventbus.argoproj.io           # argo-events namespace 내의 리소스
eventsources.argoproj.io       # argo-events namespace 내의 리소스
sensors.argoproj.io            # argo-events namespace 내의 리소스
...

위 명령으로 모든 리소스들의 이름을 확인해 본 결과 위의 결과와 같이 이미 삭제되었어야 할 리소스 이름이 남아 있었다. 이들 리소슥가 삭제되지 못한 이유를 확인해야 한다. 대부분은 metadata.finalizer에 문제의 원인이 있을 가능성이 높다.

지금까지의 판단으로는 CRD를 사용했을 때 이런 문제가 많이 발생했던 것으로 유추되므로 처리하기 이전에 아래와 같이 CRD가 존재한다면 Finalizer를 미리 제거해도 된다.

# CRD 확인
$ kubectl get crd -A

# CRD의 Finalizer 제거
$ kubectl patch crd <crd name> -p '{"metadata":{"finalizers": []}}' --type=merge

위에서 설명한 것과 같이 현재는 개별 문제가 발생된 리소스에 접근할 수 있는 방법이 없기 때문에 (방법을 못 찾았을 수도 있다) Namespace를 강제 삭제하도록 한다.

  1. 삭제되지 않는 Namespace 정보를 JSON 형식으로 저장한다.

    $ kubectl get namespace argo-events -o json > argo-events-namespace-for-delete.json
    
  2. 저장된 Namespace 정보에서 Finalizers 부분의 - kuberntes를 제거한다.

    # 저장된 내용
    ...
    spec:
      finalizers:
       - kubernetes
    ...
    
    # 위의 내용에서 Finalizers로 지정된 kubernetes 삭제
       ...
    spec:
      finalizers:
    ...
    
  3. Kubernetes API를 직접 호출해서 Finalize 처리 진행

    # kubectl proxy를 이용해서 저장된 인증 토큰을 사용
    $ kubectl proxy
    
    # 다른 터미널을 열어서 API 호출
    $ curl --insecure -k -H "Content-Type: application/json"  -X PUT --data-binary @argo-events-namespace-for-delete.json http://localhost:8001/api/v1/namespaces/argo-events/finalize 
    

Namespace가 삭제되지 못하고 있는 원인인 Finalize를 직접 API 서버를 호출해서 처리하면 Namespace를 삭제할 수 있다.

주의

  • 이 방법으로 삭제되지 않고 남아있는 Namespace는 삭제를 할 수 있지만 정말 해당 리소스들이 깨긋하게 삭제되었는지에 대한 검증을 할 수는 없었다. 이에 대한 검증이나 추가적인 문제들이 있는지는 향후 검토가 필요하다.
    Update at : 2021-01-19
    Namespace가 삭제된 후에 다시 한번 확인해 보면 몇 가지를 확인할 수 있다.
$ kubectl api-resource --namespaced
NAME                        SHORTNAMES   APIGROUP                    NAMESPACED   KIND
...
cronworkflows               cwf,cronwf   argoproj.io                 true         CronWorkflow
sensors                     sn           argoproj.io                 true         Sensor
workfloweventbindings       wfeb         argoproj.io                 true         WorkflowEventBinding
workflows                   wf           argoproj.io                 true         Workflow
workflowtemplates           wftmpl       argoproj.io                 true         WorkflowTemplate
...> 

위와 같이 Namespace가 삭제되었지만 남아있는 리소스들을 확인할 수 있다. 따라서 이 리소스들을 삭제 해 줘야 한다. 그렇지 않으면 동일한 Namespace를 생성했을 때 오 동작의 원인이 될 수 있다.

댓글

이 블로그의 인기 게시물

OData 에 대해서 알아보자.

얼마 전에 어떤 회사에 인터뷰를 하러 간 적이 있었다. 당시 그 회사는 자체 솔루션을 개발할 기술인력을 찾고 있었고 내부적으로 OData를 사용한다고 했다. 좀 창피한 이야기일 수도 있지만 나름 기술적인 부분에서는 많은 정보를 가지고 있다고 했던 것이 무색하게 OData란 단어를 그 회사 사장님에게서 처음 들었다. 작고, 단순한 사이트들만을 계속해서 작업을 하다 보니 어느덧 큰 줄기들을 잃어버린 것을 느끼기 시작했다. 명색이 개발이 좋고, 기술적인 기반을 만들려고 하는 인간이 단어조차도 모른다는 것은 있을 수 없는 것이라서 다시 새로운 단어들과 개념들을 알아보는 시간을 가지려고 한다. OData (Open Data Protocol) 란? 간단히 정리하면 웹 상에서 손쉽게 데이터를 조회하거나 수정할 수 있도록 주고 받는 웹(프로토콜)을 말한다. 서비스 제공자 입장에서는 웹으로 데이터를 제공하는 방식으로 각 포탈 사이트들이 제공하는 OPEN API 포맷을 독자적인 형식이 아니라 오픈된 공통규약으로 제공 가능하며, 개발자는 이 정보를 다양한 언어의 클라이언트 라이브러리로 어플리케이션에서 소비할 수 있도록 사용하면 된다. 공식 사이트는 www.odata.org 이며 많은 언어들을 지원하고 있다. 좀더 상세하게 정의를 해 보면 OData는 Atom Publishing Protocol  (RFC4287) 의 확장 형식이고 REST (REpresentational State Transfer) Protocol 이다. 따라서 웹 브라우저에서 OData 서비스로 노출된 데이터를 볼 수 있다. 그리고 AtomPub 의 확장이라고 했듯이 데이터의 조회만으로 한정되는 것이 아니라 CRUD 작업이 모두 가능하다. Example 웹 브라우저에서 http://services.odata.org/website/odata.svc 를 열어 보도록 하자. This XML file does not appear to have any style in...

C# 에서 Timer 사용할 때 주의할 점.

예전에 알고 지내시던 분의 질문을 받았다. Windows Forms 개발을 하는데, 주기적 (대략 1분)으로 데이터 요청을 하는 프로그램을 작성하기 위해서 Timer 를 사용하는데, 어떤 기능을 처리해야 하기 때문에 Sleep 을 같이 사용했다고 한다. 여기서 발생하는 문제는 Sleep 5초를 주었더니, Timer 까지 5초 동안 멈춘다는 것이다. Timer 라는 것은 기본적으로 시간의 흐름을 측정하는 기능이기 때문에 Sleep 을 했다고 해서 Timer 가 멈추는 일은 생겨서는 안된다. 그러나 실제 샘플을 만들어 보면 ... Timer 가 Sleep 만큼 동작이 멈추는 것을 확인할 수 있다. Windows Forms 는 UI Thread 를 사용하는 것으로 최적화 되어 있으며 여기서 Timer 를 쓰면 UI Thread 에 최적화된 System.Windows.Forms.Timer 가 사용된다. 여기서 문제의 발생이 시작되는 것이다. Sleep 을 사용하게 되면 UI Thread 가 Sleep 이 걸리기 때문에 여기에 속한 Timer 까지도 멈추는 것이다. 이런 문제를 해결하기 위해서는 System.Threading.Timer 를 사용해야 한다. 이 Timer 는 별도의 Thread 에서 동작하기 때문에 Sleep 의 영향을 받지 않는다. 언뜻 보면 쉬운 해결 방법인 것 같지만 Thread 가 분리되었기 때문에 Timer 가 돌아가는 Thread 에서 UI Thread 의 메서드나 컨트롤에 접근하기 위해서는 별도의 명령을 사용해야 하는 문제가 존재한다. 자~ 그럼 여기서 Timer 에 대해서 다시 한번 정리해 보도록 하자. .NET 에서 제공하는 Timer 들 .NET 에서는 기본적으로 3가지 Timer를 제공하고 있다. (MSDN) System.Windows.Forms.Timer - 사용자가 지정한 간격마다 이벤트를 발생시키며 Windows Forms 응용 프로그램에서 사용할 수 있도록 최적화 되어 있다. System...

[Logging] NLog 사용법 정리...

SCSF 에는 기본적으로 Enterprise Library가 사용된다. 예전에도 그랬지만 기능은 훌륭하고 많은 부분에서 최적화(?)된 것일지도 모르지만, 역시나 사용하기에는 뭔가 모르게 무겁고, 사용하지 않는 기능이 더 많다라는 느낌을 지울수가 없다. 이번 프로젝트도 SCSF를 기반으로 하고 있지만, Enterprise Library를 걷어내고 각 부분에 전문화된 오픈 소스를 사용하기로 하였다. 예전에는 Log4Net을 사용했지만, 대량 사용자 환경에서는 메모리 누수와 기타 문제점이 존재한다는 MS 컨설턴트(?)의 전해진 말을 들은 후로는 사용하지 않는다. 대안으로 사용하는 것이 NLog 이다. 조금 후에는 3.0 버전도 나온다고 홈 페이지에 기재되어 있지만, 그 때가 되면 프로젝트는 끝나기 때문에 현재 2.1.0 버전을 사용하기로 했다. [원본 출처] http://cloverink.net/most-useful-nlog-configurations-closed/ 위의 참조 자료에는 다양한 정보들이 존재하므로 꼭 링크를 통해서 관련된 정보를 확인하고 이해하는 것이 좋을 듯 하다. 여기서는 당장 필요한 부분만을 정리하도록 한다. [ Logger 찾기 ] 기본적으로 Logger가 존재하는 클래스를 기반으로 Logger 정보를 구성한다. Logger logger = LogManager.GetCurrentClassLogger(); 주로 Namespace 기반으로 Logger를 설정하는 경우에 유연하게 사용할 수 있다. 또 다른 방법으로는 지정한 문자열로 특정 Logger를 직접 선택하는 방법도 제공된다. 이를 혼용해서 Namespace와 직접 지정 방식을 같이 사용할 수도 있다. 물론 Logger 환경 설정에서 Wildcard (*)를 지정할 수도 있다. Logger logger = LogManager.GetLogger("Database.Connect"); Logger logger = LogManager.Get...