기본 콘텐츠로 건너뛰기

[ 일반 ] 정규식 (Regular Expression)에 대한 간단 정리

유독 머리에 제 자리를 잡지 못하는 것들 중에 하나인 정규 표현식 (Reqular Expression) 을 또 써야할 상황이 발생해서 다시 한번 정리를 해 놓는다. (언젠가 또 멍청하게 까먹고 다시 정리한다고 하겠지만… 쩝)

확장자 검증하기 (샘플)

우선  사용하려고 하는 실제 사례에 대한 의미를 확인해 보도록 하자. 실제 적용하여야 하는 부분은 특정한 문자열 (URL, File Path 등…) 에서 이미지 확장자를 제거하는 부분이다. 쉽게 사용할 수 있는 정규식은 다음과 같이 적용이 가능하다.

([^\s]+(\.(?i)(jpg|png|gif|bmp))$)

위의 정규식을 이해하기 위해서 하나씩 끌어내 보면 다음과 같이 해석할 수 있다.

( # 그룹 1의 시작 [^\s]+ # 공백을 제외한 하나 또는 그 이상의 문자열이 존재하여야 한다는 조건 ( # 그룹 2의 시작 \. # '.' 문자 (?i) # 이후의 문자들에 대해서 대/소문자를 무시 ( # 그룹 3의 시작 jpg # 'jpg' 문자 포함 | # 또는 png # 'png' 문자 포함 | # 또는 gif # 'gif' 문자 포함 | # 또는 bmp # 'bmp' 문자 포함 ) # 그룹 3의 종료 ) # 그룹 2의 종료 $ # 문자열 종료 ) # 그룹 1의 종료

위의 내용은 “공백이 아닌 최소한 하나 이상의 문자열을 대상으로 ‘.’ 문자 이후에 ‘jpg’, ‘png’, ‘gif’, ‘bmp’ 문자가 포함된 것들을 대/소문자 구분 없이 찾는다” 라는 것이다. 더 많은 조건을 넣으려면 ‘|’ 문자와 대상으로 할 문자를 더 추가하면 된다.

실제 코드에서 사용하는 방법은 아래의 예제와 같다.

package com.msfl.study.regex;
 
import java.util.regex.Matcher;
import java.util.regex.Pattern;
 
public class ExtensionsValidator {
   private Pattern pattern;
   private Matcher matcher;
 
   private static final String EXTENSION_PATTERN = "([^\\s]+(\\.(?i)(jpg|png|gif|bmp))$)";
 
   public ExtensionsValidator (){
   this.pattern = Pattern.compile(EXTENSION_PATTERN);
   }
 
   /**
   * 파라미터로 전달된 문자열을 정규표현식을 통해서 검사하고
   * 지정한 확장자 패턴에 맞으면 true, 아니면 false 를 반환한다.
   */
   public boolean validate(final String target){
    matcher = pattern.matcher(target);
   return matcher.matches(); 
   }
}

위의 자바 코드는 정규표현식으로 확장자를 검사하는 아주 간단한 클래스로 validate 메서드를 호출해서 지정한 확장자가 포함되었는지를 검사하는 것이다. 이 반환 결과를 통해서 필요한 로직을 처리하면 된다.

정규 표현식?

정규 표현식이 필요한 이유는 너무나 많다. 어떤 규칙성을 가지는 문자열에 대한 검증이 필요하다면 거의 대부분 적용이 필요하다고 생각하면 된다. 데이터 검증 뿐만 아니라 필요한 포맷에 맞도록 입력을 유도하는 경우에도 사용하면 쉽게 구현이 가능하다.

정규 표현식은 사전적인 의미로 정의를 하면 “특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 형식 언어” 가 된다. 주로 프로그래밍 언어나 텍스트 에디터 등에서 문자열의 치환이나 검색등의 용도로 많이 사용되고 있다. 그런데 쉽게 접근을 허용하지 않는 도도함은 바로 지랄맞게 가독성이 떨어지는 표현식과 의미라고 할 수 있다.

정규 표현식의 표준은 POSIX 표현식과 이를 기반으로 확장된 Perl 방식의 PCRE 가 존재한다. 물론 더 많은 표현식들이 존재하지만 실제 약간의 차이점만 존재할 뿐  실제 사용하는 규칙들은 거의 비슷하다고 생각하면 된다.

정규 표현식의 용어들

정규 표현식에서 사용되는 기호를 Meta문자라고  표현한다. 표현식에서 내부적으로 특정 의미를 가지는 문자를 말하며 간단하게 정리하면 아래의 표와 같다.



 표현식
의미 
 ^x
 문자열의 시작을 표현하며 x 문자로 시작됨을 의미한다.
x$
 문자열의 종료를 표현하며 x 문자로 종료됨을 의미한다.
 .x
 임의의 한 문자의 자리수를 표현하며 문자열이 x 로 끝난다는 것을 의미한다.
 x+
 반복을 표현하며 x 문자가 한번 이상 반복됨을 의미한다.
 x?
 존재여부를 표현하며 x 문자가 존재할 수도, 존재하지 않을 수도 있음을 의미한다.
 x*
 반복여부를 표현하며 x 문자가 0번 또는 그 이상 반복됨을 의미한다.
 x|y
 or 를 표현하며 x 또는 y 문자가 존재함을 의미한다.
 (x)
그룹을 표현하며 x 를 그룹으로 처리함을 의미한다.
 (x)(y)
그룹들의 집합을 표현하며 앞에서 부터 순서대로 번호를 부여하여 관리하고 x, y 는 각 그룹의 데이터로 관리된다.
 (x)(?:y)
그룹들의 집합에 대한 예외를 표현하며 그룹 집합으로 관리되지 않음을 의미한다. 
 x{n}
 반복을 표현하며 x 문자가 n번 반복됨을 의미한다.
 x{n,}
 반복을 표현하며 x 문자가 n번 이상 반복됨을 의미한다.
 x{n,m}
 반복을 표현하며 x 문자가 최소 n번 이상 최대 m 번 이하로 반복됨을 의미한다.

Meta 문자들 중에서 좀 더 특수하게 사용되는 문자들이 존재한다. '[]' 는 내부에 지정된 문자열의 범위 중에서 한 문자만을 선택하다는 특수한 의미를 가진다. 그리고 내부에서 Meta문자를 사용하면 다른 의미를 가지고 동작할 수 있으므로 잘 확인하고 사용해야 한다. 좀 더 특별한 용도로 사용되는 것들은 아래의 표와 같다. 



 표현식
의미 
[xy]
문자 선택을 표현하며 x 와 y 중에 하나를 의미한다.
 [^xy]
not 을 표현하며  x 및 y 를 제외한 문자를 의미한다.
 [x-z]
range를 표현하며 x ~ z 사이의 문자를 의미한다. 
 \^
escape 를 표현하며 ^ 를 문자로 사용함을 의미한다.
 \b
word boundary를 표현하며 문자와 공백사이의 문자를 의미한다.
 \B
non word boundary를 표현하며 문자와 공백사이가 아닌 문자를 의미한다.
 \d
digit 를 표현하며 숫자를 의미한다. 
 \D
non digit 를 표현하며 숫자가 아닌 것을 의미한다. 
 \s
space 를 표현하며 공백 문자를 의미한다. 
 \S
non space를 표현하며 공백 문자가 아닌 것을 의미한다.
 \t
tab 을 표현하며 탭 문자를 의미한다.
 \v
vertical tab을 표현하며 수직 탭(?) 문자를 의미한다.
 \w
word 를 표현하며 알파벳 + 숫자 + _ 중의 한 문자임을 의미한다. 
 \W
non word를 표현하며 알파벳 + 숫자 + _ 가 아닌 문자를 의미한다. 

정규표현식을 사용할 때 Flag 라는 것이 존재하는데 Flag를 사용하지 않으면 문자열에 대해서 검색을 한번만 처리하고 종료하게 된다. Flag는 다음과 같은 것들이 존재한다.



 Flag
의미 
 g
Global 의 표현하며 대상 문자열내에 모든 패턴들을 검색하는 것을 의미한다. 
 i
Ignore case 를 표현하며 대상 문자열에 대해서 대/소문자를 식별하지 않는 것을 의미한다.
 m
Multi line을 표현하며 대상 문자열이 다중 라인의 문자열인 경우에도 검색하는 것을 의미한다. 

몇 가지 사례들

  • 한글 코드 (단순) - /[ㄱ-ㅎ|ㅏ-ㅣ|가-힣]/ 로 구성이 가능하다. 단, 한글 문제는 단순하지 않으므로 좀 더 좋은 방법을 찾는 것이 좋다.
  • 숫자 - /[0-9]/g
  • 이메일 - /^[0-9a-zA-Z]([-_\.]?[0-9a-zA-Z])*@[0-9a-zA-Z]([-_\.]?[0-9a-zA-Z])*\.[a-zA-Z]{2,3}$/i
  • 모든 공백 - /\s/g
  • 전화번호 - /^\d{3}-\d{3,4}-\d{4}$/
  • 핸드폰 번호 - /^01([0|1|6|7|8|9]?)-?([0-9]{3,4})-?([0-9]{4})$/
  • URL - ^(https?):\/\/([^:\/\s]+)(:([^\/]*))?((\/[^\s/\/]+)*)?\/?([^#\s\?]*)(\?([^#\s]*))?(#(\w*))?$

위의 사례들이 정답이라고 할 수는 없다. 상황에 따라서 위의 기본적인 정규식에 필요한 부분들을 첨삭하여 사용하면 될 듯 하다.

참고사항

정리는 하기는 했지만 실제로 사용하기 위해서는 여러 가지로 변경해 가며 테스트를 해 봐야 한다. 그런데 딱히 정규식을 테스트할만한 도구가 없다. 유용하게 사용할 수 있는 툴들이 제공되는 사이트로 많이 사용하는 것들은 다음과 같다.


그 외에도 상당히 많은 사이트들이 정규 표현식을 정리하여 소개하고 있다.

댓글

  1. 깔끔하게 정리 잘해주셨네요~~^^ 감사합니다.

    답글삭제
  2. 도움이 되셨다니 다행입니다.
    오늘도 좋은 하루되세요. ^^

    답글삭제
  3. 정리 감사합니다. 다만 스크롤시 나오는 광고는 display None 해버렸습니다

    답글삭제
    답글
    1. 불편을 드려 죄송합니다.
      도움이 되셨기를 바랍니다.
      오늘도 좋은 하루되세요.

      삭제

댓글 쓰기

이 블로그의 인기 게시물

OData 에 대해서 알아보자.

얼마 전에 어떤 회사에 인터뷰를 하러 간 적이 있었다. 당시 그 회사는 자체 솔루션을 개발할 기술인력을 찾고 있었고 내부적으로 OData를 사용한다고 했다. 좀 창피한 이야기일 수도 있지만 나름 기술적인 부분에서는 많은 정보를 가지고 있다고 했던 것이 무색하게 OData란 단어를 그 회사 사장님에게서 처음 들었다. 작고, 단순한 사이트들만을 계속해서 작업을 하다 보니 어느덧 큰 줄기들을 잃어버린 것을 느끼기 시작했다. 명색이 개발이 좋고, 기술적인 기반을 만들려고 하는 인간이 단어조차도 모른다는 것은 있을 수 없는 것이라서 다시 새로운 단어들과 개념들을 알아보는 시간을 가지려고 한다. OData (Open Data Protocol) 란? 간단히 정리하면 웹 상에서 손쉽게 데이터를 조회하거나 수정할 수 있도록 주고 받는 웹(프로토콜)을 말한다. 서비스 제공자 입장에서는 웹으로 데이터를 제공하는 방식으로 각 포탈 사이트들이 제공하는 OPEN API 포맷을 독자적인 형식이 아니라 오픈된 공통규약으로 제공 가능하며, 개발자는 이 정보를 다양한 언어의 클라이언트 라이브러리로 어플리케이션에서 소비할 수 있도록 사용하면 된다. 공식 사이트는 www.odata.org 이며 많은 언어들을 지원하고 있다. 좀더 상세하게 정의를 해 보면 OData는 Atom Publishing Protocol  (RFC4287) 의 확장 형식이고 REST (REpresentational State Transfer) Protocol 이다. 따라서 웹 브라우저에서 OData 서비스로 노출된 데이터를 볼 수 있다. 그리고 AtomPub 의 확장이라고 했듯이 데이터의 조회만으로 한정되는 것이 아니라 CRUD 작업이 모두 가능하다. Example 웹 브라우저에서 http://services.odata.org/website/odata.svc 를 열어 보도록 하자. This XML file does not appear to have any style in...

C# 에서 Timer 사용할 때 주의할 점.

예전에 알고 지내시던 분의 질문을 받았다. Windows Forms 개발을 하는데, 주기적 (대략 1분)으로 데이터 요청을 하는 프로그램을 작성하기 위해서 Timer 를 사용하는데, 어떤 기능을 처리해야 하기 때문에 Sleep 을 같이 사용했다고 한다. 여기서 발생하는 문제는 Sleep 5초를 주었더니, Timer 까지 5초 동안 멈춘다는 것이다. Timer 라는 것은 기본적으로 시간의 흐름을 측정하는 기능이기 때문에 Sleep 을 했다고 해서 Timer 가 멈추는 일은 생겨서는 안된다. 그러나 실제 샘플을 만들어 보면 ... Timer 가 Sleep 만큼 동작이 멈추는 것을 확인할 수 있다. Windows Forms 는 UI Thread 를 사용하는 것으로 최적화 되어 있으며 여기서 Timer 를 쓰면 UI Thread 에 최적화된 System.Windows.Forms.Timer 가 사용된다. 여기서 문제의 발생이 시작되는 것이다. Sleep 을 사용하게 되면 UI Thread 가 Sleep 이 걸리기 때문에 여기에 속한 Timer 까지도 멈추는 것이다. 이런 문제를 해결하기 위해서는 System.Threading.Timer 를 사용해야 한다. 이 Timer 는 별도의 Thread 에서 동작하기 때문에 Sleep 의 영향을 받지 않는다. 언뜻 보면 쉬운 해결 방법인 것 같지만 Thread 가 분리되었기 때문에 Timer 가 돌아가는 Thread 에서 UI Thread 의 메서드나 컨트롤에 접근하기 위해서는 별도의 명령을 사용해야 하는 문제가 존재한다. 자~ 그럼 여기서 Timer 에 대해서 다시 한번 정리해 보도록 하자. .NET 에서 제공하는 Timer 들 .NET 에서는 기본적으로 3가지 Timer를 제공하고 있다. (MSDN) System.Windows.Forms.Timer - 사용자가 지정한 간격마다 이벤트를 발생시키며 Windows Forms 응용 프로그램에서 사용할 수 있도록 최적화 되어 있다. System...

[Logging] NLog 사용법 정리...

SCSF 에는 기본적으로 Enterprise Library가 사용된다. 예전에도 그랬지만 기능은 훌륭하고 많은 부분에서 최적화(?)된 것일지도 모르지만, 역시나 사용하기에는 뭔가 모르게 무겁고, 사용하지 않는 기능이 더 많다라는 느낌을 지울수가 없다. 이번 프로젝트도 SCSF를 기반으로 하고 있지만, Enterprise Library를 걷어내고 각 부분에 전문화된 오픈 소스를 사용하기로 하였다. 예전에는 Log4Net을 사용했지만, 대량 사용자 환경에서는 메모리 누수와 기타 문제점이 존재한다는 MS 컨설턴트(?)의 전해진 말을 들은 후로는 사용하지 않는다. 대안으로 사용하는 것이 NLog 이다. 조금 후에는 3.0 버전도 나온다고 홈 페이지에 기재되어 있지만, 그 때가 되면 프로젝트는 끝나기 때문에 현재 2.1.0 버전을 사용하기로 했다. [원본 출처] http://cloverink.net/most-useful-nlog-configurations-closed/ 위의 참조 자료에는 다양한 정보들이 존재하므로 꼭 링크를 통해서 관련된 정보를 확인하고 이해하는 것이 좋을 듯 하다. 여기서는 당장 필요한 부분만을 정리하도록 한다. [ Logger 찾기 ] 기본적으로 Logger가 존재하는 클래스를 기반으로 Logger 정보를 구성한다. Logger logger = LogManager.GetCurrentClassLogger(); 주로 Namespace 기반으로 Logger를 설정하는 경우에 유연하게 사용할 수 있다. 또 다른 방법으로는 지정한 문자열로 특정 Logger를 직접 선택하는 방법도 제공된다. 이를 혼용해서 Namespace와 직접 지정 방식을 같이 사용할 수도 있다. 물론 Logger 환경 설정에서 Wildcard (*)를 지정할 수도 있다. Logger logger = LogManager.GetLogger("Database.Connect"); Logger logger = LogManager.Get...