정규식은 텍스트 문자의 특정 시퀀스(일명 문자열)를 설명하는 패턴입니다. 정규식은 텍스트 본문에서 특정 문자열 또는 문자열의 클래스를 검색하거나 일치시키는 데 사용됩니다.

정규식을 사용하는 것은 와일드카드 검색을 수행하는 것과 같지만, 정규식이 훨씬 더 강력한 기능을 제공합니다. 정규식은 매우 간단하거나 매우 복잡할 수 있습니다. 간단한 정규식의 한 예로 cat을 들 수 있습니다.

이 경우 이 정규식을 적용하는 텍스트 본문에서 cat과 일치하는 첫 번째 문자 시퀀스 인스턴스를 찾습니다. cats, hepcat 등의 다른 문자열이 아닌 cat 단어만 찾도록 하려면 조금 더 복잡한 정규식 \\bcat\\b를 사용할 수 있습니다.

이 정규식에는 cat 시퀀스의 양쪽에 분철 지점이 있는 경우에만 일치하도록 하는 특수 문자가 포함되어 있습니다. 또 다른 예로, 일반 와일드카드 검색 문자열인 c+t와 거의 동일한 작업을 수행하려면 \bc\w+t\b와 같은 정규식을 사용할 수 있습니다.

이 정규식은 단어 경계(\b) 다음에 c가 나오고, 그 다음에 공백 또는 문장 부호가 아닌 하나 이상의 문자가 나오며(\w+), 그 다음에 t가 나오고, 그 다음에 단어 경계(\b)가 나오는 단어를 찾는 것을 의미합니다. 이 정규식은 cot, cat, croat 등의 단어를 찾으며, crate는 찾지 않습니다.

정규식은 상당히 복잡해질 수 있습니다. 다음 정규식은 모든 유효한 이메일 주소를 찾습니다.

\b[A-Za-z0-9._%-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}\b

정규식을 생성하는 방법에 대한 자세한 내용은 http://userguide.icu-project.org/strings/regexp 항목을 참조하십시오.