正規表現とは、文字列とも呼ばれるテキストの文字の特定の並びを記述するパターンです。正規表現は、テキスト本文内の特定の文字列または文字列のクラスを検索するため、またはマッチする項目を探すために使用します。

正規表現の使用方法はワイルドカード検索に似ていますが、それよりもはるかに強力です。非常にシンプルなものと、非常に複雑なものがあります。シンプルな正規表現の例としては、cat があります。

これは、適用するテキスト内でこの文字列が最初に表れる箇所を検索します。cat という語だけを見つけて、catshepcat を検索しないようにするには、もう少し複雑になった \bcat\b を使用します。

この表現には、cat という文字列の前後に単語区切りがある場合にのみマッチするように、特殊文字が含まれています。別の例としては、一般的なワイルドカード文字列 c+t による検索とほぼ同じ検索を行う \bc\w+t\b があります。

これは、単語区切り文字 (\b) に文字 c、1 文字以上のホワイトスペースや区切り文字以外の文字 (\w+)、文字 t、単語区切り文字 (\b) が続くということを意味しています。この表現は cotcatcroat にマッチしますが、crate にはマッチしません。

表現は非常に複雑なものにすることもできます。次の表現は任意の有効な電子メール アドレスにマッチします。

\b[A-Za-z0-9._%-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}\b

正規表現を作成する方法の詳細については、http://userguide.icu-project.org/strings/regexpを参照してください。