検索や置換がかんたんに！正規表現の基本的な使い方～Linuxやサクラエディタ～

2022年2月26日 2023年11月28日

中山テック代表

中山テック代表の中山です。

さて、タイトル通り今回は正規表現についてのブログとなります。

正規表現とは「文字列の集合を一つの文字列にする」といった表現がありますが、訳わかりません。

例えばテキストファイルに文字があり、下は改行のみ、その下に文字があるという場合。

改行のみを削除して文字列をつなげたい場合、普通の置換では難しく正規表現を使います。

まずは基礎、そして事例から見た応用方法をご説明したいと思います。

1 基本的な正規表現
2 どこで使うか
- 2.1 空行を消したい
3 応用
4 ～以外を抽出
5 まとめ

基本的な正規表現

まずは正規表現がどのような働きをするかお話します。

文字	意味	使用例	使用例の意味、シチュエーション
^	〇〇から始まる文字列	^中山テック	行頭「中山テック」から始まる文字列主に行数の多いファイル検索や置換で使用
$	〇〇で終わる文字列	中山テック$	行末「中山テック」で終わる文字列 *$で行全体
.	任意の一文字	中山.ック	「中山〇ック」といった文字列がないか検索したい時に使用
+	直前の文字が1回以上繰り返す場合	中山テ+ック	「中山テ」で始まり、「ック」で終わる文字列を検索したい場合
*	直前の文字が0回以上繰り返す場合	中山テ*ック	「テ」を何回使っているか検索する。「中山テテテック」でも「中山ック」でも引っかかるが、「中山タック」では引っかからない。「.ック」とは別物
?	直前の文字が0回または1回以上繰り返す場合	中山テ?ック	「テ」が0回、1回使われているか検索。「中山ック」や「中山テック」はOK。
.*	任意の文字が一文字以上	中山.*ック	「中山あいうえおテック」といった任意の文字列でも検索できる
\|	いずれかの条件に当てはまる（or）	中山\|テック	「中山」もしくは「テック」に当てはまる条件を検索したい場合
[文字]	いずれか一文字 ※文字指定	中山[て]	「中山てっく」と平仮名が入っているか調べたい場合など
[^文字]	含まれない	中山[^テ]ック	「中山テック」以外がないか調べたい場合など
[0-9]	数値検索	TOKYO[0-9]	範囲指定で「TOKYO2020」を調べる等
[a-z] [A-Z]	アルファベット検索	^[a-z][A-Z]	アルファベットで始まる文字を調べたいといった場合
\t	タブ		不要なタブがないかを検索

代表的な正規表現一覧

他にもまだまだありますが、よく使われる正規表現となります。

これ以外で必要なものは検索すると出てきますので是非調べてみてください。

どこで使うか

エディタやExcelなどで使用するケースが多いです。

普通にパソコンを使っている限り正規表現を使うことはないですが、大量の文字を扱う必要があり

検索したり置換したりする場合に役に立つので早速見ていきましょう。

※画像は「サクラエディタ」を使用しました。正規表現が簡単に使えるので便利ですョ！

空行を消したい

まず、下記の画像のように空行が多い場合は「^\r\n」で検索します。

やり方は「空行を検索」「空行を何もなし」に置換します。

サクラエディタの場合は「検索」タブから「置換」を選択します。

「正規表現」には必ずチェックを入れること。条件指定完了後、「すべて置換」ボタンをクリック

これで改行のみの行はすべて削除されました。

^は行頭、上記画像の下部見ると「CRLF」とあるので改行コードは「\r\n」となります。

つまり「行頭に改行しかない行は削除する」という意味の正規表現になります。

応用

指定した文字の前の文字列を全て消す

上記は見出し（h2）タグを抜き出したものです。

しかしh2以前の文字列（検索結果、場所とファイル名）が邪魔です。

h2のタグで検索、削除しても結果は消えないですし、文字列も全部違います。

そこで「(.*)(<h)」という形で検索、置換後は「<h」だけを残します。

無事h2つきの見出しのみになりました。

だいぶ見やすくなったでしょう。

最短一致

正規表現には「最長一致」と「最短一致」という考え方があります。

ちなみに冒頭で説明した「*」は直前の文字を0回以上繰り返しているかを判定しています。

※中山テ*ックなら、「中山ック」でも検索に引っかかります

しかし、「*?」にすると考え方は違ってきます。

※〇文字以上の検索に?をつけると最短一致検索を行う

例えば、上記の検索結果「＜h2＞」「＜／h2＞」で囲まれたタグを検索するとしましょう。

すると＜h2＞～＜／h2＞のすべての文字列が検索に引っかかりました。

しかし、＜h2＞タグだけを消したい場合は「違う、そうじゃない」という状態になります。

そこで最短一致検索、*のうしろに?を付与します。

するとあらビックリ！

タグの箇所だけ検索に引っかかりました。

最長一致検索の場合、タグが複数あった場合は間の文字列も一致として見ているようです。

最短一致の場合はタグが複数あっても、タグのみを一致として見ています。

使い分けが難しいですが、覚えると非常に便利なので是非使ってみてください！

数値から始まる行を消したい

下記の正規表現で簡単に消せます。

^[0-9].*\r\n

※改行コードがCRのみの場合は「\r」、LFのみの場合は「\n」としてください

すべて置換ボタンを押下することですべて消えます。

その他タグのご紹介

文字	意味	使用例	使用例の意味、シチュエーション
*?	〇〇から始まる文字列（最短一致）	<.*?>	上記でも説明したが、タグのみを検索したい場合など
(...)	複数正規表現で検索するときの文字の塊	(.*)(<h)	<hまでの全ての文字列を検索
{n}	nは数値。繰り返し回数を指定。	[0-9]{4}	年を取得したい時 2022も←で引っかかる

追加正規表現一覧

～以外を抽出

この文字列では「タイトル：」から始まる行を抜き出したいと考えました。

もしサクラエディタのGrep機能を使うなら「タイトル：」で検索すれば良いのですが

正規表現を使用するのであれば「タイトル：」から始まるもの以外の行を削除するのが良いでしょう。

^(?!タイトル).+$\r\n

「タイトル」から始まる以外の行で、ついでに最後の改行も消しちゃえ！という正規表現です。

ほいで実行すると・・・

まとめ

いかがでしたでしょうか。

主に開発現場などで威力を発揮する正規表現。

しかし、ホームページ制作でも使えることも多く、是非覚えて欲しい技術になります。

他にもサーバにログインした時に文字列検索する際も非常に使えます。

「どのプログラムにブログで使った画像ファイル名の定義があったかなぁ・・・」という際には

grep -r "blog-[0-9]{8}-[0-9]{2}.jpg" *

これで「blog-20220111-01.jpg」といったファイルがどこで使えるかがわかります。

Excelでも使えますし、いろいろ試してみてください！

この記事を書いた人

中山テック代表

個人事業のシステムエンジニアです
前職はゴリゴリの営業マン(保険売りまくってた)
大抵のプログラミングはこなせます
環境構築もそれなりに出来るかと思います
趣味はゲーム、競馬、食べ歩き、旅行など
備忘と記録を残すためにブログを執筆しております

お仕事のお話は問い合わせフォームからお気軽にお声掛けください♪

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28