【Python】正規表現を使って複雑な文字列を操作する方法【reモジュールの使い方】

この記事では、Python の reモジュールの使い方を解説します。

reモジュールを使うことで正規表現を使った文字列の取得、分割、置換を行うことができます。正規表現を使うので複雑な文字列にも対応可能です。

正規表現については以下の記事を参考にしてください。

【Python】正規表現の書き方を学ぼう！この記事では、Python で正規表現を使う方法を解説します。文字のパターンによってそれが何を表しているかわかる場合があります。そんな文字列は正規表現を使うことで簡単に取得することができます。それでは、正規表現の使い方を見ていきましょう！...

reモジュールは、標準ライブラリです。インポートするだけで使えます。

import re

それでは、reモジュールの使い方を見ていきましょう❗️

マッチオブジェクトの取得
マッチオブジェクト
- マッチした文字列を取得する
- マッチのインデックス
全てのマッチを文字列のリストで返す
正規表現オブジェクト
パターンで分割
パターンで置換
まとめ

マッチオブジェクトの取得

文字列にパターン(正規表現)がマッチすれば、対応したマッチオブジェクトが返されます。マッチオブジェクトについては後述します。

先頭のマッチ[re.match]

re.match(pattern, string, flags=0)

string(文字列) の先頭で pattern(正規表現) にマッチすれば、対応するマッチオブジェクトを返します。

import re match = re.match('abc', 'abcabc') print(f'マッチした箇所: {match.group()}') >> マッチした箇所: abc

先頭でなければマッチしない。

import re match = re.match('bc', 'abcabc') print(f'マッチした箇所: {match.group()}') >> AttributeError: 'NoneType' object has no attribute 'group'

最初のマッチ[re.search]

re.search(pattern, string, flags=0)

string(文字列) の最初に pattern(正規表現) にマッチした箇所に対応するマッチオブジェクトを返します。

import re match = re.search('abc', 'abcabc') print(f'マッチした箇所: {match.group()}') >> マッチした箇所: abc

もちろん、先頭以外の箇所でもマッチします。

import re match = re.search('bc', 'abcabc') print(f'マッチした箇所: {match.group()}') >> マッチした箇所: bc

全体のマッチ[re.fullmatch]

re.fullmatch(pattern, string, flags=0)

string(文字列) の全体が pattern(正規表現) にマッチすれば、対応するマッチオブジェクトを返します。Python 3.4 で追加。

import re match = re.fullmatch('abc', 'abc') print(f'マッチした箇所: {match.group()}') >> マッチした箇所: abc

一箇所でも違えばマッチしません。

import re match = re.fullmatch('ab', 'abc') print(f'マッチした箇所: {match.group()}') >> AttributeError: 'NoneType' object has no attribute 'group'

全ての重複しないマッチをイテレータで返す[re.finditer]

re.finditer(pattern, string, flags=0)

string(文字列)中の重複しないマッチに対応した全てのマッチオブジェクトをイテレータとして返します。

import re matchs = re.finditer('abc', 'abcabc') # イテレータとして返されるのでfor文で処理 for i, match in enumerate(matchs, 1): print(f'{i}回目のマッチ: {match.group()}') >> 1回目のマッチ: abc >> 2回目のマッチ: abc

マッチオブジェクト

マッチオブジェクトの bool値は True です。なので、マッチしたかどうかは以下のように簡単に判定できます。

import re match = re.match(pattern, string) if match: # マッチオブジェクト有り

マッチした文字列を取得する

group()メソッドを使うことでマッチした箇所の文字列を取得することができます。

import re match = re.match('.+=.+', 'age=20') print(f'マッチした箇所: {match.group()}') # >> マッチした箇所: age=20 # 引数に0を指定しても同じ print(f'マッチした箇所: {match.group(0)}') >> マッチした箇所: age=20

グループ化してある場合は、引数にグループのインデックスを指定することでグループごとに取得することができます。

import re match = re.match('(.+)=(.+)', 'age=20') print(match.group(1), match.group(2)) >> age 20 # 複数の引数を指定することで、まとめてタプルとして取得可能 print(match.group(1, 2)) >> ('age', '20')

グループにグループ名が指定されている場合は、グループ名を指定することで対応した文字列を取得することができます。

import re match = re.match('(?P<section>.+)=(?P<value>.+)', 'age=20') print(match.group('section'), match.group('value')) >> age 20

groupdict()メソッドを使うことでグループ名を key、マッチを value として格納した辞書を取得できます。

import re match = re.match('(?P<section>.+)=(?P<value>.+)', 'age=20') print(match.groupdict()) >> {'section': 'age', 'value': '20'}

groups()メソッドを使えば、マッチしたグループ全てをタプルとして取得できる。

import re match = re.match('(.+)=(.+)', 'age=20') print(f'グループ: {match.groups()}') >> グループ: ('age', '20') match = re.match('(.+)=(.+)?', 'age=') # マッチしなかったグループにはNoneが返される print(f'グループ: {match.groups()}') >> グループ: ('age', None) # 引数でデフォルト値を指定できる print(f'グループ: {match.groups(0)}') >> グループ: ('age', 0)

マッチのインデックス

マッチした箇所の先頭のインデックスを start()メソッド、末尾のインデックスを end()メソッドで取得することができます。

import re match = re.match('(.+)=(.+)', 'age=20') print(f'マッチ: {match.group()}, 先頭: {match.start()}, 末尾: {match.end()}') >> マッチ: age=20, 先頭: 0, 末尾: 6

引数でグループを指定することができます。

print(f'マッチ: {match.group(1)}, 先頭: {match.start(1)}, 末尾: {match.end(1)}') >> マッチ: age, 先頭: 0, 末尾: 3 print(f'マッチ: {match.group(2)}, 先頭: {match.start(2)}, 末尾: {match.end(2)}') >> マッチ: 20, 先頭: 4, 末尾: 6

span()メソッドで先頭と末尾のインデックスを保持したタプルを受け取ることができます。こちらのメソッドも引数でグループを指定可能です。

import re match = re.match('(.+)=(.+)', 'age=20') print(f'マッチ: {match.group()}, span: {match.span()}') >> マッチ: age=20, span: (0, 6) print(f'マッチ: {match.group(1)}, span: {match.span(1)}') >> マッチ: age, span: (0, 3) print(f'マッチ: {match.group(2)}, span: {match.span(2)}') >> マッチ: 20, span: (4, 6)

全てのマッチを文字列のリストで返す

re.findall()メソッドを使うことで全てのマッチを文字列のリストと取得できます。

re.findall(pattern, string, flags=0)

string(文字列)中のマッチした文字列をリストとして返します。

import re matchs = re.findall('abc', 'abcabcabc') print(matchs) >> ['abc', 'abc', 'abc']

正規表現オブジェクト

正規表現オブジェクトをコンパイルすることでそのオブジェクトから match()メソッドや sertch()メソッドを呼び出すことが可能となります。

同じパターンで何度も処理をしたい場合には、正規表現オブジェクトを生成し、再利用した方が効率的です。

正規表現オブジェクトをコンパイルするには re.compile()メソッドを使います。

re.compile(pattern, flags=0)

例えば、このようなコードは、

obj = re.compile(pattern) result = obj.search(string)

以下のコードと同等です。

result = re.search(pattern, string)

パターンで分割

re.split()メソッドは、マッチした箇所で分割することができます。

re.split(pattern, string, maxsplit=0, flags=0)

マッチした部分は消えちゃうので注意しましょう。

import re s = re.split('\W', 'abc,abc,abc') print(f'リザルト: {s}') >> マッチした箇所: ['abc', 'abc', 'abc']

maxsplit を指定することで最大分割回数を指定することができます。

import re s = re.split('\W', 'abc,abc,abc', 1) print(f'リザルト: {s}') >> リザルト: ['abc', 'abc,abc']

パターンで置換

re.sub()メソッドは、マッチした箇所を指定した文字列に置換することができます。

re.sub(pattern, repl, string, count=0, flags=0)

repl に置換する文字列を指定します。

import re s = re.sub('\W', '-', 'abc,abc,abc') print(f'リザルト: {s}') >> リザルト: abc-abc-abc

count引数を指定することで置換する回数を指定できます。

import re s = re.sub('\W', '-', 'abc,abc,abc', count=1) print(f'リザルト: {s}') # >> リザルト: abc-abc,abc

まとめ

この記事では、Python の reモジュールの使い方を解説しました。

正規表現を使うことで複雑な文字列に合わせて色々できます。

それでは今回の内容はここまでです。ではまたどこかで〜( ・∀・)ﾉ

re --- 正規表現操作

【Python】正規表現を使って複雑な文字列を操作する方法【reモジュールの使い方】

マッチオブジェクトの取得

先頭のマッチ[re.match]

最初のマッチ[re.search]

全体のマッチ[re.fullmatch]

全ての重複しないマッチをイテレータで返す[re.finditer]

マッチオブジェクト

マッチした文字列を取得する

マッチのインデックス

全てのマッチを文字列のリストで返す

正規表現オブジェクト

パターンで分割

パターンで置換

まとめ

【Python】構造体をなにかで代用する方法

【Python】pip自体のインストール方法【Mac/Windows】

【Python】オブジェクトを削除してメモリを解放する

【Python】型ヒントで使用する型を指定しよう【アノテーション】

【Python】プログラムを終了させるexit関数の使い方

【Python】構造体をなにかで代用する方法

【Python】pip自体のインストール方法【Mac/Windows】

【Python】オブジェクトを削除してメモリを解放する

マッチオブジェクトの取得

先頭のマッチ[re.match]

最初のマッチ[re.search]

全体のマッチ[re.fullmatch]

全ての重複しないマッチをイテレータで返す[re.finditer]

マッチオブジェクト

マッチした文字列を取得する

マッチのインデックス

全てのマッチを文字列のリストで返す

正規表現オブジェクト

パターンで分割

パターンで置換

まとめ

【Python】色々な無限イテレータを生成して使う

【Python】対話型シェルを使ってプログラムを実行してみる

【Python】sqlite3でデータベースを使う方法

プログラミング言語を学んだことがある方向けのPythonチュートリアル

【Python】明示的に例外(エラー)を発生させるraise文の使い方

【Python】CSVファイルを読み書きする方法【csvモジュール】

【Python】構造体をなにかで代用する方法

【Python】pip自体のインストール方法【Mac/Windows】

【Python】オブジェクトを削除してメモリを解放する

【Python】型ヒントで使用する型を指定しよう【アノテーション】

【Python】プログラムを終了させるexit関数の使い方

【Python】構造体をなにかで代用する方法

【Python】pip自体のインストール方法【Mac/Windows】

【Python】オブジェクトを削除してメモリを解放する