支援ツール | 英究特許ライブラリ

2020年7月25日2021年2月18日

[Python] csvの前処理

《　前処理の目的と内容　》

csvダウンロードした特許情報ファイルを編集して、分析に便利な情報を追加する前処理

〈出願件数〉
「出願件数」の列（column）を作って、出願件数として全ての行（row）に「１」を入力
〈筆頭出願人（出願人分析用）〉
「出願人」欄から、筆頭出願人を抽出。国籍（アルファベット２文字の国コード）が括弧書きされているとき、「出願人の国籍」の列（column）に出力。さらに抽出した「筆頭出願人」と同じデータを「筆頭出願人（名寄せ）」にコピー。「筆頭出願人（名寄せ）」は将来の名寄せ用の元データ。
〈最先の優先日（年次推移分析用）〉
「最先優先日」と「最先優先年」の列（column）を追加。「出願日」と「優先日」の欄から最先の日を抽出して「最先優先日」として出力。さらに、抽出した「最先優先日」からその年を抜き出して「最先優先年」として出力。
〈筆頭IPC（技術分野分析用）〉
「筆頭IPC(sub-class)」と「筆頭IPC(main-group)」の列（column）を追加。「IPC」の欄から、筆頭IPCを抽出して、サブクラス（先頭の４文字，”H01L”など）を「筆頭IPC(sub-class)」に、メイングループ（先頭の４文字，”H01L”などに続く「数字/数字」の前半部分）を「筆頭IPC(main-group)」に出力。
〈出願国（出願国分析用）〉
「JP」「WO」「US」「EP」「CN」「KR」の列（column）を追加。「ファミリー公報」の欄から、作成した列（column）に相当する国・地域への出願があれば「１」なければ「０」を出力。その国・地域への出願の有無を表すフラグ。同じ国・地域内でのファミリー展開に応じた件数は無視して、単に有無のみを判定。

《　プログラムの構成　》

＜入力＞
csvダウンロードしたデータから構成したEXCELファイル
複数シートを想定して、シート名を指定して処理
＜出力＞
指定したシート内への列（column）の追加
＜プログラム＞
上記１～５は関数として定義。処理対象のWokkBook名（EXCELファイル名）とシート名を指定して必要な前処理を実行する関数を呼び出す。

# -*- coding: utf-8 -*-
"""
csvDLから作成したEXCELテーブルの前処理

2020.07.18 newly created
"""
#
import re, os, openpyxl, datetime
#
#   関数定義
#
#   出願件数（1固定）
def num_application(file_name, sheet_name, col_n_apl):
    global path
    global col_out_start
    workbook = openpyxl.load_workbook(path+"\\"+file_name)
    sheet = workbook.get_sheet_by_name(sheet_name)
    print("Processing 出願件数 for file = ", file_name,  " sheet = ", sheet_name)
    # header
    sheet.cell(row=1,column=col_out_start).value = '出願件数'
    #
    for line in range(2, sheet.max_row+1):
        sheet.cell(row=line,column=col_out_start).value = 1
    #
    col_out_start = col_out_start +1
    workbook.save(path+"\\"+file_name)
#
#   筆頭出願人
#    国籍は、出願人欄に括弧書きで国コードが付されていることが前提
#    名寄せ欄は、筆頭出願人欄と同じ。後の名寄せ処理のため。
#
def applicant(file_name, sheet_name, col_n_apl):
    global path
    global col_out_start
    regex_CC = re.compile(r'\(([A-Z][A-Z])\)')    # Regex. of Country Code
    #
    workbook = openpyxl.load_workbook(path+"\\"+file_name)
    sheet = workbook.get_sheet_by_name(sheet_name)
    print("Processing 筆頭出願人 for file = ", file_name,  " sheet = ", sheet_name)
    # header
    sheet.cell(row=1,column=col_out_start).value = '筆頭出願人'
    sheet.cell(row=1,column=col_out_start+1).value = '筆頭出願人の国籍'
    sheet.cell(row=1,column=col_out_start+2).value = '筆頭出願人(名寄せ)'
    #
    for line in range(2, sheet.max_row+1):
        applicants = sheet.cell(row=line,column=col_n_apl).value.split(';')
        if type(applicants is list):
            applicant = applicants[0]
        else:
            applicant = applicants
        CC = regex_CC.search(applicant)
        if CC is None:
            Nationality = 'N/A'
        else:
            Nationality = CC.group(1)
            applicant = applicant[0:CC.start()-1]
        sheet.cell(row=line,column=col_out_start).value = applicant
        sheet.cell(row=line,column=col_out_start+1).value = Nationality
        sheet.cell(row=line,column=col_out_start+2).value = applicant
    #
    col_out_start = col_out_start +3
    workbook.save(path+"\\"+file_name)
#
#   最先の優先日とその年の抽出
#    最先の優先日：　出願日と優先日（複数優先も想定）のうち最先の日
#
def earliest_date(file_name, sheet_name, col_d_apl, col_d_pri):
    global path
    global col_out_start
    workbook = openpyxl.load_workbook(path+"\\"+file_name)
    sheet = workbook.get_sheet_by_name(sheet_name)
    print("Processing 最先優先日　for file = ", file_name,  " sheet = ", sheet_name)
    # header
    sheet.cell(row=1,column=col_out_start).value = '最先優先日'
    sheet.cell(row=1,column=col_out_start+1).value = '最先優先年'
    #
    for line in range(2, sheet.max_row+1):
        pp_date = sheet.cell(row=line,column=col_d_apl).value   # Apllication date
        if sheet.cell(row=line,column=col_d_pri).value is not None: # Priority dates
            if type(sheet.cell(row=line,column=col_d_pri).value) is str:
                p_dates = sheet.cell(row=line,column=col_d_pri).value.split(';')
                for p_date in p_dates:
                    if datetime.datetime.strptime(p_date, '%Y/%m/%d') < pp_date:
                        pp_date = datetime.datetime.strptime(p_date, '%Y/%m/%d')
            else:
                p_date = sheet.cell(row=line,column=col_d_pri).value
                if p_date < pp_date:
                    pp_date = p_date
        sheet.cell(row=line,column=col_out_start).value = pp_date
        sheet.cell(row=line,column=col_out_start+1).value = pp_date.year
    #
    col_out_start = col_out_start +2
    workbook.save(path+"\\"+file_name)
#
#   筆頭IPCのサブセクション、メイングループまでの抽出
#
def primary_IPC(file_name, sheet_name, col_IPC):
    global path
    global col_out_start
    workbook = openpyxl.load_workbook(path+"\\"+file_name)
    sheet = workbook.get_sheet_by_name(sheet_name)
    print("Processing 筆頭IPC　for file = ", file_name,  " sheet = ", sheet_name)
    # header
    sheet.cell(row=1,column=col_out_start).value = '筆頭IPC(sub-class)'
    sheet.cell(row=1,column=col_out_start+1).value = '筆頭IPC(main-group)'
    #
    for line in range(2, sheet.max_row+1):
        IPC = sheet.cell(row=line,column=col_IPC).value
        if IPC is None:
            IPC_class = 'N/A'
            IPC_group = 'N/A'
        else:
            IPC_class = IPC[0:4]
            IPC_group = IPC[0:IPC.find('/')]
        sheet.cell(row=line,column=col_out_start).value = IPC_class # 筆頭IPC(sub-class)
        sheet.cell(row=line,column=col_out_start+1).value = IPC_group # 筆頭IPC(main-group)
    #
    col_out_start = col_out_start +2
    workbook.save(path+"\\"+file_name)
#
#   出願国の抽出
#
def family_analysis(file_name, sheet_name, col_family):
    global path
    global col_out_start
    workbook = openpyxl.load_workbook(path+"\\"+file_name)
    sheet = workbook.get_sheet_by_name(sheet_name)
    print("Processing 出願国分析　for file = ", file_name,  " sheet = ", sheet_name)
    # regular expressions
    regex_WO = re.compile(r'WO|ＷＯ')
    regex_CN = re.compile(r'CN')
    regex_US = re.compile(r'US')
    regex_EP = re.compile(r'EP')
    regex_KR = re.compile(r'KR')
    regex_JP = re.compile(r'特|実')
    # header
    sheet.cell(row=1,column=col_out_start).value = 'WO'
    sheet.cell(row=1,column=col_out_start+1).value = 'CN'
    sheet.cell(row=1,column=col_out_start+2).value = 'US'
    sheet.cell(row=1,column=col_out_start+3).value = 'EP'
    sheet.cell(row=1,column=col_out_start+4).value = 'KR'
    sheet.cell(row=1,column=col_out_start+5).value = 'JP'
    #
    for line in range(2, sheet.max_row+1):
        family = sheet.cell(row=line,column=col_family).value # ファミリ出願番号（全世代）
        if family is None:
            sheet.cell(row=line,column=col_out_start).value = 0
            sheet.cell(row=line,column=col_out_start+1).value = 0
            sheet.cell(row=line,column=col_out_start+2).value = 0
            sheet.cell(row=line,column=col_out_start+3).value = 0
            sheet.cell(row=line,column=col_out_start+4).value = 0
            sheet.cell(row=line,column=col_out_start+5).value = 0
        else:
            if regex_WO.search(family) is None:
                sheet.cell(row=line,column=col_out_start).value = 0
            else:
                sheet.cell(row=line,column=col_out_start).value = 1
            if regex_CN.search(family) is None:
                sheet.cell(row=line,column=col_out_start+1).value = 0
            else:
                    sheet.cell(row=line,column=col_out_start+1).value = 1
            if regex_US.search(family) is None:
                sheet.cell(row=line,column=col_out_start+2).value = 0
            else:
                sheet.cell(row=line,column=col_out_start+2).value = 1
            if regex_EP.search(family) is None:
                sheet.cell(row=line,column=col_out_start+3).value = 0
            else:
                sheet.cell(row=line,column=col_out_start+3).value = 1
            if regex_KR.search(family) is None:
                sheet.cell(row=line,column=col_out_start+4).value = 0
            else:
                sheet.cell(row=line,column=col_out_start+4).value = 1
            if regex_JP.search(family) is None:
                sheet.cell(row=line,column=col_out_start+5).value = 0
            else:
                sheet.cell(row=line,column=col_out_start+5).value = 1
    #
    col_out_start = col_out_start +6
    workbook.save(path+"\\"+file_name)
#
# START OF PRE-PROCESSSING
#
# 入力データのカラム番号
col_n_apl = 5   # 出願人/権利者
col_n_inv = 6   # 発明者
col_d_apl = 7   #　出願日
col_d_pri = 10  # 優先日
col_IPC = 12    # IPC
col_family = 19 # ファミリー公報番号
# データ出力の開始カラム
col_out_start = 20
#
path = os.getcwd()
file_name  = "20200717_NintendoSWITCH_JP_108.xlsx"
#file_name  = "test.xlsx"
sheet_name = "db"
#
num_application(file_name, sheet_name, col_n_apl)
applicant(file_name, sheet_name, col_n_apl)
earliest_date(file_name, sheet_name, col_d_apl, col_d_pri)
primary_IPC(file_name, sheet_name, col_IPC)
family_analysis(file_name, sheet_name, col_family)
#

《　出願件数　num_application 関数の定義　》

#
#   出願件数（1固定）
def num_application(file_name, sheet_name, col_n_apl):
    global path
    global col_out_start
    workbook = openpyxl.load_workbook(path+"\\"+file_name)
    sheet = workbook.get_sheet_by_name(sheet_name)
    print("Processing 出願件数 for file = ", file_name,  " sheet = ", sheet_name)
    # header
    sheet.cell(row=1,column=col_out_start).value = '出願件数'
    #
    for line in range(2, sheet.max_row+1):
        sheet.cell(row=line,column=col_out_start).value = 1
    #
    col_out_start = col_out_start +1
    workbook.save(path+"\\"+file_name)
#

《　筆頭出願人　applicant 関数の定義　》

#
#   筆頭出願人
#    国籍は、出願人欄に括弧書きで国コードが付されていることが前提
#    名寄せ欄は、筆頭出願人欄と同じ。後の名寄せ処理のため。
#
def applicant(file_name, sheet_name, col_n_apl):
    global path
    global col_out_start
    regex_CC = re.compile(r'\(([A-Z][A-Z])\)')    # Regex. of Country Code
    #
    workbook = openpyxl.load_workbook(path+"\\"+file_name)
    sheet = workbook.get_sheet_by_name(sheet_name)
    print("Processing 筆頭出願人 for file = ", file_name,  " sheet = ", sheet_name)
    # header
    sheet.cell(row=1,column=col_out_start).value = '筆頭出願人'
    sheet.cell(row=1,column=col_out_start+1).value = '筆頭出願人の国籍'
    sheet.cell(row=1,column=col_out_start+2).value = '筆頭出願人(名寄せ)'
    #
    for line in range(2, sheet.max_row+1):
        applicants = sheet.cell(row=line,column=col_n_apl).value.split(';')
        if type(applicants is list):
            applicant = applicants[0]
        else:
            applicant = applicants
        CC = regex_CC.search(applicant)
        if CC is None:
            Nationality = 'N/A'
        else:
            Nationality = CC.group(1)
            applicant = applicant[0:CC.start()-1]
        sheet.cell(row=line,column=col_out_start).value = applicant
        sheet.cell(row=line,column=col_out_start+1).value = Nationality
        sheet.cell(row=line,column=col_out_start+2).value = applicant
    #
    col_out_start = col_out_start +3
    workbook.save(path+"\\"+file_name)
#

《　最先の優先日　earliest_date 関数の定義　》

#
#   最先の優先日とその年の抽出
#    最先の優先日：　出願日と優先日（複数優先も想定）のうち最先の日
#
def earliest_date(file_name, sheet_name, col_d_apl, col_d_pri):
    global path
    global col_out_start
    workbook = openpyxl.load_workbook(path+"\\"+file_name)
    sheet = workbook.get_sheet_by_name(sheet_name)
    print("Processing 最先優先日　for file = ", file_name,  " sheet = ", sheet_name)
    # header
    sheet.cell(row=1,column=col_out_start).value = '最先優先日'
    sheet.cell(row=1,column=col_out_start+1).value = '最先優先年'
    #
    for line in range(2, sheet.max_row+1):
        pp_date = sheet.cell(row=line,column=col_d_apl).value   # Apllication date
        if sheet.cell(row=line,column=col_d_pri).value is not None: # Priority dates
            if type(sheet.cell(row=line,column=col_d_pri).value) is str:
                p_dates = sheet.cell(row=line,column=col_d_pri).value.split(';')
                for p_date in p_dates:
                    if datetime.datetime.strptime(p_date, '%Y/%m/%d') < pp_date:
                        pp_date = datetime.datetime.strptime(p_date, '%Y/%m/%d')
            else:
                p_date = sheet.cell(row=line,column=col_d_pri).value
                if p_date < pp_date:
                    pp_date = p_date
        sheet.cell(row=line,column=col_out_start).value = pp_date
        sheet.cell(row=line,column=col_out_start+1).value = pp_date.year
    #
    col_out_start = col_out_start +2
    workbook.save(path+"\\"+file_name)
#

《　筆頭IPC　primary_IPC 関数の定義　》

#
#   筆頭IPCのサブセクション、メイングループまでの抽出
#
def primary_IPC(file_name, sheet_name, col_IPC):
    global path
    global col_out_start
    workbook = openpyxl.load_workbook(path+"\\"+file_name)
    sheet = workbook.get_sheet_by_name(sheet_name)
    print("Processing 筆頭IPC　for file = ", file_name,  " sheet = ", sheet_name)
    # header
    sheet.cell(row=1,column=col_out_start).value = '筆頭IPC(sub-class)'
    sheet.cell(row=1,column=col_out_start+1).value = '筆頭IPC(main-group)'
    #
    for line in range(2, sheet.max_row+1):
        IPC = sheet.cell(row=line,column=col_IPC).value
        if IPC is None:
            IPC_class = 'N/A'
            IPC_group = 'N/A'
        else:
            IPC_class = IPC[0:4]
            IPC_group = IPC[0:IPC.find('/')]
        sheet.cell(row=line,column=col_out_start).value = IPC_class # 筆頭IPC(sub-class)
        sheet.cell(row=line,column=col_out_start+1).value = IPC_group # 筆頭IPC(main-group)
    #
    col_out_start = col_out_start +2
    workbook.save(path+"\\"+file_name)
#

《　出願国　family_analysis 関数の定義　》

#
#   出願国の抽出
#
def family_analysis(file_name, sheet_name, col_family):
    global path
    global col_out_start
    workbook = openpyxl.load_workbook(path+"\\"+file_name)
    sheet = workbook.get_sheet_by_name(sheet_name)
    print("Processing 出願国分析　for file = ", file_name,  " sheet = ", sheet_name)
    # regular expressions
    regex_WO = re.compile(r'WO|ＷＯ')
    regex_CN = re.compile(r'CN')
    regex_US = re.compile(r'US')
    regex_EP = re.compile(r'EP')
    regex_KR = re.compile(r'KR')
    regex_JP = re.compile(r'特|実')
    # header
    sheet.cell(row=1,column=col_out_start).value = 'WO'
    sheet.cell(row=1,column=col_out_start+1).value = 'CN'
    sheet.cell(row=1,column=col_out_start+2).value = 'US'
    sheet.cell(row=1,column=col_out_start+3).value = 'EP'
    sheet.cell(row=1,column=col_out_start+4).value = 'KR'
    sheet.cell(row=1,column=col_out_start+5).value = 'JP'
    #
    for line in range(2, sheet.max_row+1):
        family = sheet.cell(row=line,column=col_family).value # ファミリ出願番号（全世代）
        if family is None:
            sheet.cell(row=line,column=col_out_start).value = 0
            sheet.cell(row=line,column=col_out_start+1).value = 0
            sheet.cell(row=line,column=col_out_start+2).value = 0
            sheet.cell(row=line,column=col_out_start+3).value = 0
            sheet.cell(row=line,column=col_out_start+4).value = 0
            sheet.cell(row=line,column=col_out_start+5).value = 0
        else:
            if regex_WO.search(family) is None:
                sheet.cell(row=line,column=col_out_start).value = 0
            else:
                sheet.cell(row=line,column=col_out_start).value = 1
            if regex_CN.search(family) is None:
                sheet.cell(row=line,column=col_out_start+1).value = 0
            else:
                    sheet.cell(row=line,column=col_out_start+1).value = 1
            if regex_US.search(family) is None:
                sheet.cell(row=line,column=col_out_start+2).value = 0
            else:
                sheet.cell(row=line,column=col_out_start+2).value = 1
            if regex_EP.search(family) is None:
                sheet.cell(row=line,column=col_out_start+3).value = 0
            else:
                sheet.cell(row=line,column=col_out_start+3).value = 1
            if regex_KR.search(family) is None:
                sheet.cell(row=line,column=col_out_start+4).value = 0
            else:
                sheet.cell(row=line,column=col_out_start+4).value = 1
            if regex_JP.search(family) is None:
                sheet.cell(row=line,column=col_out_start+5).value = 0
            else:
                sheet.cell(row=line,column=col_out_start+5).value = 1
    #
    col_out_start = col_out_start +6
    workbook.save(path+"\\"+file_name)
#

2020年7月17日2021年2月18日

[Python] ダウンロードしたcsvファイル（zip圧縮）を解凍

に、abcd.zipに圧縮されダウンロードされたcsvファイルが複数格納されている。解凍するとcsvDLフォルダ内にabcdフォルダが解凍され、その中にabcd-xyz.csvファイルが再生される。

〖前提〗
　csvDLフォルダの作られているフォルダ（１階層上のフォルダ）に、pythonのプログラム（スクリプト）（”unzip.py”）が保存されていて、Spyderを使ってプログラムの開発と実行を行う。（開発したプログラムは、どこか共通フォルダを作って集中管理する方が効率的だが、事例ごとに細かい仕様が変わるので、ローカルコピーを作ってカスタマイズしている。）

〖使用するモジュール〗
os：ファイルやフォルダ（ディレクトリ）の管理　［step 1］
zipfile：zipファイルの解凍や圧縮　［step 2］

〖プログラム〗

[step 1] csvDLフォルダにあるファイルとフォルダのリストを取得する。

# -*- coding: utf-8 -*-
“””
unzip csv files downloaded in “csvDL” folder
Created on 2020.07.07 by H. Kojima

“””
import os
path = os.getcwd()
files = os.listdir(path+”\\csvDL”)
for file in files:
print(file)

実行結果

[step 2] “unzip”フォルダを作成し（mkdir）、圧縮されたファイル（”.zip”の拡張値を持つ）をそのフォルダー内に解凍する。

# -*- coding: utf-8 -*-
“””
unzip csv files downloaded in “csvDL” folder
Created on 2020.07.07 by H. Kojima

“””
import os
import zipfile
#
path = os.getcwd()
files = os.listdir(path+”\\csvDL”)
os.mkdir(path+”\\csvDL\\unzip”)
for file in files:
if file[len(file)-4:] == “.zip”:
print(“extractiong: “, file)
with zipfile.ZipFile(path+”\\csvDL\\”+file) as zf:
zf.extractall(path+”\\csvDL\\unzip”)

〖実行結果〗

2020年7月16日2022年10月1日

[Python] 基礎-5　正規表現（regular expression）

正規表現（regular expression）（末尾のまとめ表）を使った、高機能な文字列

1.　一般的な流れ

１．１　関数

”re”モジュールをインポート：import re
プログラム中に関数

match関数：　re.match(r’ 正規表現’, 検査対象文字列)
　　　　　　　戻り値 ⇒ 先頭が一致なら一致した文字列／不一致ならNONE

search関数：　re.search(r’ 正規表現’, 検査対象文字列)
　　　　　　　戻り値 ⇒ 検査対象文字列中の正規表現に合致する文字列／不一致ならNONE

findall関数：　re.findall(r’ 正規表現’, 検査対象文字列)
　　　　　　　戻り値 ⇒ 検査対象文字列中の正規表現に合致する全文字列のリスト

オブジェクトを構成するspan( 始点 , 終点 )とmatch（マッチしたパターン）を取得する
始点：re.search(r’ 正規表現’, 検査対象文字列) .start()
終点：re.search(r’ 正規表現’, 検査対象文字列) .end()
span：re.search(r’ 正規表現’, 検査対象文字列) .span()
マッチしたパターン：re.search(r’ 正規表現’, 検査対象文字列) .group()
マッチしたパターンのリスト：re.search(r’ 正規表現’, 検査対象文字列) .groups()

１．２　searchメソッド：正規表現に合致する文字列を取得する

”re”モジュールをインポート：import re
Regexオブジェクトを生成：re_obj = re.compile(正規表現)
Regexオブジェクトにsearch(検索対象文字列)メソッドを作用させてMatchオブジェクトを返す：match_obj = re_obj.search(‘検索対象文字列’)
（’検索対象文字列’の中で、2の正規表現に一致する部分をMatchオブジェクトとして返す）
group()メソッドを使って、Matchオブジェクトからマッチした文字列を取得：match_obj.group()

市外局番は多数桁もあり、局番も1～4桁までいろいろある。さらにハイフン「-」ではなくカッコ「(局番)」が使われる場合もある。正規表現なら複雑な表現にも対応可能。

\d{2,5}: 2～5桁の数字
[-()]: 「-」「(」「)」のうちのいずれか1文字
\d{1,4}: 1～4桁の数字
[-)]*: 「-」「)」のうちのいずれか1文字*
\d{4}: 4桁の数字
（詳しくは、「まとめ表」を参照）

2.　group()メソッド、groups()メソッド

複数のパターンマッチングを並行に行う
複数のグループを含む正規表現を定義・・・カッコ（　）でグルーピング
match_obj.group(数字)で、マッチしたグループを個別に参照

groups()メソッドを使えば、マッチした複数のグループをタプル形式で取得できる
タプルから変数への複数代入を使えば、1行のコマンドで複数の変数に代入できる

3.　貪欲マッチ（greedy match）／非貪欲マッチ

貪欲マッチ（greedy match）：ある正規表現にマッチする複数のパターン（文字列）があるときに、最も長いものがマッチとして扱われる（デフォルト）

非貪欲マッチ：ある正規表現にマッチする複数のパターン（文字列）があるときに、最も長いものがマッチとして扱われる（正規表現の後ろに「」を付ける）

例：
正規表現：(Ha){3,5}
検査対象：HaHaHaHaHa
Haが3回、4回、5回の三通り、さらに3回、4回なら位置も含めれば、6通りのマッチパターンがあるが、貪欲マッチでは最も長いものがマッチとして扱われる。

4.　findall()メソッド

search()メソッドが、最初にマッチした文字列のmatchオブジェクトを返すのに対して、
findall()メソッドは、マッチしたすべての文字列をタプル形式で返す。

5.　sub()メソッド

正規表現にマッチした文字列の置換。

regex_obj = re.compile(正規表現)
regex_obj.sub(変換先, 変換対象のテキスト)

マッチした一部を再利用した置換

regex_obj = re.compile(括弧()を使った正規表現)　　# group参照
regex_obj.sub(変換先(マッチした順に\1, \2, \3を使って表現), 変換対象のテキスト)

「特開xxxx-yyyyyy」を「JPxxxxyyyyyyA1」に置換。ヒットした番号部分は、置換後にも残す。

6.　オプション

6.1　re.IGNORECASEオプション：大文字／小文字を無視したマッチ

re.IGNORECASE (re.Iと省略可) オプションの指定により、大文字と小文字を区別しないでマッチを探す探索ができる。

6.2　re.DOTALLオプション：ドット「.」文字を改行にもマッチ

ドット「.」は、改行を除く任意の1文字にマッチする（「まとめ表」参照）が、
re.DOTALLオプションを指定することによって、改行を含む任意の1文字にマッチさせることができる。

【請求項n】ごとに分けてリストclaimを作ろうとしたが、うまくいかない。
請求項には、改行が含まれることがよくある。墨付け括弧【請求項ｎ】をキーワードとして分離したいが、DOTALLオプションの効果で*【請求項ｎ】*もマッチしてしまい、末尾まですべてが請求項1になってしまった。

6.3 re.VERBOSEオプション：正規表現を複数行にわけてコメント

長く複雑な正規表現を複数行に分けて記述して、それぞれの行にコメントをつけて、わかりやすくする。複数行にまたがるため三連クォートを使う。

6.4 複数のオプション

縦棒「｜」で並列表記。re.compileの引数の数は限られているので、第2引数にORで指定するイメージ。

まとめ表

短縮形、記号	意味
\d	0～9の数字
\D	0～9の数字以外
\w	文字、数字、下線（”_”）
\W	｛文字、数字、下線（”_”）｝以外
\s	スペース、タブ、改行
\S	｛スペース、タブ、改行｝以外
^	先頭　ex.: ^\d :0～9の数字から始まる文字列
$	末尾　ex.: \d$ :0～9の数字で終わる文字列
.（ドット）	任意の1文字（改行を除く）
\n	改行
\t	タブ
?	直前のグループの 0～1回の出現にマッチ　ex.: \d?=0-1桁の数字
*	直前のグループの 0回以上の出現にマッチ　ex.: \d*=0桁以上の数字
+	直前のグループの 1回以上の出現にマッチ　ex.: \d*=1桁以上の数字
[複数文字]	複数文字の中のいずれか1文字にマッチ　ex.: [a-z]=小文字の英字
[^複数文字]	複数文字以外の1文字にマッチ　ex.: [^a-z]=小文字の英字以外
\|（縦棒）	複数グループのうちの1つにマッチ　ex.: [a-z]\|[0-9]=小文字の英字or数字
{n}	直前のグループのn回の出現にマッチ　ex.: \d{4}=4桁の数字
{n,m}	直前のグループのn～m回の出現にマッチ　ex.: \d{4,6}=4-6桁の数字
{n,}	直前のグループのn回以上の出現にマッチ　ex.: \d{4,}=4桁以上の数字
{,m}	直前のグループの0～m回の出現にマッチ　ex.: \d{,6}=0-6桁の数字

2020年7月14日2021年3月1日

[Python] 基礎-4　文字列処理

1．文字列データ

文字列データ：シングルまたはダブルクォーテーションで囲む　’･･････’ OR “･･････”

エスケープ文字

バックスラッシュ「\」＋文字で特別な意味を持つ文字（制御文字など）を表す
注：バックスラッシュ「＼」は円マーク「￥」で表示されることもある

エスケープ文字	意味
\’	シングルクォーテーション
\”	ダブルクォーテーション
\t	タブ
\n	改行
\\	バックスラッシュ

raw文字列

「r」で始める
r’任意の文字列（エスケープ文字を含んでもよい）‘：そのままの文字列として扱われる

複数行

三連クォートで囲む：”””･･･複数行･･･”””　OR ’’’･･･複数行･･･’’’

2.　インデックスとスライス

文字列全体を、構成する各文字を要素とするリストとして扱う。インデックスを使って文字単位、スライスを使って複数文字の範囲単位でアクセスできる。

文字列	H	e	l	l	o		w	o	r	l	d	!
インデックス	0	1	2	3	4	5	6	7	8	9	10	11

3．文字列データに対する演算

演算

＋ : 結合、＊：繰り返し

in / not in 演算

検査文字列　in　検査対象文字列　　⇒　戻り値＝True/False
検査文字列　not in　検査対象文字列　　⇒　戻り値＝True/False

4.　メソッド（文字列データ専用の関数のようなもの）

メソッド	内容
upper()	大文字に変換
lower()	小文字に変換
isupper()	(検査) すべてが大文字のときTrue
islower()	(検査) すべてが小文字のときTrue
isalpha()	(検査) すべてが英文字のときTrue
isalnum()	(検査) すべてが英字または数字のときTrue
isdecimal()	(検査) すべてが数字のときTrue
isspace()	(検査) すべてがスペース、タブまたは改行のときTrue
istitle()	(検査) 大文字から始まり他が小文字の単語で構成されているときTrue
startswith(検査値)	(検査) 検査値の文字列から始まるときTrue
endswith(検査値)	(検査) 検査値の文字列で終わるときTrue
rjust(文字数[,文字])	(整形) 指定した文字数に右詰、他は指定した文字^＊1）で埋める
ljust(文字数[,文字])	(整形) 指定した文字数に左詰、他は指定した文字^＊1）で埋める
center(文字数[,文字])	(整形) 指定した文字数に中央揃え、他は指定した文字^＊1）で埋める
rstrip([文字])	(整形) 右端から指定した文字^＊2）を除去
lstrip([文字])	(整形) 左端から指定した文字^＊2）を除去
strip([文字])	(整形) 両端から指定した文字^＊2）を除去