Python奮闘記 目次

《 はじめに 》

 知財情報の分析に強力なツールになると思い、Pythonの勉強を始めました。きっかけになったのは、株式会社ライズの東智朗さんが開催してくださった「知財人のためのPython」です。初心者の私に初歩から丁寧に教えてくださいました。どうもありがとうございました。

 タイトルに「奮闘記」とあるように、勉強している過程をブログ風に記録したもので、みなさまに解説する意図はありません。紹介している「例」も一例に過ぎず、模範解答からはほど遠いものがたくさん含まれていると思います。

 同じようにPythonの勉強を始めたばかりの初心者の方々、これから始めようとされている方のご参考になれば嬉しいです。また、経験者の方々からのアドバイスも大歓迎です。

《 目 次 》

開発環境:Python開発環境の準備 Anacondaのインストール

基礎-1:入出力、データ型、演算、if文、whileループ、forループ

基礎-2:リスト、タプル、辞書 (「配列」に相当するデータ型)

基礎-3:def文(関数定義、サブルーチンに相当)

基礎-4:文字列処理

基礎-5:正規表現

基礎-6:csvファイルの読み込み

基礎-7:EXCELファイルの読み書き

基礎-8:pdfファイルの読み込み

圧縮されたファイルの解凍:csvダウンロードなどで入手した、zip形式で圧縮されたファイルを解凍

csvデータの前処理:EXCELファイルのシート(複数も可)に保存されているcsvダウンロードしたデータに対する、特許分析に適した前処理

ダウンロードしたcsvに対する発明者分析:ダウンロードしたcsvファイルの特許文献リストから、発明者ごとに出願年と件数を抽出

出願人名の名寄せ:csvファイルなどの特許文献リストに含まれる出願人名の名寄せ。(名寄せとは、社名変更などで複数の表記がある出願人名を1つにまとめる作業。)(対応表はマニュアルで作って、文字列処理だけpyhtonに任せる。)

正規表現を使ったFターム分析:特許に付与されているFタームに応じてフラグを立てる。事例研究「リチウムイオン電池の電極材料の特許マップ」で採用した前処理。

 

[Python] 基礎-8 pdfファイルの読み込み

1.準備

 “pypdf”モジュールのインストール
Anaconda Powershell Prompt >> pip install pypdf

2.複数のpdfファイルの連結(PdfMerger)

“””
import pypdf
#
merger = pypdf.PdfMerger()       👈オブジェクト作成
merger.append(‘source\\願書.pdf’)     👈pdfファイルを結合
merger.append(‘source\\明細書.pdf’)
merger.append(‘source\\特許請求の範囲.pdf’)
merger.append(‘source\\要約書.pdf’)
merger.append(‘source\\図面.pdf’)

merger.append(‘source\\受領書.pdf’)
#
merger.write(‘merged.pdf’)         👈pdfファイルを出力
merger.close()                👈オブジェクトを解放

 

任天堂の特許分析 ~J-Plat Pat CSV出力3000件からFIマップ~

J-Plat PatのCSV出力の件数制限が、500件から3,000件に大幅拡大された(2023.3.26機能改善)のを記念(?)して、任天堂の全特許2,915件を対象に、筆頭FIごとの出願件数の年次推移を示すグラフを作ってみた。

① J-Plat Patで出願人検索

ヒット件数は、2,915件だったので、全件を一度にCSV出力できる!

② EXCEL ブックとして保存

③ 「出願年」の列(column)を追加

C列の[出願日]から[出願年]を求めて、N列に出力する。
N2セルに、C2を参照するYEAR関数を入力して、C2の年だけを出力させる。

④ 「筆頭FI」の列を追加

G列の[FI]から筆頭だけを取りだして、O列に出力する。
[FI]は複数のFIがあるとコンマ“,”で区切られていることに着目。先頭から探して最初に見つかるコンマ“,”よりも左側だけを抜き出して、O列に出力すれば良い。

[FI]欄には、1個のFIしかなくて、コンマ“,”が含まれていない場合もあるので、注意が必要。コンマ“,”が何文字目かを探す関数では、見つからないとエラーになる。エラーになったら筆頭FIしかないのだから、そのままO列に出力すれば良い。

FIを最も細かい階層まで取り出すと、細かすぎてグラフには向かないので、メイングループ(スラッシュ“/”の前)までに留めることにする。先頭から探して最初に見つかるコンマ“/”よりも左側だけを抜き出して、O列に出力すれば良い。

[FIND関数]を使ってFI(G2)の中での[/]が何文字目かを求め、[LEFT関数]を使って求めた[何文字目」よりも左側を抜き出して、筆頭(O2)に出力する。

⑤ 「出願件数」のP列を追加

すべての行に1を入力

出願年のN2セル、筆頭FIのO2セルと1を入力した出願件数のP2セルを選んで、最も下の行までコピーする。

⑥ ピボットテーブルの作成

出願年のN列、筆頭FIのO列、出願件数のP列を選んで、[挿入]タブの[ピボットテーブル]をクリックして、新規シートのピボットテーブルを作成する

作成したピボットテーブルで、[ピボットテーブルのフィールド]を操作
「出願年」を「列」にドラッグ
「筆頭FI」を「行」にドラッグ
「出願件数」を「Σ値」にドラッグ
すると、ピボットテーブルが生成される。

合計件数の多いFIから順に表示されるように並べ替え

ピボットテーブルの集計結果は、J-Plat Patの[分類コードランキング]と似た処理になっていて、合計だけでなく年次推移がわかる点で優れている。

なお、A63F13, A63F9はゲーム、G06F3は計算機のユーザーインターフェース。

⑦ 年次推移グラフの作成

5位までの筆頭FIについて、出願件数の年次推移を示す折れ線グラフを描いてみる。

ピボットテーブルから5位までの筆頭FIの値をコピーして別の(グラフ用の)シートに貼り付け、空白に0を埋めて、散布図で折れ線グラフを描いた。

注:空白のセルに0を埋めるやり方は、Google先生に聞いてみると教えてくれる。

⑧ 筆頭FIを、メイングループではなく、クラスで分析してみた

④~⑥の「筆頭FI」を「筆頭FI(main group)」に変更し、「筆頭FI(class)」(O列)を挿入。

FIは、X00Y nn/mmmmの形で、Xはセクション、X00はクラス、X00Yはサブクラスと呼ばれ、さらに下位のX00Y nnはメイングループと呼ばれている。

文字列処理は簡単。先頭から3文字を抜き出せばよい。

⑨ ピボットテーブルを更新

⑩ 筆頭FI(CLASS)の年次推移の折れ線グラフ

まとめ

J-Plat patのCSV出力の件数制限が、500件/1回から3,000件/1回に緩和されたので、任天堂のすべての特許でも1度にダウンロードして分析できるようになった。3,000件を超えても、何回かに分けてダウンロードすればよいため、1回の件数制限が緩和されたのはありがたい。

ダウンロードして自身で試行錯誤してみると、自由度が広がる。筆頭FIといっても、クラス単位で動向を見るか(⑩)、メイングループ単位で動向を見るか(⑦)で、何か違いが見えてくるかもしれない。

今回、筆頭FIをクラスとメイングループの2通りで分析したが、顕著な違いは見えなかった。ただし、どちらにも共通する流れとして、
2007年、2008年のリーマンショックでは、A63(ゲーム)系の出願は減ったが、計算機のインターフェース(G06)系は現状維持か増加傾向が継続した。2011年の東日本大震災では、A63(ゲーム)系の出願は急増後急減したが、計算機のインターフェース(G06)系の出願は安定している。

[Python] 正規表現を使ったFターム分析

〘 背景 〙

日本の特許文献には、FIとFタームと呼ばれる特許分類が付与されている。FIは国際特許分類(IPC)と同じ階層構造で、日本の実情に合わせて細分化されている。Fタームは、テーマコードごとに種々の観点について付与された特許分類コードである。出願された特許文献の内容に応じて付与されるので、内容を読む代わりに付与されているFIやFタームを分析対象とすることで、特許文献の内容分析ができる。
以下の例は、事例研究「リチウムイオン電池の電極材料の特許マップ」で紹介した特許マップを作成するための前処理。

〘 課題 〙

1件の特許文献には複数の(多くの)特許分類コードが付与されている。前処理として、どのコードが付与されているかを表すフラグを立てる。分析対象の特許文献それぞれにフラグを立てる処理をしておけば、後段に分析目的に合わせた集計処理を行えば良い。
特許分類は、FIもFタームもIPCも階層構造をもつので、立てるフラグは階層関係を反映するように設計する。

〘 仕様 〙

処理対象:EXCELの特許文献リスト()
各特許文献に、FI, Fターム, IPCなどの項目が含まれていること

入力 「Fターム」カラム
例=“5H050 AA02;5H050 AA08;5H050 BA17;5H050 CA08;5H050 CA09;5H050 CB01;5H050 CB02;5H050 CB08;5H050 CB11;5H050 DA03;5H050 DA04;5H050 DA10;5H050 DA11;5H050 DA18;5H050 EA23;5H050 EA24;5H050 EA28;5H050 FA02;5H050 FA17;5H050 GA10;5H050 HA00;5H050 HA01;5H050 HA20
出力 フラグを立てる複数のカラム
特許文献のレコードに立てたフラグ(1/” “

注:フラグを立てる対象のFタームが上位階層なら、それに含まれる下位階層のFタームでもフラグが立つようにプログラミングする。但し、階層関係はプログラマーが解釈してソースコード内に正規表現で記述する。

〘 階層構造を考慮した正規表現〙

Fタームの階層構造の例は、以下のとおり。上述の「リチウムイオン電池の電極材料の特許マップ」で分析対象としたテーマコード「電池の電極および活物質」(5H050)の「正極活物質」(CA00)である。

フラグを立てたい範囲を緑の枠取りで示す。フラグを立てたい範囲を正規表現で表す(各正規マッチマッチオブジェクトを生成する)。

例1:CA03(Niを主体とするもの)の下位概念にはCA04(Coを固溶するもの)を下位に含むので、CA03 or CA04が付与されていればCA03のフラグ(CA01)を立てる。

CA01 = re.compile(‘5H050 (CA03|CA04)’) 

例2:CA19(有機化合物)の下位概念にはCA20(ポリマーまたは重合体)~CA27(ハロゲン原子を有するもの)を下位に含むので、CA19 ~ CA27が付与されていればCA19のフラグ(CA12)を立てる。

CA12 = re.compile(‘5H050 (CA19|CA2[0-7])’)

フラグを立てたいすべてのFタームについて、マッチオブジェクトを生成する。

〘 各レコード(特許文献)についてフラグを立てる 〙

searchメソッドを使って、マッチオブジェクトにマッチするパターンが、対象レコード(特許文献)のFタームカラムの文字列に含まれているかを判定し(if文)、EXCELの所定カラムに出力する。

〘 ソースコード 〙

# -*- coding: utf-8 -*-
"""
Fターム分析
 電池の電極および活物質(5H050)のLiイオン電池(BA17)にヒットする文献について、
 正極と負極の活物質材料として付与されているFタームのフラグを立てる
 入力: ダウンロード項目にFタームを含む特許文献リスト
 出力: 各文献について、付与されているFタームにフラグを立てる
 newly created                           2022.9.19 H. Kojima
"""
import openpyxl, re
path = "C:\\Users\\kojim\\Dropbox\\事例研究\\Liイオン電池の電極材料分析"
file_name  = "5H050_DB.xlsx"
workbook = openpyxl.load_workbook(path+"\\"+file_name)
# 特許文献シート
sheet_db = workbook.get_sheet_by_name('db')
col_Fterm = 17
# 正極活物質
CA01 = re.compile('5H050 (CA03|CA04)')
CA02 = re.compile('5H050 CA05')
CA03 = re.compile('5H050 CA06')
CA04 = re.compile('5H050 (CA07|CA08|CA09)')
CA05 = re.compile('5H050 CA10')
CA06 = re.compile('5H050 CA11')
CA07 = re.compile('5H050 CA12')
CA08 = re.compile('5H050 CA15')
CA09 = re.compile('5H050 CA16')
CA10 = re.compile('5H050 CA14')
CA11 = re.compile('5H050 CA17')
CA12 = re.compile('5H050 (CA19|CA2[0-7])')
CA13 = re.compile('5H050 (CA29|CA30)')
# 負極活物質
CB01 = re.compile('5H050 (CB02|CB03)')
CB02 = re.compile('5H050 CB04')
CB03 = re.compile('5H050 CB05')
CB04 = re.compile('5H050 CB08')
CB05 = re.compile('5H050 CB09')
CB06 = re.compile('5H050 CB07')
CB07 = re.compile('5H050 CB12')
CB08 = re.compile('5H050 CB13')
CB09 = re.compile('5H050 CB14')
CB10 = re.compile('5H050 CB15')
CB11 = re.compile('5H050 (CB16|CB17|CB18)')
CB12 = re.compile('5H050 (CB19|CB2[0-7])')
CB13 = re.compile('5H050 (CB29|CB30)')
#
#   Start processing
for line in range(2, sheet_db.max_row+1):
    Fterm = sheet_db.cell(row=line,column=col_Fterm).value
    if re.search(CA01, Fterm):
        sheet_db.cell(row=line,column=37).value = 1
    if re.search(CA02, Fterm):
        sheet_db.cell(row=line,column=38).value = 1
    if re.search(CA03, Fterm):
        sheet_db.cell(row=line,column=39).value = 1  
    if re.search(CA04, Fterm):
        sheet_db.cell(row=line,column=40).value = 1  
    if re.search(CA05, Fterm):
        sheet_db.cell(row=line,column=41).value = 1  
    if re.search(CA06, Fterm):
        sheet_db.cell(row=line,column=42).value = 1  
    if re.search(CA07, Fterm):
        sheet_db.cell(row=line,column=43).value = 1  
    if re.search(CA08, Fterm):
        sheet_db.cell(row=line,column=44).value = 1  
    if re.search(CA09, Fterm):
        sheet_db.cell(row=line,column=45).value = 1
    if re.search(CA10, Fterm):
        sheet_db.cell(row=line,column=46).value = 1
    if re.search(CA11, Fterm):
        sheet_db.cell(row=line,column=47).value = 1
    if re.search(CA12, Fterm):
        sheet_db.cell(row=line,column=48).value = 1
    if re.search(CA13, Fterm):
        sheet_db.cell(row=line,column=49).value = 1
    if re.search(CB01, Fterm):
        sheet_db.cell(row=line,column=51).value = 1
    if re.search(CB02, Fterm):
        sheet_db.cell(row=line,column=52).value = 1
    if re.search(CB03, Fterm):
        sheet_db.cell(row=line,column=53).value = 1 
    if re.search(CB04, Fterm):
        sheet_db.cell(row=line,column=54).value = 1 
    if re.search(CB05, Fterm):
        sheet_db.cell(row=line,column=55).value = 1 
    if re.search(CB06, Fterm):
        sheet_db.cell(row=line,column=56).value = 1 
    if re.search(CB07, Fterm):
        sheet_db.cell(row=line,column=57).value = 1 
    if re.search(CB08, Fterm):
        sheet_db.cell(row=line,column=58).value = 1 
    if re.search(CB09, Fterm):
        sheet_db.cell(row=line,column=59).value = 1 
    if re.search(CB10, Fterm):
        sheet_db.cell(row=line,column=60).value = 1
    if re.search(CB11, Fterm):
        sheet_db.cell(row=line,column=61).value = 1 
    if re.search(CB12, Fterm):
        sheet_db.cell(row=line,column=62).value = 1
    if re.search(CB13, Fterm):
        sheet_db.cell(row=line,column=63).value = 1 
workbook.save(path+"\\"+file_name)

〘 出力(フラグを出力したEXCELのカラム)〙

リチウムイオン電池の電極材料の特許マップ

電池の電極にはいろいろな活物質が使われる。その状況を、特許マップを使って分析してみた。

通常は、どんな材料が使われているか、特許を1件1件読んで分析する必要があるが、Fタームにはその分析結果があるので、それを利用することを考える。

〔利用するFタームは、テーマコード5H050「電池の電極及び活物質」〕

出所:J-Plat Pat [ https://www.j-platpat.inpit.go.jp/p1101 ]

分析の進め方は、以下が考えられる。
BA00 「電池の種別」で「リチウムイオン電池」に絞り込んで、
CA00「正極活物質」と、
CB00「負極活物質」を分析する。

BA00「電池の種別」の詳細は以下。

CA00「正極活物質」の詳細は以下。

 関心のある粒度を定めて分析対象とすれば良い。この例では上の図のように、13種類の活物質を分析対象とする。(もし有機化合物に着目したい場合には、CA19の下位階層を細かく分析対象にする。)

CB00「負極活物質」の詳細は以下。

 負極側の活物質についてこの例では、上の図のように、13種類の活物質を分析対象とする。

分析対象とした13種類×13種類の活物質の組合せで、マトリックスを作成する。

上のマトリックスは、全期間を通した全体の特許文献すべてを対象とした。これを5年刻みにすると、正/負極の活物質の組合せの年次推移が見える化される。

1986-1990年には、正極=有機化合物/負極=アルカリ金属の組合せが最大。負極活物質としてはアルカリ金属が多く、炭素系もこれに続いている。正極活物質としては、有機化合物の他、複合系酸化物とMn系酸化物、カルコゲン系が続く構図。

1990-1995年には、正極活物質は有機化合物から複合系酸化物にシフト、負極活物質としては、アルカリ金属から炭素系にシフトした。

1995-2000年以降は、正極活物質は複合系酸化物に定着する一方、負極活物質としてはアルカリ金属から炭素系、特にグラファイトへのシフトが進んだことがわかる。