《 はじめに 》
知財情報の分析に強力なツールになると思い、Pythonの勉強を始めました。きっかけになったのは、株式会社ライズの東智朗さんが開催してくださった「知財人のためのPython」です。初心者の私に初歩から丁寧に教えてくださいました。どうもありがとうございました。
タイトルに「奮闘記」とあるように、勉強している過程をブログ風に記録したもので、みなさまに解説する意図はありません。紹介している「例」も一例に過ぎず、模範解答からはほど遠いものがたくさん含まれていると思います。
同じようにPythonの勉強を始めたばかりの初心者の方々、これから始めようとされている方のご参考になれば嬉しいです。また、経験者の方々からのアドバイスも大歓迎です。
《 目 次 》
開発環境:Python開発環境の準備 Anacondaのインストール
基礎-1:入出力、データ型、演算、if文、whileループ、forループ
基礎-2:リスト、タプル、辞書 (「配列」に相当するデータ型)
基礎-3:def文(関数定義、サブルーチンに相当)
基礎-4:文字列処理
基礎-5:正規表現
基礎-6:csvファイルの読み込み
基礎-7:EXCELファイルの読み書き
基礎-8:pdfファイルの読み込み
圧縮されたファイルの解凍:csvダウンロードなどで入手した、zip形式で圧縮されたファイルを解凍
csvデータの前処理:EXCELファイルのシート(複数も可)に保存されているcsvダウンロードしたデータに対する、特許分析に適した前処理
ダウンロードしたcsvに対する発明者分析:ダウンロードしたcsvファイルの特許文献リストから、発明者ごとに出願年と件数を抽出
出願人名の名寄せ:csvファイルなどの特許文献リストに含まれる出願人名の名寄せ。(名寄せとは、社名変更などで複数の表記がある出願人名を1つにまとめる作業。)(対応表はマニュアルで作って、文字列処理だけpyhtonに任せる。)
正規表現を使ったFターム分析:特許に付与されているFタームに応じてフラグを立てる。事例研究「リチウムイオン電池の電極材料の特許マップ」で採用した前処理。