top of page
執筆者の写真NISHIO KEI

論文調査:Predictive Patentomics: Forecasting Innovation Success and Valuation with ChatGPT

1.はじめに

  • 特許分野でchatGPT使って実験しました、という事例が出てくると思いましたが、出てきました

  • どんな実験したかを見ていきたいと思います。


2.内容

(1)目的など

  • Research Questionsが3つ挙げられています。

  1. 予測モデルが特許価値や特許出願の権利化可能性を正確に予測できるか(is it possible to accurately predict patent value and application acceptance? )

  2. Large Language Model (LLM) を使用して、特許価値に関する既存のモデルをどのように補完および改善できるか?(how can existing models regarding patent value be supplemented and improved using Large Language Model (LLM) technology? )

  3. 予測モデルが企業や投資家がイノベーションに関してより適切な意思決定の役に立てるか?(can these predictive models help companies and investors make better decisions regarding innovation? )

  • 結果として、

  1. KPSS(※)モデルによる特許価値評価に比べて、より現実的な価値評価ができるようになった。特に外れ値(とても良い/悪い)の場合の特許価値評価が改善した。

  2. 権利化可能性の予測が改善された。資源の制約がある中小企業やスタートアップにとって特許庁に出願する前に出願すべきアイデアをフィルターし、ブラッシュアップができる。

  3. 経済的価値と権利化可能性の予測を踏まえて、より良い意思決定ができる。



(2)実験内容

①利用データ:2.1 Data Sources and Sampleの部分に詳細が書かれていますが、2004年~2019年のUS特許を使い、重複や欠損データなどを除去していって、2,239,148件を抽出

②2004年出願用の予測モデルは2001ー2003年の出願を使うなどの時間を区切ったモデルを作成しています。

③利用した変数:詳細あまり書いてないのですが、

・タイトルと要約部分の文章をchatGPTのembedモデル(Ada-002 LLM embedding model on December 15, 2022)で1536次元に変換したもの



  • テキスト以外の情報では、CPC 、USPTOが定義するAI特許、CPCに基づいて論文著者が作成したICT、バイオテクノロジー、ハイテクの個別のクラス情報、CPC クラスの数、クレーム数(の自然対数)、譲受人が研究機関であるかどうか、Fama-French 12業界(Kenneth French の Web サイトから取得した企業の分類)、企業時価総額(の自然対数)などを利用したとのこと。特許分析ではあまりなじみのない情報も入ってますね。12業界は知らなかったです。


(3)利用している予測モデル

  • モデル1:上記情報で学習させた3 層フィードフォワード ニューラル ネットワーク=マルチレイヤーパーセプトロン(MLP)を利用。活性化関数にMishを使うのがミソだそうです。テキスト埋め込み情報と、上記のテキスト以外の情報の両方を利用

  • モデル2:モデル1から、テキスト埋め込み情報を抜いたもの

  • モデル3:XGBoost(テキスト埋め込み情報と、上記のテキスト以外の情報の両方を利用)。SVCはだめだったみたいです。


(4)KPSSについて

  • 特許価値の指標として論文中に「KPSS」というのが何度も出てきます。

  • これはNBERが提供している特許価値を測る指標の1つだそう。これも要確認と思いました。関連するレポジトリも発見。


(5)結果について

  • 結果は5つの指標(AUC,Accuracy,Precision,Recall,F1)で評価

  • まずは権利化可能性について、年毎に予測と実際(権利化された/されなかった)の比較でテーブル1を作成

テーブル1

  • 次にモデル間の比較で、FullModelが今回の提案方法。XGBoostとテキストの埋め込みデータを使わないモデル(No Embedding)を比較すると、AUCが改善していますね。Recallが100%近くにいかないのもよいです。

テーブル2

  • テーブル3は、特に提案モデルが役に立つパターンのworstとBestの出願の権利化可能性予測です。

  • 提案モデルでは、権利化可能性が高い(「Best Success」)上位100個のうち、96.1%が実際に権利化されて、その逆(「Worst Success」)は26%のみが実際に権利化されています。各上位1000位に広げても傾向は同じです。比較モデル(No Embedding)よりも性能が改善しています。テキスト情報には予測のための情報が入っていることを示しています。

テーブル3


  • 次は、KPSSの改良版を作成し、特許価値の予測方法が改善されました(テーブル4)。

  • なお、KPSSについては論文で使う際にBoxCox変換による標準化をしています。これにより予測精度が高くなった、とのこと









3.その他

  • 面白いなと思ったのが下記のフロー。今回のモデルを利用すれば、特許庁に出願する前に、特許化される可能性(Prediction > Thershold)と経済的な価値(Predicted Value >Threshold)の両方を考慮して、出願可否を判定できる、というもの。さらに、両方のスコアを満たすまで文章(発明の内容)を検討していけばいい、という事も言っています。



  • 情報量としては特許明細書全文を使ったほうがいい気がしていましたが、タイトル+要約でも、モデルの精度が改善する点は、今後の分析でもテキスト情報(+LLM)を進めるモチベーションになりました。


閲覧数:106回0件のコメント

最新記事

すべて表示

Comments


bottom of page