2023年6月29日読了時間: 3分

論文調査：Contrastive Lossを用いた特許技術検索システムの効果的な探索モデル

１．はじめに

GPT-3に興味のある論文を抽出して毎日配信してもらっています。
最近配信されたものの中に面白い論文があったので紹介します。

２．発見した論文の概要

Contrastive Lossを用いた特許技術検索システムの効果的な探索モデル

※以下、GPTに自動生成してもらった概要・ハイライト

概要: 本論文は、Contrastive Lossを利用した特許技術検索システムの効果的な検索モデルについて説明しています。従来の特許技術検索システムには、機械学習を利用した検索モデルがありましたが、そのモデルはテキスト処理の特性を十分に反映しておらず、検索精度が低かったという問題点がありました。そこで、本論文では、Contrastive Lossを利用することで、検索精度の向上を図りました。技術的なハイライト: ・ハイライト１：Contrastive Lossを利用した検索モデルにより、テキスト処理の特性をより正確に反映し、検索精度が向上しました。・ハイライト２：Contrastive Lossを適用することで、単語や句の関連性をより深く理解し、検索結果の精度を向上させました。・ハイライト３：Contrastive Lossを利用することで、従来の検索モデルでは解決できなかった、検索クエリに対して適切な関連文書の検索が可能になりました。

Contrastive Lossを使えば、特許調査時の探索範囲を効率的に絞り込むことができるとのこと。
キーとなる言葉「Contrastive Loss」が出てきたので見ていきます。

３．Contrastive Lossについて

重要なワードとして「Constrastive Loss」というのが出てくるのでそれを読んでみます。
論文の「3.3 Contrastive Loss 学習の進行」を参照すると

Yij：出願iと出願jが同じラベル（特許分類）なら１、違う場合０となる

Dij2：出願iと出願jのユークリッド距離

alpha：マージン

この概念図を見ると、ラベルが一緒（Yij=1）の場合は出願i、出願jを近づけて、違う(Yij=0)場合は、マージン距離以上に遠ざける、という処理を進める様子。

Yijが0の時にalpha がDij2より大きい場合、Loss値がalphaがD2よりも大きくなるようにパラメータ更新される。max[0,alpha-Dij2]の形であるため、ラベルが違う場合でも、ユークリッド距離がマージン以上であれば重みの更新をしない。ラベルが違えば、alpha以上に入ってこないでね、という感じでしょうか。
simeseネットワークを最近学んでたので理解の助けになりました。
Yij=1の場合はユークリッド距離がLoss 値となり 0 近くに学習される。

４．性能比較

上記のContrastive Lossを使って４パターンで、ある特許に類似する特許（新規性なしと判断できる文献）が近傍の１ー２０までに含まれているか抽出したもの。
PatentBERT+Contrastive Lossを使うのが最も性能がでたとのことです。
性能比較の実験にはPatentMatchデータセット（EPO審査官がつけた新規性有無のラベル付きのデータセット）とHarvard Patent Dataset USPTO （ジャカード係数で計算した特許の類似度データ）を利用したとのこと。