本取り組みでは、Simple Contrastive Learning of Sentence Embeddings (SimCSE)と呼ばれる自然言語処理モデルを活用しています。SimCSEモデルは、文書や文章の意味を捉えたベクトル表現*1を生成する高性能なモデルで、精度の高い文書間の意味的な類似度を算出します。情報検索や質問応答システムなどへの応用が期待されています。
今回、両社は特許データベースを基にSimCSEモデルの事前学習を実施し、さらに、テンソルネットワーク*2技術の適用により、SimCSEモデルの情報を効率的に圧縮することに成功しました。このモデルの活用例としては、特許調査や新規用途探索分野への応用が挙げられます。