これは何
- 複数の特許等の文章を「特定の母集団における互いの類似度」を元に2次元空間上に配置し,インタラクティブに閲覧・探索的データ分析など行うコードです.
- クラスター解析による全体技術動向俯瞰に加え,個別確認,検索,技術要素等ネットワーク化,特許生成,様々な分析を行うコードと言っても良いでしょう.
- 重要な特徴は3点.
-- 俯瞰図で「特許間の相対的な位置」を把握し、
-- ネットワークで「要素間の具体的なつながり」を明確とし、
-- 特許生成で「存在しないデータの補完」をし、
基礎研究の特許などに基づく有望な応用開発の具体的例示とその稼ぎ方などのもととなる未来予測など行います
(技術ステージごとに異なる手法を用います。
萌芽技術ステージや技術加速ステージでは、俯瞰図から確認可能な構造に基づくホワイトスペース・ブルーオーシャンの発生の確認とネットワークのエッジやノードの生成確認を行い、基礎特許などを抽出し、M&A探索やベンチャーの技術の立ち上がり探索や投資先探索を行います。
技術停滞期では、俯瞰図確認とネットワーク確認を行い、有望な応用特許などを抽出し、技術シフトのウォッチングやニッチ探索や大学などによる技術提携企業候補探索を行います。
技術衰退期では、俯瞰図確認とネットワーク確認を行い、コモディティによる技術の無意味化と出願価値の喪失を見極め、不要技術の選別を行い、技術開発からサービスなどへの移行判断や別技術への投資切替判断などを行います。
それぞれの時期において、ホワイトスペースやクラスタの境界やエッジなど、特定の座標に価値を見出したなら、座標を用いた特許生成を行い、目的領域で「価値のあるアイディア」の具体化などを行います。). - マウスオーバーでそれぞれの特許の概要を見ることができ,Google patentで該当の特許を開くことができます.
- 工夫次第で様々な目的・用途に用いることができるでしょう.
追記メモ
-
追記を繰り返しており整合性も取れておらず非常に読みにくい状態です.近日中に再整理します.
-
技術だけではなく方法論が重要となります。後ろ向きに検証し、前向きに予測することが重要となるでしょう。現在検証中です。
-
お題をいただけますと助かります。後ろ向き検証ではどうもわかりきったものを恣意的に選んで言えるかもしれない危惧があるところです。
-
個人的には、会社の方針に追従する結果を出すだけのご機嫌伺いのようなデータ分析に非常に大きな危機感を覚えており、データサイエンスはまず現場のものであるべき、今一度舵を切り直すべき、と考えております。
-
事業の方向を決めるに、特許分析のみではたりないことは自明です。ホワイトスペースは基礎特許が取れるという目指す方向の明確化はできますが、ノイズだらけであり、その範囲の中で具体的に期間を指定して成功するスペースがどこになるかは見えません。人金の動きを見て確度高く予測する方法もありますが、特許の課題をGPTなどで再構成し、それによりグラウンドの情報を課題に付与し、その課題の伸長を確認し、ノイズを減らす手法もあります。統合的に判断すると良いところ、その構造化も行っています。
-
できうることを現状まとめると次の通り(検討中)
既存コモディティ分野における成功確率の高い方向の示唆
既存分野維持向き.ゴミ貯めから,事業課題の推移と立ち上がりの特定
済) 「要素」ネットワーク時系列分析
検討中) 前向き分析・予測
新規分野参入における重要特許の迅速抽出
投資・スタートアップ向き,重要なイノベーションの特定,知財リスクの特定
済) 「特許引用」ネットワークの分析
済・検証中) 後ろ向き分析
関連企業動向分析
バッティングしない方向や,力を入れるべき方向,競業候補の特定,ブランド影響力
済) 注力領域の可視化
保有技術の活用
保有技術の応用先の探索
済) Clarivateの手法
検討中) 課題を利用した手法は可能
済) 具体的なキーワードが用いられていない類似領域で別用途を探すも可能(キーワード含まない&概念検索で具体特定されていない分野を抽出)
全分野における今後伸長する分野の特定
対象外.
※なお、現在は、技術発展と衰退のサイクルの軸において、そのどこに注目技術や企業が位置しているか配置し、配置ごとにどのような対応が有効かのテンプレートづくりをしており、テンプレートが完成し次第、軸を増やし機械学習に落とし込むことを模索しています。具体的には、コモディティからの対処法の予測システムを作っています。
- 文章の類似とは、一義的に決まるものではありません。多元的なものであり、視点によってどのような類似が必要か規定されます。
本手法では、それぞれの特許等の文章は、その目的、視点に応じた任意の複数の手段でベクトル化されます.作成されたベクトルは目的に応じ再構成されます.
(ベクトルに対し目的に応じ様々な肉付けや補正を行います.より一般化させたいならCLIPから得たベクトルにより肉付けをします.より特許分類を考慮したいならCPC分類問題をArcFaceなど距離学習や対照学習にかけ補正します.その他debiasingをする場合には任意の中立化による投影や均等化による距離補正を行い補正します.より特定のドメインを考慮したいならそのドメインで学習したモデルから得たベクトルにより肉付けをします.ホットな特許領域を抽出したいなら引用グラフと文章ベクトルを用いGraphSAGEから得たベクトルを利用します.CNN, RNN, transformerなどアルゴリズムの利点と欠点を考慮して採用します.医療用語ならJaMIEやMedNER-Jを流用するなどありえます.この他、何らかの全体最適化をすることが好ましいです.
補正参考:
ごくシンプルには次の通り
def neutralize(word, bias, vec_map):
e = vec_map[word]
e_biascomponent = (np.dot(e,bias)/(np.linalg.norm(bias)**2)) * bias
e_debiased = e - e_biascomponent
return e_debiased
)
ほか
・水木栄 岡崎直観
埋め込み表現の意味適応による知識ベース語義曖昧性解消
https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/C3-1.pdf
・OpenAI の Embeddings API はイケてるのか、定量的に調べてみる
https://qiita.com/akeyhero/items/ce371bfed64399027c23
・Discovering Universal Geometry in Embeddings with ICA
https://arxiv.org/abs/2305.13175
各種言語や画像モデルの埋め込みに共通する意味の独立成分を可視化など
・Nonparametric Bayesian Deep Visualization
http://chasen.org/~daiti-m/paper/ishizuka21npdv.pdf
・複数のベクトルが必要、≒元の高次元情報からどの情報を取り出すか、という考え方は、例えば、次元圧縮に注目すれば、次のようにも収束されるのでしょう。
・Dynamic visualization of high-dimensional data
https://www.nature.com/articles/s43588-022-00380-4
https://www.biorxiv.org/content/10.1101/2022.05.27.493785v1
・Deep TDA: "Why you should use Topological Data Analysis over t-SNE or UMAP?"
https://datarefiner.com/feed/why-tda
・Semantics in High-Dimensional Space
https://www.frontiersin.org/articles/10.3389/frai.2021.698809/full
・高次元空間の意味論
・高次空間の空白について,平均から類似を見るのではなく,発明文書生成とした理由の一つ
・1から座標-言語モデルを作成し発明文書生成した場合と,GPT4など高度な言語モデルに座標アダプタをつけて発明文書生成した場合とで,何が異なることになるか興味深い.母集団以外から技術常識を持ち込み補完しつつ生成された発明文章はより大きな価値を持つのか,それとも技術常識そのもとなるなどしてより小さな価値となるのか
・次はとても興味深い.
「・意味論的空間は、グローバルな構造ではなく、そのローカルな構造と近隣の観点から見ると興味深いものです。
• 意味論的空間に対する操作や、そのグローバル構造に影響を与えるような意味論的空間の操作や変換は、有益になる可能性は非常に低く、計算の点で無駄である可能性が非常に高いです。」
・Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach
https://arxiv.org/abs/2405.15613
データ一様化にk-means〜
・NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models
https://arxiv.org/abs/2405.17428
今ひとつ性能が低かったLLM、decodee embeddingの改良。
transformerベースのembeddingはencodeeもdecoderも素直じゃない印象ですが、双方改良が試みられ続けています。
・招待講演2: 今井むつみ先生 (慶応義塾大学)
タイトル: 言語習得に記号接地は必要か
言語処理学会30周年記念シンポジウム
知識を選択する機能である知恵がアブダクション?
知識選択モデルとを組み合わせることで創造性の説明ができることを踏まえるに面白いな。
・ジョブスの述べる知性 1982
https://m.youtube.com/watch?si=lzbF1DfhLzeRzI4V&v=ymbD_a-G1IQ&feature=youtu.be
「 多様な経験と創造性:未来のために考えるべきこと
知性と視点
講演者は、知性とは「ズームアウト」して全体像を見る能力であり、細部に囚われずに大局を把握する力だと述べます。賢い人々は、他人が気付かないような明白な解決策を見つけることができ、そのために時折罪悪感を感じることがあると説明しています。
イノベーションと経験の多様性
イノベーションを生み出すには、異なる経験を結びつける能力が必要です。一般的な道(高校から大学へ進学するなど)を歩むだけでなく、詩人として数年間を過ごしたり、異なる文化や背景を持つ人々と交流することで、新しい視点を得ることができます。ウォルト・ディズニーが一度LSDを使用し、「ファンタジア」のアイデアを得たという逸話も紹介され、多様な経験が創造性を刺激することが強調されています。」
個人的はそのとおりと思いますね。
昔からイノベーションの答えが出ていると思います。
現在では、意味空間という演算可能な空間があり、「その高分次元空間を「高次元のまま」覗く俯瞰窓」を作れます。
適切な技術を使えば、人の記憶に頼るしかなかった1982より、再現があり客観的に、イノベーションを起こすことができるはずです。
個人的には、俯瞰ツールを分類ツールやわかりやすい見える化ツールとして使っているうちは、どうにもならんのではと感じています。
・論理的思考については原始人も現代人も違いはないとも言われているところ、結果としては差があるようです。なぜかと言われれば、個人的には、知性の問題だと認識しています。
ロジカルシンキングは論理的思考とMECEからなりますが、原始人にできていないのはMECEでしょう。
人間は通常7つしか物事を把握できないと言われているところ、漏れなくダブりなくのMECEも人間の自然な能力に従えば7つ程度しか検討しなくなるでしょう。しかし、現実の要素は数百を超えます。人間の自然な能力ではMECEを達成できないのです。原始人の限界です。
どうしてきたか。原始人は記録手段を持たず、網羅的な検討ができませんでした。そこをスタートとして、文字を発明し記録し、記録を保管するようになり、記録を整理し網羅図として作成しその構造から知識を得て、高次元科学の考え方を採用し、より複雑なMECEを扱えるようになってゆき、現代人の判断に至っているわけです。
知性とは網羅俯瞰能力であるところ、MECEとはいわば、知性を表す指標ともできるでしょう。
記録もしない口頭伝達レベルでは現代人でも原始人と同じ程度の知性しか持てず、網羅俯瞰できる技術を使えば現代人の知性を持てるようになる、と言ってよいでしょう。
ここで紹介するような網羅俯瞰図は、原始人の判断から逃れ、より高度な知性を持つための、知性向上ツールといっても面白かもしれません。
・高次元データセットに潜む幾何構造と深層学習 : その解析と大自由度力学系への応用
本武 陽一
https://repository.dl.itc.u-tokyo.ac.jp/records/48134
・Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
横井 祥
https://speakerdeck.com/eumesy/zipfian-whitening
個人的には,白色化等しない構造が多少のアルゴリズムの差はあろうとデータに対し正しい構造といえるところ,白色化等を行うと疑似的なクラスタリングが行われることにより構造が「単純化され」「既存」タスクに適合的となる,というイメージを持っています.そのため特定の目的が無い場合には白色化等は危険なのではと.(構造のゆがみの原因を研究してはいません)
その上で拝聴するに,
白色化は高頻度後だけ当てる傾向.しかし本当は高頻度後も低頻度後もきちんと予測してほしい.
タイプ(単語の種類)とトークン(単語の数)の違いを考慮した埋め込み空間の補正は,ちょうど本記事のtfidf etc embeddings cluster reconstructing visでやっていることであり,興味深かった.意味と頻度(多ければよいわけではなく,低頻度の一部が重要),タイプの補正を行った,でとらえた埋め込み空間はやはり良いのだろう.
白色化等を行うと~と記載したが,資料と自分の考えは同じ方向であるように見えた.
word2vecは低頻度後を考慮するため下手したら最新の埋め込みモデルより足し算が良いことがある(経験的にもその通りでした)
対照学習も低頻度語を考慮する?
頻度考慮の白色化を
ドメイン母集団に特化したほうが性能が上がるってのもtfidf etc embeddings cluster reconstructing visでやっていることですね.やってきている方向は正しいようです.
文の頻度については,文とは単語のタイプの一形態であり,「意味という空間」におい単語と同じでありて同一の次元数で表現されるべきもの,つまり文と単語は見分ける必要はない,と認識しているが,もう少し考えてみよう.
・Discovering State Variables Hidden in Experimental Data
https://arxiv.org/abs/2112.10755
画像からの内部次元の予測と隠れ状態変数の利用
母集団ごとの説明次元の出力を組み込んでおくと解釈のベースができ面白いかも
個人的な見解
*個人的には,データベースはデータを入手するもの,分析・解析・探索ツールは自ら作るもの,と考えております.
自然言語分野では特に,Data analystであっても,Data scientistのように「データから未知をモデル化し理解する方法を自ら生み出さ」なければ,analystの目的である「データからインサイトを得て答えを出す」こともできない,と考えています.
(自然言語分野ではData analystとData scientistはほぼ同じと認識しています.)(常に構造を事前に決めデータベースなどに整理しておけるものではなく,「探索または分析時にリアルタイムに構造化する必要がある」と認識している.そのためにはリアルタイムにモデルを選択し使うまたはモデルを作る必要がある.といえばよいでしょうか? )
現時点において,「必要に足りるだけの自然言語処理技術を備えた探索ツール」は存在しておらず,古典的なテキストマイニング以上の探索を行いたいなら自らプログラムを組み作るほかない,と認識しています.
※「(発売に関し規制が厳しいので)開発者自身にしか使えない道具が世界には山ほどある」とは納得する意見でした。
使用例1:キーワード検索でも分類検索でもない,第三の検索手法として
次のような記事を見つけたとします.
ナイキのDX,厚底内部と特許に見る速さの秘密,競合他社の対抗策は?
https://xtrend.nikkei.com/atcl/contents/18/00288/00002/
ナイキの厚底シューズ.どのような特許があるのでしょうか?
検索してみましょう.
J-PlatPatで検索.出願人:"ナイキ" AND キーワード:"シューズ" 0件
ナイキがシューズに関する特許を出願していないとは考えにくいです.シューズという用語を使っていないのでしょう(ツッコミ不要)
↓
tfidf embeddings/cluster visを使ってみる.
任意の検索ツールで検索.出願人(名寄せあり):"ナイキ"
(検索漏れが多くありますがここでは考慮しません.なお,名寄せがうまく動作していないようです)
ダウンロード
↓
ダウンロードしたファイルを指定し,コード実行
↓
5分ほど猫と遊びつつ待つ
↓
表示されたグラフを確認
・右上に板系のクラスタ
・左と下にゴルフ系のクラスタ
・右に通信系のクラスタ
・中央に「機能・材料・構造系」のクラスタ
があると確認された.
記事からするとナイキの厚底シューズは「機能的でプレート入り構造」であるようです.
該当する特許は,該当しそうなクラスタを考慮すると「中央少々上寄り付近」に存在しているでしょうか?
↓
別ウインドウで開いているインタラクティブHTMLをあさります.
期待通りの特許が,期待通りの中央上寄り付近で見つかりました.
↓
tab, enter
→Google Patentで目的の公報を開き,個別確認を行います.
このように,キーワードも分類も使わずとも検索することができます.
(その他,キーワードでの正規検索や分類検索,特徴検索など,pandasで可能な検索は全てできます.)
*下記記載にあるような,「キーワードでも分類でも難しい検索」をする際にはこの手法が向いているでしょう.
[知財塾]練習問題シリーズの種明かしと検索の難易度
https://note.com/sakaimisato/n/n512d162618b1
*基本的に縦軸横軸に意味はありませんが,
「呼び水」を使えば,「方向に意味」を付与できます
軸に認知できる意味をもたせることにより,任意の方向の検索がしやすくなります.
やり方は単純,目的の母集団に対し「軸としたい分類(など)のダミー集合」を加え処理し,ダミーを非表示とするだけです.
例えば,ある企業の製剤特許のうちキットに関わる製剤特許を抽出したい場合には,キットのダミー集合を加え処理します.すると,製剤特許のうちキットに関わる特許のみが他より離れて表示されやすくなります.その方向はキットを示す方向であり,その軸上にはキットの重さが表現されています.
ダミー集合には,個人的には特許分類を使うことが多いです.MeSHや遺伝子など他の分類でも良いでしょう.
全く関連のないダミー母集団を用いれば,広く関連する特許群が一つにまとまりやすくなります.ニュース記事の周りに関連特許を集めたい場合は,この手法を採用しても良いでしょう.
*明示的に1軸を任意の軸とすることもできます
次は,x軸を時系列とした例です.
過去からの引用なのか,別分野からの引用なのか,など見やすくなります.
特定の企業の特許を母集団とした場合には,次のようなことがわかるでしょう.
被引用数が少なくとも,引用線が繋がっている最も古い特許は,その企業にとって重要な特許でしょう.
他分野に多くの引用線を伸ばしている特許は,その企業のコア技術に近いものとなっているでしょう.
SDIの母集団について適用すれば,原出願が古い≒分割が多く重要であろう特許,を抽出することもできます.
優先日付きの公開,通常出願等の公開,日本移行したPCTの公開,登録公報の公開,のはっきりした帯も見えますね.
母集団を登録公報に限定すれば,重要であろう,早期権利化した特許も見やすくもなります.
引用の解釈については様々な資料がありえますが、、次を読んでおけば良いでしょう
Papers and patents are becoming less disruptive over time
https://www.nature.com/articles/s41586-022-05543-x
※座標のコントロールには次のようなやり方もあります。
例えば脳の位置とあるキーワードを相関させたいとき。
そのキーワードの母集団の座標を得て脳の位置と合うように修正し新たな座標を得る、これを繰り返し、脳の位置とキーワードが相関した座標を作り、コレに基づき図示すればよいわけです。
市販ツールを使わない場合このような工夫はしやすいですね。
*処理対象は特許に限りません.単一性のある適度に長文のテキスト群であれば何でも良いです.
例えば
文献と特許を同時に表示した例:
ニーズ調査能力は大企業ほど高く有利となります.これを打ち破るには探索・解析,「変化プロセスの解明」からのニーズ把握が必要でしょう.特許・文献・ニュースを混合することにより,この解明はより容易になるでしょう.
(特許と文献では使われている用語の解像度が異なりますので,うまく統合できないこともあります.関連の低い呼び水を用いクラスタを圧縮する,CLIPを通し一般化する,文章生成モデルを介する,トピックモデルを用い粒度を荒くする,汎用モデルを通す,疑似対照学習により補正する,ネットワーク化し中心性の問題に返還する,本手法のみですが鋳型の大きさを小さくする,など行うと良いでしょう)(ドメイン特化した結果はモノの影を映すが,その影はモノ自体ではない.複数の影を用いてモノの形を再構成する.特許は長く伸びた影であることが多くニュースはそれら重心に近い影であることが多いところどう近づけるか.やっていることはまあそんなところです.)
小説の人気度と小説間の類似度の関係の例:
読みたい小説の内容をイメージし,そのイメージがどのトピックの組み合わせからなるか考え,トピックが俯瞰図上のどのクラスタと適合するか確認し,そのクラスタの周辺にある人気度の高い小説を選び,読む,なども面白いでしょう.キーワード検索で読みたい小説を見つけることは,人気作品のマネが多い分野では特に,かなり難しいですからね・・・
日本語NLPコンペ?参加記録: 小説家になろう ブクマ数予測 ~”伸びる”タイトルとは?~
https://qiita.com/kzuzuo/items/82ef280f9e6962eb00b2
目的、視点に応じた任意の複数の手段でのベクトル化の例:
いくらかのベクトル化手法を紹介しておきます.
基本は,先のナイキの例を示すに当たり使用したベクトルです.
以下,tfidf embeddings cluster vecと呼ぶことにします.
トピックモデルでベクトルを作ることもできます.
以下,topic embeddings vecと呼ぶことにします.
BERT ベクトルは…置いておいて、
text-embedding-ada-002でベクトルを作ることもできます。
以下、text-embedding-ada-002 vecとします。
・ナイキの例 tfidf embeddings cluster vec(使用単語数調整)
使用単語数を変更したためクラスタが圧縮されている.
(可視化アルゴリズムのパラメーターは変更していない)
「フットウェアの運動能力感知システム」特許は,通信系のクラスタの近くに配置されている.
「センサーシステムを備える履物」特許と「(履物に備えられる)運動感知システム」特許は,離れている.
not表現の有無は同じクラスタに配置される.
発明それぞれを別に配置しつつ,否定や細かな表現は無視し同じクラスタにまとめます.頻度を考慮するので,文末の発明の主体が注目されやすくなっています.(複数の請求項が記載されていれば,文末の発明の主体を表す単語は自動的に多くなります)
特許文章を図示するにtfidf embeddings cluster vecは第一選択として理想的でしょう.
*一定以上単語数が少ない文章を右下の隔離したクラスタに配置しているため,全体としては歪んでいる.
・ナイキの例 topic embeddings vec
トピックモデルを使うと,クラスタが圧縮されやすい.
圧縮されすぎており全体構造を失い気味ではある(パラメータ次第だが).
前述通り,特許と文献を同時に確認する際など有用な場合もある.
後述する,クラスタの境界は認識し難い.
「フットウェアの運動能力感知システム」特許は,履物・機能構造系のクラスタの近くに配置されている.
「センサーシステムを備える履物」特許と「(履物に備えられる)運動感知システム」特許は,同じ場所に配置される.「ゴルフボール」特許と「ゴルフボールを製造する方法」特許は同じ場所に配置される.
同じ特許文章に含まれうる発明群を同じクラスタにまとめます.文章内の単語は等価値に計算されるので,文末の発明の主体が注目されることは特にありません.
*元のベクトルは文章の再構成をするイメージですが,トピックモデルは文章のトピックを追加します.
ここではLDAを用いました.LDAはスパースモデルとベイズ推定の組み合わせのようなものです.
・ナイキの例 tfidf embeddings cluster vec と topic embeddings vec を合成
合成するとバランスが良い場合もある
「フットウェアの運動能力感知システム」特許は,履物・機能構造系のクラスタの近くに配置されているが,トピックモデルよりより通信系のクラスタの近くに配置されている.
※トピックモデルよりICAで特徴要素を取り出したほうが,分散表現を考慮できてよいのかな,と思わなくもない.
Discovering Universal Geometry in Embeddings with ICA
https://arxiv.org/abs/2305.13175
https://nlp-colloquium-jp.github.io/schedule/2023-12-20_momose-oyama/
これって意味が大きいとされる大きなノルムの要素を取り出すのとどの程度の差ががあるのであろうか・・・回転させて解釈可能性を向上させる対応をもう少しして良いかなと感じた
*1次元増やすとこんな感じ
ああ,このクラスタの配置が難しいのね,この点が独立性が強いのね,などわかります.
2次元ぷろっとにおいて、もう少し情報がほしい、このクラスタの重なりに意味があるのかないのか、と感じたら、3次元プロットで確かめるのも良いでしょう.
・ナイキの例 text-embedding-ada-002 vec
https://openai.com/blog/new-and-improved-embedding-model
*発明の主体に注目するかどうかなどを任意にコントロール出来ない,ある程度上位概念での類似を一つのクラスタに圧縮したい,広範なテキストに対し事前学習しているため特定の母集団を指定して解析する際に類似したベクトルとなりすぎる、双方向でないアルゴリズムでは偏りが出やすい,などの理由により,あまり使いません.BERTベクトルも同じですね.ただし,将来的にはわかりません.
*OpenAI’s Embedding Model With Vector Database
https://betterprogramming.pub/openais-embedding-model-with-vector-database-b69014f04433
※PLaMoをベースにしたテキスト埋め込みモデルの開発
https://tech.preferred.jp/ja/blog/plamo-based-embedding/
使用例1.1:単語レベルまたは文章レベルの概念検索 -概念の引き算・概念の重み付け検索- -文章群に対するChatGPT APIを用いた質疑応答-
ベクトルを用いた検索もが可能です.ここでは概念検索と呼ぶことにします.
概念は単語ベクトルでもよく,文章ベクトルでも良いです.
概念を引くこともできます.
概念に重みを付与することもできます.
Brain Computer Interfaceに関する母集団に対し,
['brain','electrod','chip'] のキーワードを概念として与え,
['eeg'] の概念を引き,
概念検索した結果はこんな感じ.
sim_vecが概念との類似度です.
母集団中の特定の文章を概念として与え,
この文章概念に対し,特定のキーワード概念を足しまたは引き,
概念検索することもできます.
ある特許をベースとして,もう少しだけ特定の方向を考慮した特許を探したい,という場合に使うと良いでしょう.
使用例1で発見したシューズ特許に対し,軸に現れていない細かい方向,例えばシューズの重さについて加味した特許はないかな?という場合など.
戦略の探索時などよく使いますね.
(ある傾向群に付き平均を取り,この特許群の概念とこの特許群の概念の差は「戦略概念」を示すではこの特許にこの戦略概念を足したら?,またはこの特許群の概念とこの特許群の概念の差は「分野概念」を示すではこの特許からこの分野概念を引き別の分野概念を足したら?,同じ方向を試行している会社や個人を見つけ協働する,など検討し実践してみるのも面白いところです.)
(演算等で生成した概念からdecoderを用い文章生成もしたいところですね.欲しい特許が概念で表現できているなら,その文章は生成できます.例えば,「空白領域,未知領域,新規分野の概念を演算等により形成し,その空白領域等において例えばどのような特許を出願すべきか例示できるわけです」→使用例1.2へ)
概念ごとの重みを考慮して検索することも可能です.
1 * 'brain' + 2 * 'electrod' + 1 * 'chip'
って感じですね.
なお,いわゆるAIが行っている計算は,これをデータに基づき細分化して組み直したものと考えても良いでしょう.重み付けをきちんと設定し,検索できるなら,いわゆるAIより検索結果は良いものとなり得るでしょう
*同じくベクトル空間を扱うtext-to-imageでも重み付けは有用です.
0.5 * 'a girl' + 0.4 * 'winter' + 0.1 * 'summer'を,入力部分を少々改変したstable diffusionに概念として与えた場合に生成される画像は,
女性を中心として,雪景色のなか夏のように光は強く狂い桜が咲いている=冬日和
ってとこでしょうか.重み付けどおり画像が生成されたかと思います.
単語に重み付けをすることにより,文章そのものよりも要点を制御しやすくなるでしょう.呪文のように,文章からの要点抽出をブラックボックスと認知されるアルゴリズムに任せていては,要点の制御はし難いです(例えば,あるアルゴリズムは,文頭の単語を重視したり,色を無視するなど知られています.)
※FRONTEOのベクトル加算の考え方は,非常にシンプルだけど面白そうですね.
加算により評価値がどれだけ変化するか確認し,その加算した因子の重要性を評価するのも良いでしょう.
文章母集団に対するChatGPT APIを用いた質疑応答
検索により上位k件の特許を抽出し、その範囲に対してRetrievalQAを用いChatGPTによる質疑応答を行うこともできるようになりました。
https://python.langchain.com/en/latest/modules/chains/index_examples/vector_db_qa.html
「X社の特許でxに関する特許を100件求め、これらに対し,(分類が詳細でなかったり多分類にわたっていたり,キーワードが複数の表現で表されるなどの事情により,分類やキーワードで絞り込み難い事柄や、複数の言語や扱いづらい言語で記載されている事項)を,質疑応答により求める」
「tfidf visが強力に分散仮説を利用しており「単語が間違って使われてもまた省略しても」再現率高く検索しやすいのに対し、ChatGPTを使うことでそこまで強力な仮定をおかず「分散仮説は利用するがその文脈でその単語である場合にはやはりそのように解釈する」精度高く検索でき、意図的に相補的にできる」
など.すばらしいですね.
柔軟検索と呼びましょうか。
次のように呼ばれるようにもなっているようです
RAG(Retrieval-augmented generation)
自分が昔から欲しかった,解像度変換,いわゆる言い換えを含んだ検索ができる,ともいえます.
文章母集団に対するChatGPT APIを用いた質疑応答は,まだ改良中ですが,例えばこんな感じの短いコードで達成できます.
import shutil
from langchain.document_loaders import TextLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import CharacterTextSplitter
import glob
from langchain.prompts.chat import ChatPromptTemplate, SystemMessagePromptTemplate,
umanMessagePromptTemplate
from langchain.llms import OpenAIChat
from langchain.chains import RetrievalQAWithSourcesChain
def df2ChatGPT(dfxxx_w, return_source_documents=0):
df = dfxxx_w.copy()
df = df.reset_index(drop=True)
df_text = '出願日:'+df['出願日'].astype(str) +' 出願人:'+ df['出願人'] +' 内容:'+ df['名称'] +' ' \
+ df['要約'] + df['請求の範囲'].str[:100]
filespath = 'tmp_chatgptretrieval_texts'
try:
os.mkdir(filespath)
except:
shutil.rmtree(filespath)
os.mkdir(filespath)
for i in range(len(df_text)):
tmp_df_text = df_text.iloc[i]
with open(filespath + f'/chat{i}.txt', mode='w', encoding='UTF-8') as f:
f.write(tmp_df_text)
files = glob.glob(filespath+'/' + '**/*.txt', recursive=True)
text_all = []
for i, file in tqdm(enumerate(files)):
loader = TextLoader(file, encoding='UTF-8')
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=400, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
text_all += texts
embeddings = OpenAIEmbeddings()
docsearch = Chroma.from_documents(text_all, embeddings)
system_template="""Use the following pieces of context to answer the users question.
If you don't know the answer, just say that you don't know, don't try to make up an answer.
*箇条書きで回答してください.
Answer in japanease:
{summaries}
"""
messages = [
SystemMessagePromptTemplate.from_template(system_template),
HumanMessagePromptTemplate.from_template("{question}")
]
prompt = ChatPromptTemplate.from_messages(messages)
chain_type_kwargs = {"prompt": prompt}
qa = RetrievalQAWithSourcesChain.from_chain_type(
OpenAIChat(temperature=0),
chain_type="stuff",
retriever=docsearch.as_retriever(search_kwargs={"k": 9}),
chain_type_kwargs=chain_type_kwargs,
reduce_k_below_max_tokens=True
)
return qa
seikiword = '.*菌.*'
qa = df2ChatGPT(dfxxx[ dfxxx['要約'].str.contains(seikiword, na = False)
| dfxxx['請求の範囲'].str.contains(seikiword, na = False)
| dfxxx['名称'].str.contains(seikiword, na = False)
])
print(qa({"question": '菌に関連する課題を示してください'})['answer'])
GPT-4に課題を挙げさせ,その課題が特許母集団に現れているかChatGPT APIで確認し,現れていない課題であれば,新しいことでありかつ戦略的な特許ができうる課題だとみなす
なども可能性がありそうです.(以下は「上記課題の中で,これまでに公開された特許記載の課題に含まれていないものはありますか」と聞いていますが,ここをChatGPT APIに置き換え,存在する特許の中にあるかどうかを聞くわけです.)
https://eager-duck-e33.notion.site/Issues-with-Footwear-0c3a0a5a0613410b8ca51a49d70de68b
- 履物に関し,一般的な課題を10こ挙げよ
「サイズの不一致: 履物のサイズが個々の足に合わない場合があります。標準化されたサイズ表記でも、ブランドやモデルによって微妙な違いがあることが一般的です。
足の健康問題: 適切でない履物は、足の健康問題(例: 足の痛み、骨折、水ぶくれ、タコ、外反母趾など)を引き起こす可能性があります。
耐久性: 履物の耐久性が低いと、短期間で劣化や破損が発生し、頻繁に買い替える必要があります。
価格: 履物の価格は、ブランドや素材、製法によって大きく異なり、予算に合わせて選ぶことが難しい場合があります。
環境への影響: 履物の製造や廃棄による環境への負荷が懸念されており、サステナブルな選択が求められています。
デザインと機能性のバランス: 美しさと快適さを兼ね備えた履物を見つけることは、時に困難です。
シーズンや用途の適合性: 履物を購入する際、季節や用途に応じて適切なタイプを選ぶ必要があります。これには、防水性、通気性、保温性などの特性が関与します。
製品の品質管理: 履物の製造過程での品質管理が不十分だと、不良品が市場に出回る可能性があります。
メンテナンス: 履物によっては、適切な手入れや修理が必要であり、それらの手間やコストが問題になることがあります。
動物の福祉: 動物由来の素材(例: 皮革)を使用した履物は、動物の福祉やエシカルな課題を考慮する必要があります。」
- 履物に関し,満たされていない課題,満たされていないニーズを10こ挙げよ
「完全なサイズカスタマイズ: 消費者の足の形状やサイズに完全に合わせたカスタマイズオプションが、多くのブランドではまだ提供されていません。
汎用性の高い履物: 1足で様々なシーンや目的に対応できる、本当に汎用性の高い履物が市場にはまだ十分提供されていません。
サステナブルな素材と製法: 環境に優しい素材や製法を用いた履物は増えていますが、まだすべてのブランドや製品で採用されているわけではありません。
センサー搭載による健康管理: 履物に組み込まれたセンサー技術によって、足の健康状態や歩行の質をモニタリングする製品が一般的でない。
自動調整機能: 着用者の足に合わせて自動的にフィット感や締め付けを調整する機能が、ほとんどの履物にはまだ搭載されていません。
軽量化と耐久性の両立: 軽量でありながら耐久性に優れた履物は、市場でまだ十分に提供されていない場合があります。
一貫したエシカル基準: 動物福祉や労働者の権利に配慮したエシカルな基準を徹底的に実践するブランドや製品が、まだ十分に普及していません。
普及価格帯の高品質履物: 低価格帯でも高品質な履物を提供するブランドや製品が、まだ市場には十分に存在しない場合があります。
抗菌・防臭機能の向上: 履物における抗菌・防臭機能は、依然として改善の余地があると考えられます。
無料・迅速な試着・交換サービス: オンラインショッピングが一般的になる中、無料で迅速な試着・交換サービスを提供する企業はまだ限られています。」
- 上記課題の中で,これまでに公開された特許記載の課題に含まれていないものはありますか(つまり,新しいコトとなりえるものはありますか)
「私の知識は2021年9月までのものであり、最新の特許については把握していません。ただし、これまでの特許においては、いくつかの課題に取り組んでいる例があります。例えば、履物のサイズカスタマイズや自動調整機能に関する特許が存在します。しかし、以下のような課題については、特許がまだ十分に取り組んでいない可能性があります。
汎用性の高い履物: 1足で様々なシーンや目的に対応できる、本当に汎用性の高い履物の特許はまだ少ないかもしれません。
センサー搭載による健康管理: 履物に組み込まれたセンサー技術によって、足の健康状態や歩行の質をモニタリングする製品に関する特許は、まだ十分に開発されていない可能性があります。
サステナブルな素材と製法: 環境に優しい素材や製法を用いた履物に関する特許は増えていますが、まだすべてのブランドや製品で採用されているわけではなく、新しい素材や製法に関する特許はまだ開発の余地があるでしょう。
一貫したエシカル基準: 動物福祉や労働者の権利に配慮したエシカルな基準を徹底的に実践するブランドや製品に関する特許は、まだ十分に普及していない可能性があります。
抗菌・防臭機能の向上: 履物における抗菌・防臭機能に関する新しい技術や素材の特許は、まだ開発の余地があるでしょう。
特許の取得に関しては、状況が日々変化しているため、最新の情報を調査することが重要です。特許データベースや公的機関のウェブサイトを利用して、最新の特許情報を入手することをお勧めします。」
・ChatGPTの知識不足を補うために、google検索やwikipediaなどを組み合わせても良いですね.
乱暴な例ですが検索例は以下の通り.
*Google Driveに保存している大量の文献PDFファイルについて,その知識の範囲内を,ChatGPTで質問応答できるようにもできます.DuckDBを永続化しましたので,今後は質問があったら入力するだけです..
便利ですねぇ本当に.Google Driveの検索機能はいまいちですからねぇ・・・
費用はembeddingをどのモデルで行うかに依存するでしょう.OpenAIEmbeddings()つまりtext-embedding-ada-002を用いて7500円ほどでした(後日価格改定がありました。半額ほどで済むはずです。).
安上がりとするには、入力トークン数が大きいかつドメインが異なりすぎないモデルが必要ですが…
もう使わないかなと思っていた次をベクトル抽出のために用いても良いかもしれません。
中間表現の取り出し方については,つぎなど参考になるでしょう
Explore T5
https://www.kaggle.com/code/debarshichanda/explore-t5
ChatGPTにかける前のベクトルによる抽出がボトルネックになるようです。ChatGPTで言い換えを考慮した検索をしたいのでその前の抽出で言い換えが除かれてはよろしくありません。レーベンシュタイン距離はいまいちでしょうし…どうしたものでしょうね。
※Llama 2 + multilingual-e5-large で LangChain のRetrievalQAを試す
https://note.com/npaka/n/n3164e8b24539
embeddingをどのモデルで行うかについて、今ならe5が良いでしょうか。
入力トークン数は514ですが
※embeddingをrinnaやe5を用い行い、PDFのRQAをした例。
alfredplpl/RetrievalQA.py
https://gist.github.com/alfredplpl/57a6338bce8a00de9c9d95bbf1a6d06d
※Kaggle - LLM Science Exam
Use LLMs to answer difficult science questions
https://www.kaggle.com/competitions/kaggle-llm-science-exam/leaderboard
多分初めてのRAGコンペ
LLMのfine tuningよりもembedingのアンサンブルのほうが良かった様子。
自分もベクトル合成やアンサンブルを多用しますがそんな印象はありますね。第一選択はやはりこちらかな。
※JapaneseEmbeddingEval
https://github.com/oshizo/JapaneseEmbeddingEval
埋め込み表現と特定の評価手法での評価
・ChatGPT plugin も面白いですね.
次など興味深く使っています
webpilot
web検索
askyourPDF
PDF読み取り
scholorAI
文献検索? 何故かリンクも文献タイトルも正しくないことが・・・
kraftful
業界標準のベストプラクティスを探索、製品ドキュメンテーションを作成,とのこと?
yabbie
マーケット調査
zapier
様々なツールとのリンク
Gmail:
notion:
Googledrive:
など
speechki
音声に変換
noteable
プログラムを実行
例えば,web上の「著作権法」全文をnoteable上で入手し,分割し,pandas DataFrameに入力しておいてから,
ベクトルに変換しておくとRetrivslQA同等の処理ができるなど.
(ベクトルを用いずChatGPTを用いてpandas DataFrame内部の文字列などに直接アクセスすることができればより大量の文章を一気により柔軟に検索や処理ができるようになるが,今のところできていない.)
画像については,pytorchやimagenetをつかったり,
ChatGPTが作ったシナリオ(!)に適合する確率を,CLIPで求めたり,
https://qiita.com/kzuzuo/items/e35e0c0535f0d32b135e
画像から予測した物体に対してシチュエーションを予測した文章を生成し確率を出し確率の従ってさらにシチュエーションを予測した文章を生成し…を繰り返せば、
画像を説明する長文が、簡単な画像認識モデルと言語モデルからできる、と。
・ChatGPT makes materials research much more efficient
https://engineering.wisc.edu/news/chatgpt-makes-materials-research-much-more-efficient/
文ごとに構造化に必要なデータかGPTで判断し、表にまとめる。MIなどで特許から学習データを集める場合など養重宝しそうです。
・ChatGPTとNoteableによる科学技術情報分析
https://speakerdeck.com/hayataka88/chatgpttonoteableniyoruke-xue-ji-shu-qing-bao-fen-xi
・When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories
https://arxiv.org/abs/2212.10511
「言語モデルが人気のある事物についての情報はよく覚えているけれど、あまり人気のない事物についての情報は苦労して覚えていることを発見しました。」
「言語モデルが情報を覚える能力を改善するために、外部の情報源(非パラメトリックなメモリと呼ばれます)から情報を取得する方法を試しました。しかし、この方法も完全な解決策ではなく、特に人気のある事物についての質問では、取得した情報が誤解を招く可能性があることがわかりました。」
「質問の内容に応じて、言語モデル自身の記憶を使うか、外部の情報源から情報を取得するかを適応的に切り替える方法。これにより、言語モデルのパフォーマンスが向上し、さらにコンピュータが必要とする処理能力(推論コスト)も削減されました。」
※言語モデルに対し最も期待しているのは、構造化されていないデータの、既存のモデルが入力として使える程度の構造化。web上の記事や論文やPCやgoogle drive 内ファイルの構造化など.
文献から特定のプロパティの要素を抽出し構造化することはできている.あとは,安定してそれができるようにすること.もう少し試してみる.
*「文は短く」は俗説か?ー〈短文信仰〉を屠り,短文のレトリックと長文のロジックを取り戻すために
https://readingmonkey.blog.fc2.com/blog-entry-609.html
長文のロジックは,統語までゆかずとも簡単な数式と単語を用いることにより,ある程度明確に表現できるでしょう.
*ニューラル数式ソルバーにおける途中結果の追跡と操作
https://github.com/cl-tohoku/trace-manipulate
ベクトル演算の意味
使用例1.2:概念からの文章の自動生成 -基本特許の自動生成-
使用例1.1の演算等で生成した概念から文章生成もできます.
データやナレッジの言語化,Data-to-Text,vec2seqですね.空間上の座標から文章を生成する翻訳モデルのようなものです.
Foresight(未来洞察)技術の一つと言っても良いのですかね?
例えば,「空白領域,未知領域,新規分野の概念を演算等により形成し,その空白領域等においてどのような特許を出願すべきか例示できる」わけです.大きな空白を狙いうまく表現力を調整できれば,ブルー・オーシャンを切り開けるかもしれない基本特許の自動生成ができえることになります.
なぜ文章生成をするのでしょうか? 基本的な考え方は次の通りです.
・ベクトル空間における実態は語彙しかないところ,語彙がない空間にも例えば['brain','electrod','chip']という複数語彙で表現される点があるわけです.この点はvec2seqにより文章で表すこともできます.
(自分は勝手に、このようなベクトル空間は「語彙のゴースト」でできている、などt表現します。ここで述べているのは、ゴーストの影にも意味がある、って感じです。)
・['brain','electrod','chip']で概念を形成した場合は,'brain','electrod','chip' を含む文章が生成されやすいでしょう.文章生成の意味はあまりないかもしれませんね.ただ,使用例1.1で示したような群から求めた「戦略概念」の場合はどうでしょう.「空白」の場合はどうでしょう.単語から概念を求めていないのでどの単語から生成されるかわかりませんね.周辺から語彙を集めてもわけわからないかもしれません.こんなときに文章生成は役に立つでしょう.
・文章生成により,「概念が示す主題」だけでなく,「母集団全体が示す技術常識や観点」も表現されうる,と期待できます.
*世界のすべての文章から「空白」を求めたのではなく,母集団から「空白」を求めたので,「母集団全体」を事前分布とします.いわゆる事前学習モデルは世界すべての文章の空白を学んでいると考えられ,その空白は世界すべての文章の観点から得られたものとなります.過剰な観点やコントロールできない観点を削除したい,当業者を無視した一般論という観点を削除したい,本目的には沿わないでしょう.(アダプター糖を用い,母集団全体の分布に近づけるなど,本目的で使えるようにする手段もなくもないですが)
*可能な限り素直に、ベクトル空間全体を蒸留します。
*分布内汎化と分布外汎化があるところ,母集団を任意に設定することにより分布内汎化のみが起き分布外汎化が起きない?メリットを享受します.
*ChatGPTなど大規模言語モデルにより生成された特許文章は分布外汎化となります.分布内汎化をもとめるこのモデルとは目的が異なります.後述しますが,分布内汎化した後,分布外汎化で補足することはありです.
*視覚と似たようなものです,と安易に類似を述べると怒られますけど(網膜 畳み込み空間特徴量化img2vec(概念の入力) →視神経 →外側膝状体(6, P, M)・特徴加工・変換(注意付与?・左右混合生成?)vec2vec →視覚野(コラム単位)における視覚形成vec2seq ←高次領域からの入力(母集団の任意設定))
更新中) 網膜・視神経障害による失明から回復する技術に関する 個人的妄想メモ
https://qiita.com/drafts
・生成のもととなる分布自体は正しいと確信というか正しいと想定できるので,十分創造的と認識することができ,受け手のインサイトを刺激もします.
・後述するネットワーク化においては、空白や少数は見えがたいです。点群では空白の中身がわかりがたいです.これら解決するために、空白領域の特許生成に意味があります
(補う処理が同じデータからできるってのはちょっと面白いですよね。これが自然言語処理では分析とサイエンスが同じと述べる理由の一つです)
・「未来を語ること」がいわゆるIPランドスケープの価値であるとして、今後権利が取れうる基礎特許を提示することは、その目的に直接沿います。
*出願特許を提示する手法はいくらかありますが,いくらかは単に同じ特許文献があるかどうかの検索のようです.欲しい特許は,権利は取れるが意味のないものともなりえる単なる同じ発明のないもの,つまり単なる点,よりも,他社優位となる「範囲」のある「基本特許」となり得るもの,です.文章生成手法は空白を用いることにより,範囲のある基本特許の生成を志向できるでしょう.(空白は密度の問題であるので件数に依存し難い,空白は特許文献のみから検出したとしても技術全体の空白でもあると仮定できる,という点も良いところです)
・追記) 特許生成には言語モデルを用いますが,Transformerのみを用い文章生成する場合の弱点を補うために,概念ベクトルをドメイン知識を持つ事前分布として用いる,と理解としても良いようです.
- 確率モデリングのアプローチの違い:
ベイズ的アプローチでは、事前分布と尤度を組み合わせて事後分布を計算し、それに基づいて次の単語が選択されます。このアプローチは、事前知識(事前分布)と観測データ(尤度)を明示的に組み合わせてモデルを更新します。
一方、Transformerモデルでは、大量の学習データを使って確率分布を学習し、その分布に従って次の単語を選択します。このアプローチは、事前知識と観測データが暗黙的に学習データに組み込まれており、モデルは自動的に文脈や構造を学習します。ドメイン知識が重要であり、事前分布を利用したい場合は、ベイズ的アプローチが適切です。
大規模なデータセットから効率的に学習し、複雑な文脈を捉えたい場合は、Transformerモデルが適切です。
ベイズ的アプローチは、ドメイン知識に基づいて新しいアイデアを提案できますが、大規模なデータセットに対しては効率的ではない場合があります。一方、Transformerモデルは、学習データに基づくため、真に新規な文章を生成することが難しい場合があります。
そのため、新規性のある文章を生成する際には、ベイズ的アプローチとTransformerモデルを組み合わせることで、それぞれのアプローチの利点を活用することが望ましいです。例えば、ベイズ的アプローチで事前分布を設定し、Transformerモデルで効果的に学習・生成するといった方法が考えられます。
GPT-4さんには感心するしかないですね・・・
後述するMultimodal Chain-of-Thought Reasoning in Language Modelsでも似た?考察がなされているようにも思えます.
ご参考まで,流れを記載しておきます.
*特許生成の実例は記載しにくいですが,後ほど後ろ向き検証できたものを追記しておきます.
1 プログラムの作成
・image captioningが同じvec2seqのアルゴリズムを利用しているので流用します.CNN-LSTMなど様々な手法がありますが,本課題ではCNN-transformer decoderが良さそうです.
*Vit-GPT2 https://huggingface.co/nlpconnect/vit-gpt2-image-captioning もありましたね.モデル構造などに手を入れる必要がないと前提できればこちらでも良かったかもしれません.
2 学習に必要なデータ量・モデル容量・メモリ・学習時間・ハイパーパラメーターのあたり付け
・自分の使用方法ではベクトル空間を毎回作成することになりますので,毎回学習することになります.学習時間の確認は重要です.
・・学習に必要なデータ量は6000件で必要に足りるようです.学習時間はcpuで6時間ほどで足りるでしょうか.ほか,許容範囲内です.
*転移の可能性やdata augmentationの可能性は後ほど検討します.
*コツはkaggleなど参照すると良いでしょう 例えばこの辺ですかね
Bristol-Myers Squibb – Molecular Translation
https://www.kaggle.com/competitions/bms-molecular-translation/discussion
例えば,
https://www.kaggle.com/competitions/bms-molecular-translation/discussion/243932
「After swhiched to transformer from LSTM, I've tried many conbination of patameters.
And then found these insights;
Image size is most importatnt, bigger is better.
In my intuition, aspect ratio is useful information, but just resizing to fixed image size works best.
In encoder, Adding positional encoding to only query and key is better than adding to encoder output directly. It's same as DETR does.
As my model got to predict very well, most of trainig data got so easy one, so I thought focal loss works here. And it actually did. It was later verified by my teammate after team mergeing.
After team merging, my teammate shared how to deal with train/test difference, or CV/LB gap. I've approached to the gap by denoise/noise method(shared above) and pseudo labeling. both worked.
Batch size is 128 and train 50 epochs. It takes to train models about 10 days. Without TPU, it would be a month or more…
Other small detail can be found in the notebook.」
3 表現能力の確認
・特許を生成するのですから,memoryから適切にk,vに関わる主題を受け継いでいること,tgtから適切にqに関わる常識や観点を受け継いでいること,それらバランスにより適切な創造的な文章が生成されること,は重要です(文法上の正しさは二の次で良い).これを確認します.要事,モデルのアルゴリズムを調整します.
・・「あるべきものを含まない」表現も適切に生成できえるようです.
*登山ではバックパックを背負っていることが常識であるのに背負っていない.この非常識を指摘できている可能性(フリークライミングではバックパックを背負わないことが常識ではあるでしょうけれどどの観点で見ているかに依存するでしょう)
*問題が多いようでしたら,pretrained decoderへの切り替えを検討しても良いでしょう.ただし,安易に重みを流用すると,「らしい文章は生成されるが必要な文章ではない」,hallucinationなど,目的が達成できなくなるかもしれませんので注意が必要です.(大規模言語モデルが使えると楽なんですけれどねぇ https://huggingface.co/docs/hub/adapter-transformers )
4 memory情報量を削減した場合の表現能力の確認
・CNNの出力は(7, 7, 512)でありこれを(49, 512)に変換しdecoderのmemoryとしています.tfidf/mbart/mt5/CLIP embeddings cluster reconstructing visの概念の出力は可変ですが(1, 300)ほどです.特許を生成する場合,使える情報量は3よりも少なくなります.特に位置情報は失われています.(49, 512)を(1, 512)とするなど変換を行い,3と同等の表現が可能か確認します.また(1, 200)ほどに回転させ,同等の表現が可能化確認します.
・必要に応じ,情報を増やします.
・・予想以上にモデルをコンパクトにする必要がありちょっと驚いています.
可能性の制約をしないと頭を振り絞って学習しないかのようでちょっと面白いところです.
・・memory入力に付き,位置情報を除去したほうがlossは低くなりますねぇ・・・なぜだろうか・・・.
位置情報を失うため画像の中心と文章の主体がずれやすくなるかと思ったのですが(25,512あたりに画像と文章で共通する主体が現れやすくなっていると予想され,位置情報があると学習しやすいだろうとの予想)そのような傾向は明確には確認できていません.(思考整理メモ.画像49のうち48が岩,1が人とする.平均すれば人の情報は1/49となる.この情報を主として生成される文章は岩が主体となることが自然だろう.しかしそうなっていない.仮説1: memory側,画像の人部分にそも岩より重い重みがあり1/49*xであった.しかしtransformer encoder とは異なり,CNNはそうであるアルゴリズムでははない.仮説2:q側,文章の学習により岩より人が主体となりやすいと学習され,1/49となった人情報でも取り出しやすくなっている.仮説2が妥当だろうか.すると,こと画像においては,memory側の位置情報は主体がどこに現れるかわからない以上それほど重要ではなく(主体は中央に現れやすいが常にそうでもない)(翻訳ではmemory側の主体の位置はほぼ固定であり重要),q側の学習文章から主体となりやすいものを取り出すのみにしたほうが整理されやすい,となっているのかもしれない.)
・・memory入力に付き,回転(ニュアンス)させてからk,vに変換したほうがlossは低くなるようです.
k,vの必要な部分にdecoderからの逆算により位置情報を付与し直している(回転部分に位置情報が学習されている)・・・のでしょうか?(多分文献があるでしょう.探してみます.)(追加した層においてencoderの独立成分を抽出し、decoderの主題と一致する成分にattentionを当てやすくしているのですかね?)(ICAののように自由度を下げ独立成分を抽出した場合はどうなるでしょうか)
モデルはざっとこんな感じです.
変数名が画像系の名称となっていたりと汚いですが勘弁してください.
class vec2seqModel(nn.Module):
def __init__(self, n_head, n_decoder_layer, vocab_size, embedding_size,
dim_feedforward=2048, dropout=0.1, dtype=None):
super(vec2seqModel, self).__init__()
self.pos_encoder = PositionalEncoding(embedding_size, 0.1)
self.pat_encoder = PatentClassEncoding(embedding_size)
self.TransformerDecoderLayer = nn.TransformerDecoderLayer_custom(d_model=embedding_size, nhead=n_head, dim_feedforward=dim_feedforward, dropout=dropout)
self.TransformerDecoder = nn.TransformerDecoder(decoder_layer=self.TransformerDecoderLayer, num_layers=n_decoder_layer)
self.embedding_size = embedding_size
self.embedding = nn.Embedding(vocab_size , embedding_size)
self.last_linear_layer = nn.Linear(embedding_size, vocab_size)
self.memorydimconvertliner = nn.Linear(200, embedding_size)
self.init_weights()
def init_weights(self):
initrange = 0.1
self.embedding.weight.data.uniform_(-initrange, initrange)
self.last_linear_layer.bias.data.zero_()
self.last_linear_layer.weight.data.uniform_(-initrange, initrange)
self.memorydimconvertliner.bias.data.zero_()
self.memorydimconvertliner.weight.data.uniform_(-initrange, initrange)
def generate_Mask(self, size, decoder_inp):
decoder_input_mask = (torch.triu(torch.ones(size, size)) == 1).transpose(0, 1)
decoder_input_mask = decoder_input_mask.float().masked_fill(decoder_input_mask == 0, float('-inf')).masked_fill(decoder_input_mask == 1, float(0.0))
decoder_input_pad_mask = decoder_inp.float().masked_fill(decoder_inp == 0, float(0.0)).masked_fill(decoder_inp > 0, float(1.0))
decoder_input_pad_mask_bool = decoder_inp == 0
return decoder_input_mask, decoder_input_pad_mask, decoder_input_pad_mask_bool
def forward(self, encoded_image, decoder_inp):
encoded_image = encoded_image.permute(1,0,2)
encoded_image = self.memorydimconvertliner(encoded_image)#多分層が足りない
decoder_inp_embed = self.embedding(decoder_inp)* math.sqrt(self.embedding_size)
decoder_inp_embed = self.pos_encoder(decoder_inp_embed)
decoder_inp_embed = self.pat_encoder(decoder_inp_embed)
decoder_inp_embed = decoder_inp_embed.permute(1,0,2)
decoder_input_mask, decoder_input_pad_mask, decoder_input_pad_mask_bool = self.generate_Mask(decoder_inp.size(1), decoder_inp)
decoder_input_mask = decoder_input_mask.to(device)
decoder_input_pad_mask = decoder_input_pad_mask.to(device)
decoder_input_pad_mask_bool = decoder_input_pad_mask_bool.to(device)
decoder_output = self.TransformerDecoder(tgt=decoder_inp_embed, memory=encoded_image,tgt_mask=decoder_input_mask, tgt_key_padding_mask=decoder_input_pad_mask_bool)
final_output = self.last_linear_layer(decoder_output)
return final_output, decoder_input_pad_mask
5 日本語で同等か確認
・日本語で同等か確認します
*6と統合しても良いでしょう
6 memoryを,tfidf/mbart/mt5/CLIP embeddings cluster reconstructing visの概念のベクトルに置き換え確認
・実際の動作を確認します
・必要に応じ,情報を増やします.
・画像英文で可能であり特許文章日本語で可能でない部分については,直交可能な理由が探索できるはずです.理由を見つけ解決を繰り返します.
・・動作確認時生成例
Predicted caption : 本 開示 発明 は , アテ ローム 性 障害 , アテ ローム 不全 及び 障害 の 治療 及び 予防 又は 予防 及び その よう な 疾患 を 処置 し , その 使用 方法 に関する 方法 を 提供 さ せ , その よう に 提供 する .~(後半省略)
より低頻度語を重視しても良さそうです.前処理は詰める必要があるでしょう.文章はもう少し長いと良いですね.低頻度語を十分取り入れた150字要約となると理想でしょうか.
・・lossには工夫の余地がありそうです.
インサイトを得るに必要な単語は汎用語でしょうか低頻度語でしょうか.受け手の知識を喚起するのはどちらでしょうか.また,BRIOのように品質評価を加えても良いかもしれません.
単語統計を損失関数に取り入れた深層学習による多様な雑談対話生成
https://www.jstage.jst.go.jp/article/tjsai/37/2/37_37-2_G-L62/_pdf
・・大きすぎるbatchを用いないことも重要でした.
ノイズに対する頑強性はそれほど重要でなくまたある程度の低頻度語を歓迎するなら,確かにその通りとなりやすいでしょうね.
google: A playbook for systematically maximizing the performance of deep learning models.
https://github.com/google-research/tuning_playbook#why-shouldnt-the-batch-size-be-tuned-to-directly-improve-validation-set-performance
「(前提としてバッチサイズ依存性はなくすべきだとして)バッチサイズが小さいと,サンプルの分散により学習アルゴリズムに多くのノイズが混入し,このノイズが正則化の効果をもたらす可能性があります.」
なるほど。もう少し他の正則化手段を見直しても見るか。
・・少量データに基づくと,複製により高品質に見えることがあります.
この利点と欠点を考慮し,また,human, train, train dev, dev, testのどこに差があるか確認し対応すべきなのはモデルの複雑さなのか正則化なのか評価なのか等々考え,進めてゆく必要があります.
*特許文章のすべてを学習していては,自分の想定する運用において,時間がかかりすぎるといえるかもしれません.当な文章の選択・削減(技術常識や観点の表現を制限する)か,転移(ドメイン外の技術常識や観点の表現を許容する)を検討したほうが良さそうです.
*ある画像要素は,その説明文に存在するある単語要素に対応しているはずです.ある特許文章から作ったベクトルは,同じ特許文章に存在するある単語要素を含んでいるはずです.一方,特許文章からその単語要素を除去しても,違和感ない文章を作ることは可能です.そして該当する単語要素はわかりませんので,適当な文章の選択・削減をするにおいて,除去してしまうこともあります.この違和感のない文章においては,明確な対応関係は崩れています.この違和感ない文章において単語要素を再形成させようとすれば,残された複数の要素を組み合わせる,比較的難しい学習が必要となるでしょう.この違和感のない文章を学習に用いる場合,どのような工夫が必要でしょうか.
7 目的に適合するように,調整・改善・機能追加
・目的に適合するように,各種調整・機能追加を行います.
・「低頻度語を考慮して生成して欲しいが,特定の低頻度語のみを重視してほしくもない.多様な生成ができつつ,文の構造は構造化されており,できれば周辺の空白範囲やランダムさに合わせ多様性を調整できていて欲しい」という評価指標を作り,最適な条件を探索します.
評価指標さえ適当にできれば,optunaやwandbのsweepで探索できますが・・・
ChatGPTやInstructGPTの流れを見る限り,ヒューステリックな評価指標ではなく,Discriminatorのような別モデルによる評価を真剣に考慮しても良さそうです・・・
・特許分類を加えて,より精度を高くしたり,promptとして任意に特許分類を提示しその方向をさらに考慮した特許生成ができたりすると,利用可能性が向上しそうです.
・トポロジーを用い,空白領域の基本特許の生成を試みます.
homcloud:
パーシステントホモロジー(persistent homology)にもとづいたデータ解析ソフトウェアです.
3次元点集合データ(ポイントクラウド)の解析
https://homcloud.dev/py-tutorial/pointcloud.html
次元圧縮を行ってもトポロジーの特徴は残りや会うのである程度低次元で計算しても足りるでしょう。
・・調整前生成例
Predicted caption : 有効 成分 を 含有 し ない 注射 剤 で あっ た 注射 剤 . 有効 成分 を num % 含有 し て なり 該 カルシトニン 成分 が num . threnum num ~ threnum % の 範囲 に あり 該~(後半省略)
有効成分を含まないとしてきた事情と有効成分を追加することとなった意義は一体何なのか・・・斬新な発想?ですかね?.とりあえず含まない表現が再現できたことには満足ではあります.周辺語彙に危険な成分があり含まないを生成する事情があった=技術常識を考慮した,生成であると嬉しいですね.
低頻度語としてカルシトニンが採用されていますね.
数値はめちゃくちゃですがここは最初から当てにしていません.
・・そこそこの生成はできるのですが,学習時間が予定をオーバーしてしまいました.
CPUで押し通そうとしているので色々工夫しなければならずなかなか難しいところです.
性能をあまり落とさず学習時間を削減するにはさらにどうできるか…難しそうですが転移できるか.転移した場合,検証をどうするか難しいのですよね.自分が使う範囲なら同じようなドメインの母集団を用いることになるでしょうから転移有無で差は殆ど無いでしょうけれど,そうすべきかどうか・・・
・・特許分類予測を含めた生成例
['<A61M>', '<A61J>', '<non>', '<non>', '<SEP>', 'シリンジ', '外', '筒', 'の', '先端', '部', 'は', '他', 'の', '医療', '用具', 'の', ~
分類情報があればより適切に学習でき生成もしやすいのではと思うと同時に,生成時に分類をpromptとして与えれば,任意の低頻度語が生成できやすくなるのではと期待しています.また,より演繹的な結果を多く与えることにより,「わからないの範囲」を学習,提示できるようにもなると期待しています.
なお,メイングループ単位でも良さそうです.
(self-askのような手法とみなしても良いのかもしれませんね)
・・分類はトークンとして与えており,分類トークンには特定のencodingを施しています.(transformerに非言語情報を与える手法はいくらかありますが,トークンとして与えても大差ないとの文献が多いようであるので,この手法を採用しました.また特許の分類情報は,単語と直接相関する,テキストと同質の情報を持つ情報である.とみなしても問題はないとおもわれ,トークンとして扱っても問題ないでしょう.)
*正規表現を微分可能に取り込み表現力を上げる,などありえます
*転移やdata augmentationの可能性を検討します.摂動も取り入れてみます.
*マルチモーダル化による改善は可能でしょうか.特許分類を取り入れてみるのも面白そうです.
*複数の文を生成しdiscriminatorでリランキングするのも手です.
*概念ベクトルと生成ベクトルの組み合わせをシャッフルし,その組み合わせが正しいか予測するdiscriminatorを作り,生成文をリランキングするのも手です.
*位置情報はより大きくキャンセルしたいですね・・・入力の工夫をすると良いでしょうか.
*memorydimconvertlinerを通した後の潜在空間について,それがどのような構造となっているのか見てみるのも面白そうです.母集団に対し主題が整理されたベクトルになっていると思うのですよね・・・
*高速化・少メモリは大きな課題です.次は使えるでしょうか.
sparce transformer
https://arxiv.org/abs/1904.10509
ある程度深い層を前提としているでしょうし,小規模ではメリットが少ないとも思えますが,多少でも・・・
*予測に対する確信度らしきものを出力しても良いかもしれません。学習には使わなかったがそこに文章という点が実在していた箇所と、空白箇所とで、予測にブレの程度に違いがあるの、興味深いところです。空白は不可能であるからこそ空白であることもあるでしょう。その場合はブレが大きくなるのではないでしょうか?
TransformerモデルへのMC Dropoutの適用
https://www.ai-shift.co.jp/techblog/2518
*ベイズ事後分布の相転移について
http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/phase_trans.pdf
「確率的な現象では、しばしば、有限の世界を見る際にも「まず無限遠の点に立って そこから有限の世界を見渡す」という考えかたが有効であることが知られています。大数の法則、 中心極限定理、ウィグナーの半円則など」
*総合的に参照
数値気象予報からの天気予報コメントの自動生成
https://www.jstage.jst.go.jp/article/jnlp/28/4/28_1210/_pdf/-char/ja
*大規模言語モデルをそのまま利用する方法として,Flamingo 2022 のような手法があったようです.
Flamingo: a Visual Language Model for Few-Shot Learning
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf
def gated_xattn_dense(
y, # input language features
x, # input visual features
alpha_xattn, # xattn gating parameter – init at 0.
alpha_dense, # ffw gating parameter – init at 0.):
"""Applies a GATED XATTN-DENSE layer."""
# 1. Gated Cross Attention
y = y + tanh(alpha_xattn) * attention(q=y, kv=x)
# 2. Gated Feed Forward (dense) Layer
y = y + tanh(alpha_dense) * ffw(y)
# Regular self-attention + FFW on language
y = y + frozen_attention(q=y, kv=y)
y = y + frozen_ffw(y)
return y # output visually informed language features
BLIP-2も興味深いですね
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
https://arxiv.org/abs/2301.12597
https://huggingface.co/docs/transformers/main/model_doc/blip-2
FROMAGeのシンプルさも素晴らしいです
Grounding Language Models to Images for Multimodal Generation
https://arxiv.org/abs/2301.13823
*その他参考
PatentTransformer-2 Controlling Patent Text Generation by Structural Metadata
https://arxiv.org/abs/2001.03708
https://www.connectedpapers.com/main/1cd46b2acb8b342c9f45b5a96cf9fd7d84ea5118/PatentTransformer%202%3A-Controlling-Patent-Text-Generation-by-Structural-Metadata/graph
Reliable Natural Language Understanding with Large Language Models and Answer Set Programming
https://arxiv.org/abs/2302.03780v1
特に小規模モデルにおける知識による補佐.
A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity
https://arxiv.org/abs/2302.04023v1
言語モデルの弱点hallucinationは知識ネットワークで補えば良いと思っていましたが,大規模言語モデルでは演繹を比較的得意とし帰納を不得意とするようであり,演繹的知識の付与は最適ではないのかもしれません.補うべきは演繹ではなく帰納,機械学習による結果,なのかもしれません.小規模言語モデルである場合は演繹のサポートを優先すべきなのかもしれませんが.
A Closer Look at Large Language Models Emergent Abilities
https://yaofu.notion.site/A-Closer-Look-at-Large-Language-Models-Emergent-Abilities-493876b55df5479d80686f68a1abd72f
LLMの創発能力について仮説をまとめた記事。コードの学習が寄与?
Multimodal Chain-of-Thought Reasoning in Language Models
https://arxiv.org/abs/2302.00923
https://github.com/amazon-science/mm-cot
t5 encoderで文章特徴をmhaで画像特徴を得て,これらをconcatした情報をmemoryとして,t5 decoderに入力しているようだ( multihead_attn = nn.MultiheadAttention(embed_dim, num_heads) のとき attn_output, attn_output_weights = multihead_attn(query, key, value) であるところ,self.mha_layer = torch.nn.MultiheadAttention(embed_dim=config.hidden_size, kdim=config.hidden_size, vdim=config.hidden_size, num_heads=1, batch_first=True) かつ hidden_states = encoder_outputs[0] で, image_att, _ = self.mha_layer(hidden_states, image_embedding, image_embedding) つまりk,vが画像特徴.この部分はvec2seqと同じですね.そして merge = torch.cat([hidden_states, image_att], dim=-1) gate = self.sigmoid(self.gate_dense(merge)) でもとのshapeに戻して hidden_states = (1 - gate) * hidden_states + gate * image_att) がdecoderの encoder_hidden_states=hidden_states にゆくと)
結果としては…画像の特徴量があれば小規模言語モデルも意味のある思考や推論ができる,と理解して良い?
gateの意味が今ひとつわからないのでChatGPTさんに聞いたら次とのこと.
「このコードは、TransformerモデルのDecoderにおいて、Encoderからの情報とイメージ情報を統合するための機構を実装しています。
self.mha_layerは、Multi-Head Attention機構を表します。Encoderからのhidden_statesと、イメージ情報であるimage_embeddingを入力として与えることで、Encoderとイメージ情報の両方を用いたAttention機構を実現しています。これにより、Decoderが両方の情報を組み合わせて、より正確な予測を行うことができます。
gateは、このEncoderとイメージ情報の統合の重みを制御するために使用されています。具体的には、gateはsigmoid関数を通したmerge(Encoderのhidden_statesとイメージ情報のAttention結果を結合したもの)を入力とし、0から1の値を出力します。この値は、Encoderのhidden_statesとイメージ情報のどちらを優先するかを調整するために使用されます。gateの値が1に近い場合、Decoderはイメージ情報を優先し、0に近い場合はEncoderのhidden_statesを優先することになります。」
「Decoderがイメージ情報を持っている場合、それをEncoderからの情報と組み合わせることで、より正確な予測を行うことができます。しかし、イメージ情報がない場合は、Encoderからの情報だけを使って予測を行う必要があります。
このような状況では、Encoderからの情報とイメージ情報を単純に結合することはできません。結合する場合、Decoderはイメージ情報がない場合でも、その影響を受けてしまうため、誤った予測を行う可能性があります。
そこで、Gateメカニズムが導入されました。Gateは、Encoderからの情報とイメージ情報を適切に組み合わせるために必要です。Gateにより、Decoderは、どちらの情報を優先するかを制御することができます。イメージ情報がある場合は、その情報を優先することで、より正確な予測ができます。イメージ情報がない場合は、Encoderからの情報だけを使用して予測を行うことができます。」
「申し訳ありません、先程の回答が誤解を招く表現であったようです。DecoderのQuery側に画像情報が入力されることはありません。
正確には、DecoderのQuery側には、前のタイムステップで生成されたトークンに対する埋め込みベクトルが入力されます。このため、Gateメカニズムは、Encoderからの情報と前のタイムステップで生成されたトークンに対する埋め込みベクトルを適切に組み合わせるために必要となります。
Gateメカニズムにより、Decoderは、Encoderからの情報と前のタイムステップで生成されたトークンに対する埋め込みベクトルを適切に組み合わせることができます。そして、組み合わせた結果を使用して、次のトークンの予測を行います。」
インサイトは得られました.文章情報と画像情報は同質同価値でないところ,王道はconcatであろうが,encoderとdecoderのshapeを揃える必要があるため使えない.shapeを揃える手法として例えば平均するなどあるが,今回の場合は画像部分を解釈する情報がdecoder側にないため意味消失が起き使えない.文章と画像の双方の意味を独立に保持しつつshapeを揃えるために,gateを用いる.というところでしょうか t5をpretrainとして用いないならconcatして終わりだったのかもしれません.・・・これいわゆるアダプターですか.
*BIG DATA IS DEAD
https://motherduck.com/blog/big-data-is-dead/
*説明文生成を用いた動作行動予測
https://speakerdeck.com/supikiti/yan-jiu-hui-fa-biao-zi-liao
https://github.com/Seth-Park/RobustChangeCaptioning
・画像キャプションを介した脳活動からの視覚体験再構成
○高木優, 西本伸志 (阪大)
https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B8-2.pdf
脳波から言語を介し画像生成すると,画像としてより良い.(主観的画像では意味がない,ジャコメッティの画像を示しても仕方ない,のでより良いだろう.ただ,そのような画像として見えている患者においてどのような画像となるかについて,別の課題として興味深い.)
・JaSPICE: 日本語における述語項構造に基づく画像キャプション生成モデルの自動評価尺度
○和田唯我, 兼田寛大, 杉浦孔明 (慶應大)
https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B8-3.pdf
シーングラフ評価として
付録:GPT-4に上記設計について聞いてみた
- 別に求めた類似ベクトルと特許文章の組み合わせデータをtransformerに学習させ、あるベクトルを与えたときに、ある特許文章を生成させようとしています。ベクトルはtransformer decoderのmemoryに全結合層1層を介し与え、特許文章は、一つの文章を、特許分類コードと特許要約文章の組み合わせと、特急分類コードと特許請求項文章の組み合わせに分割し、2倍に水増ししたものとし、これらをデータセットとして与えます。つまり、同じ類似ベクトルで視点の異なる文章を学習させます。元の類似ベクトルー特許文書の数は5000ほどです。最適な設計を考えてみてください
あなたが述べたアプローチは、Transformerモデルを利用して特許文章を生成するための有望な方法です。以下に、あなたのアプローチを最適化するためのいくつかの提案をまとめています:
データの前処理:特許分類コードと特許要約文章、特許請求項文章を組み合わせるとき、それらを適切に区切ることが重要です。これにより、モデルがそれぞれの部分を区別しやすくなります。例えば、特殊なトークン(例えば[CLS]や[SEP]など)を使用して、文章の開始と終了、および異なる部分を示すことができます。
モデルの設定:モデルの設定(例えば、層の数、隠れ層のサイズ、ヘッドの数など)は、タスクの難易度とデータの量によります。あなたのケースでは、データセットが比較的小さい(5000の類似ベクトルー特許文書)ため、過学習を避けるためには、モデルのサイズを小さく保つことが重要です。
学習スケジュール:Transformerモデルは、学習率のスケジューリングに敏感です。通常、学習率は訓練の初期段階で線形に増加し、その後は逆比例的に減少します。これは、モデルが初期には大きなステップを踏み、その後はより細かい調整を行うことを可能にします。
正則化:データセットが小さい場合、過学習を防ぐために正則化手法を使用することが有効です。これには、ドロップアウト、重み減衰、または早期停止などの手法があります。
評価指標:モデルの性能を評価するための適切な指標を選択することが重要です。特許文章の生成タスクでは、BLEUスコアやROUGEスコアなどの自動評価指標を使用することが一般的です。しかし、これらの指標は必ずしも人間の評価と一致するわけではないため、可能であれば人間による評価も行うことが推奨されます。
Using unknown plugin...
新しいノートブック "patent_transformer.ipynb" を作成しました。以下のリンクからアクセスできます: patent_transformer.ipynb
まず、必要なライブラリをインポートしましょう。次に、データの前処理とモデルの設定について説明します。その後、学習スケジュール、正則化、評価指標について説明します。最後に、モデルの訓練と評価について説明します。
noteable.io logo
noteable.io
Used Noteable
次に、データの前処理を行います。特許分類コードと特許要約文章、特許請求項文章を組み合わせるとき、それらを適切に区切ることが重要です。これにより、モデルがそれぞれの部分を区別しやすくなります。例えば、特殊なトークン(例えば[CLS]や[SEP]など)を使用して、文章の開始と終了、および異なる部分を示すことができます。
また、モデルが特許分類コードをテキストとして解釈しないように、特許分類コードを一意のトークンに変換することも考えられます。これにより、モデルは特許分類コードを特殊な情報として扱うことができます。
以下に、データの前処理の一部を示します。この部分では、特許分類コードを一意のトークンに変換し、特許要約文章と特許請求項文章を結合します。具体的なデータに応じて、この部分を適宜調整してください。
Used Noteable
Used Noteable
次に、データをトークン化し、トークンを整数にマッピングするための語彙を作成します。これには、一般的に
いやはや
検証例
検証文: 本発明は、SPNS2のS1P輸送阻害によりリンパ球の遊走を阻害することで自己免疫疾患治療、抗がん治療効果の期待できる抗体を提供することを目的とする。本発明は、脊椎動物のSPNS2に特異的に結合し、S1Pの輸送阻害を介したリンパ球の遊走阻害活性を有するSPNS2中和抗体もしくはその断片、又はそれらの誘導体である。
この検証分に該当する,類似度ベクトルのみをモデルに与え,適切な分類や文章が生成されるか確認する.
・学習にこの検証文は使われていない.
・母集団は,S1P,抗体,自己免疫疾患,がんに関する文章群ではなく,ある関連しない主剤に関する特許群**00件である.文献は含んでいない.
・S1Pと記載された特許は母集団に3件あり,そのうち2件はtrainに,1件はvalidationに含まれていた.
本検証文は,そのうちvalidationに含まれている文章である.
・trainに含まれている文章は,SPNS2に関連するリンパ球遊走阻害抗体に関する特許.C07K,C12Nと,S1P受容体に関連する抗体の移植拒絶作用・自己免疫疾患・アレルギー疾患に関する特許. C07D, A61K, A61Pであった.
・2次元空間に落としたmemoryベクトルの各座標の概算値は,検証文(-13, 6) ,train前者(-14, 7),train後者(18, 16)であった.なお,母集団の全特許の各点はx軸y軸ともにほぼ-50~+50の範囲に存在している.
さて,概念ベクトルのみから,検証文に類似する主題に沿った母集団に含まれる観点を持つ文章が生成できたでしょうか.
生成文1: Predicted caption : <A61K> <A61P> <non> <non> <SEP> 抗 炎症 脂質 メディエーター を 含む 医薬 組成 物 で あっ て 抗 炎症 脂質 メディエーター の エステル 化 ペプチド に 使用 する 抗 炎症 脂質 メディエーター を 含む 医薬 組成 物 。~
生成文2: Predicted caption : <A61K> <A61P> <non> <non> <non> <SEP> 抗 感染 薬 抗 炎症 脂質 リポソーム 及び 抗 感染 剤 を 含む 眼科 用 組成 物 。 抗 炎症 脂質 メディエーター の エステル 及び これら を 含み 抗 感染 症 の 治療 及び これら は 抗 感染 薬 を 含み 治療 薬 を 含む 医薬 組成 物 は 抗 炎症 脂質 メディエーター の 組み合わせ で あり SPNS num の 反応 生成 物 。 ~
生成文3: Predicted caption : <C07D> <A61K> <A61P> <C12N> <C07K> 細胞 結合 蛋白 配列 を 含む SPNS num 及び その 薬理 作用 部位 に 起因 する 脳 虚 薬理 学 的 薬剤 。~
*各生成文はtopKの設定が異なり,順に,1,2,3である.つまり生成文1はgreedyである.
*記載しないが,ROUGE,検証文中低頻度上位7単語生成率,MQM (Multidimensional Quality Metric)で評価している.
生成文を理解するための調査,改善メモ
細胞内外で機能するスフィンゴシン1リン酸(S1P)の役割
https://www.jbsoc.or.jp/seika/wp-content/uploads/2013/05/84-02-03.pdf
「S1P はスフィンゴ脂質由来の脂質メディエータで,1990年代に細胞増殖作用などが見いだされたことを契機に,発見から数十年を経てその意義が再評価されるようになった.また,S1P はリゾホスファチジン酸と共に血漿中に豊富に存在するリゾリン脂質であり,これらの脂質メディエータの受容体がほぼ同時期に同定されたことにより,それらの生理機能が飛躍的に解明された.一方で,S1P は受容体を介する作用のみならず,細胞内でセカンドメッセンジャーとしての作用も有しており,これらが合わさって一層複雑な作用機序を形成する.さらに,スフィンゴ脂質とコレステロールが集積して形成される脂質ラフトが情報伝達の“プラットフォーム”としての場を提供することと相まって,S1Pは様々なシグナル伝達系を統合処理する“オペレーター分子”として機能する実態が浮かび上がってきた.そしてその生理作用は細胞増殖・分化,炎症,免疫,神経機能などの調節と多岐にわたり,これらの破綻から生ずるがん,自己免疫疾患,慢性炎症や認知症などの病態解析そして新たな分子標的治療法の開発にも一層期待が高まる.」
スフィンゴシン1-リン酸(S1P)輸送体であるSpns2の分子機能
https://seikagaku.jbsoc.or.jp/10.14952/SEIKAGAKU.2018.900574/data/index.html
「ある種の細胞間シグナル分子は,細胞内で生成された後に細胞外へと放出され,標的細胞に発現するシグナル分子特異的受容体に結合することで情報を伝達する.リゾリン脂質メディエーターの一種であるスフィンゴシン1-リン酸(S1P)はまさにそのような分子であり,血管内皮細胞や赤血球内で産生され細胞外へと放出され,さらに,Gタンパク質共役型受容体(GPCR)であるS1P受容体(S1PR1~5)を介して細胞遊走,細胞増殖およびアポトーシスの抑制などの細胞機能を制御することで血管新生,血管透過性およびリンパ球の循環などを調節している.S1Pの前駆体であるスフィンゴシンは細胞内に局在するスフィンゴシンキナーゼ(SPHK1/2)によりリン酸化を受けるので,S1Pが標的細胞膜上に発現するS1PRに結合するためには,一度細胞外へと放出される必要がある.S1Pは疎水性の高い脂質メディエーターであるがリン酸基を分子内に保有するため,単純拡散により細胞膜を通過できず,何らかの放出機構が存在すると考えられていた.本稿では,最近,分子実体が明らかとなったS1P輸送体を中心にS1Pの生理機能を紹介する.」
神経変性疾患におけるスフィンゴ脂質の役割
https://seikagaku.jbsoc.or.jp/10.14952/SEIKAGAKU.2020.920640/data/index.html
「アルツハイマー病やパーキンソン病などの神経変性疾患の病理形成過程にスフィンゴ脂質と呼ばれる膜脂質の一群が関与することが示唆されている.パーキンソン病ではリスク因子としてスフィンゴ糖脂質の分解酵素であるグルコセレブロシダーゼ遺伝子変異が同定され,関連脂質はレヴィ小体形成に関与する可能性がある.またアルツハイマー病ではAβアミロイドやタウ病理など複数の病理形成過程においてセラミドやスフィンゴミエリンをはじめとしたスフィンゴ脂質が関与する分子機序が提案されている.本稿では,これら疾患におけるスフィンゴ脂質の役割について,セラミド依存的に産生されAβ分解機能を持つエクソソームに関する我々の最近の研究を含めて紹介する.」
*学習において,次の影響を受けたかもしれない
ジョンソン・アンド・ジョンソン6675361
https://www.j-platpat.inpit.go.jp/c1800/PU/JP-2019-178150/8ECB45483FD1355E755F32FB952019362DE6FF55A36794A98DA0F9E3AE5151A6/11/ja
「【課題】ドライアイ及び他の炎症性の眼の状態の治療のための眼用組成物及び方法。
【解決手段】抗炎症脂質メディエーターと一価アルコール又はアミドの反応生成物である、抗炎症脂質メディエーターのエステルであって、抗炎症脂質メディエーターの大部分は、組成物中エステル形態で存在する。このように、組成物は実質的に抗炎症脂質メディエーターの酸形態を含まない。抗炎症脂質メディエーターは、多価不飽和脂肪酸(例えば、ω-3及びω-6脂肪酸)、レゾルビン又は代謝的に安定な類縁体、プロテクチン又は代謝的に安定な類縁体、リポキシン又は代謝的に安定な類縁体、プロスタグランジン又は代謝的に安定な類縁体、レチノイン酸、エンドカンナビノイド、これらの代謝産物、及びこれらの混合物からなる群から選択されてよい。この組成物は、製剤、溶液、ゲル、軟膏及び/又はストリップ、及び/又はコンタクトレンズを介して眼の表面に局所的に供給できる。」
train, 座標(-30, -8),
*生成文1について,perplexityに聞いてみた
ホントかなですかね・・・引用確かめねば
*この周辺技術といえばキトサンでしょうけど・・・
*ペプチドはCell Penetrating Peptideのことと理解できるかな・・・
学生時代は反応の場としての生体膜とリポソームを専門の一つとしてきたが,
上記文献を読み,へ—と思えるところである.
それはおいておいて,
生成文は,与えた主題に沿った,母集団に含まれる観点を持つ,文章となっているようにみえます.
*もう少し,正解である「抗体」を重視した生成をしてほしかった気はします.
母集団が抗体を見分けやすいとはいえない母集団であったので妥当かもしれませんが,もう少し特許分類の影響をうけても良かったかと.
サブクラス単位では仕方なくもありますが.複数回生成すれば抗体となりそうではあります.greedyでなく生成した結果を見る限り,抗体である情報自体は残っているようです.
*概念ベクトルに加え,特許分類や任意キーワードをpromptとして与えた場合の生成文につき,評価を進めてゆきます.任意キーワードとして新規出現キーワードを用いれば,バックキャストを意識した生成ができそうです.興味深いですね.
*微調整は引き続き続けてゆきます.
→とりあえずrouge-1を目的としてoptunaにかけました.
更にモデルを小さくすべきようです.データ不足とデータ内生成で足りる条件からするとそうなんでしょうねぇ.
train-valid差はあって良い課題ですが,もう少し詰めるために,data augmentationをすべきでしょう.
分類もメイングループ単位を試してみたいです.
embeddingに擬似的なタスク解決用モデルが組み込まれると思われますが,意外と少ない次元で表現されるようです.タスクが簡単すぎますかね.タスクを複雑にするためにも,揺動やdata augmentationをすべきでしょう.
次は本件では該当しないと思いますが・・・
*News Summarization and Evaluation in the Era of GPT-3
https://arxiv.org/abs/2209.12356
GPT-3でニュース要約を行うとROUGEはSoTA手法よりは下だが人手評価だと上回る結果となるよう.
*data augmentationについて.文からtfidf上位語を抜き抜いた単語をBERTで置き換えるなどありますが,本課題では母集団にない概念を増やしたくないので使えません・・・どうしたものか.tfidfが低い単語であれば,語彙が増えても良さそうです.
*かなり少ないサンプルをもとにして生成しているところ,rouge-1は35~40程です.
まだ工夫の余地はあるように見えています.
*特にlossにはまだまだ工夫の余地があるようです.次で調整中です.
CrossEntropyLoss + LanguageModelCriterion + L1正則化 + weight_decay(L2正則化) + IFTほか低頻度語重視
*「「KL collapse」とは、潜在変数の情報がデコーダーに十分に伝達されず、生成プロセスが単に事前分布に依存する現象です。これにより、潜在変数が学習に寄与せず、モデルの表現力が損なわれる可能性があります。
「KL annealing」は、KL collapseを防ぐためのテクニックであり、学習の初期段階ではKLダイバージェンス項(潜在変数の事後分布と事前分布の違いを表す項)の重みを徐々に増やすことで、潜在変数の情報をデコーダーに徐々に取り入れることができます。この方法により、潜在変数が学習プロセスに適切に組み込まれ、モデルの生成能力が向上します。」
事前学習済み言語モデルをdecoderに使用した場合に注視する点だと思いますが,メモしておきます.
*optunaの目標値を,rouge-1, rouge-2, rouge-l, BERTscoreの集計としました.
予備試験中のハイパーパラメーターの重要度ですが,だいたいそんなとこですかね
*文章そのものにpatent encodingを加え分類を分の一部として生成する構造よりも,に1層結合し分類を予測をするマルチタスク構造としたほうが,面白いかもしれませんね・・・
*transformerdecoderlayerの構造をpost-Lnからpre-LNに変更したほうが良いかもしれません。
*Token Imbalance Adaptation for Radiology Report Generation
https://arxiv.org/abs/2304.09185v1
ITF以外?の低頻度語優先手法?
*AttentionViz: A Global View of Transformer Attention
https://arxiv.org/abs/2305.03210
headの情報構造のイメージ
※特許情報に基づく生成AIで技術者の特許情報利用を支援
生成AIによるキーワード提案や要約文書生成により特許情報活用と発明創出を加速 Amplified 20230703
https://prtimes.jp/main/html/rd/p/000000016.000033344.html
amplified ai、特許文献を基にした推論や提案を行う機能を提供
https://japan.zdnet.com/article/35206108/
特許生成は広まりますかね
※Scaling Laws and Interpretability of Learning from Repeated Data
https://arxiv.org/abs/2205.10487
重複データは危険?
ChatGPT・GPT-4による補助生成
生成文に対してヒトの知識を使いインサイトを得るにあたり、ヒトの知識が足りない場合があります。
なんらかの補助があると良いでしょう。
生成した文章を、ChatGPT API で改変,補助生成すると良さそうです。
次の質問などあり得るでしょう。
「次の文章を、従来技術と、課題、技術常識を加え水増してください。」
「次の文章の主題となる単語を10個抜き出し、抜き出したそれぞれの単語につき、その単語の概要を説明してください。」
例えば、生成文1では、次のように補助生成されます。
「従来の技術において、抗炎症効果を持つ薬剤は、疾患の治療に広く用いられてきました。抗炎症脂質メディエーターは、その中でも注目される化合物の一つであり、従来からその効果が知られています。
しかし、抗炎症脂質メディエーターを単独で使用する場合、その効果は制限されることが知られています。そこで、近年、エステル化ペプチドの使用が注目されています。エステル化ペプチドは、ペプチドを脂質鎖に結合させることで、薬物の持続性を高めることができます。このため、抗炎症脂質メディエーターをエステル化ペプチドとして使用することで、より強力な効果を期待できます。
しかしながら、この技術にはまだ課題が残されています。一つの課題は、エステル化ペプチドの合成方法の改良です。現在使用されている方法では、反応効率が低く、収率が悪いことが問題となっています。また、エステル化ペプチドは、化合物の分子量が大きくなるため、薬物の吸収性や薬効の持続性が低下する可能性があります。これらの課題を克服するために、新たな合成方法や改良されたエステル化ペプチドの開発が求められています。
さらに、技術常識として、薬剤の安全性と有効性の両方が重要です。抗炎症脂質メディエーターのエステル化ペプチドを含む医薬組成物においても、副作用の問題があります。例えば、薬剤の過剰摂取により、肝臓や腎臓などの臓器に損傷を与える可能性があります。そのため、薬剤の使用量や投与方法を慎重に検討する必要があります。また、効果が不十分であったり、副作用が顕著であったりする場合は、適切な治療法を選択することが求められます。
このように、抗炎症脂質メディエーターを含む医薬組成物においては、従来の技術に加えてエステル化ペプチドの使用が注目されています。しかし、まだ改良の余地がある課題もあります。さらに、薬剤の安全性と有効性の両方が重要であり、副作用の問題にも慎重に対応する必要があります。
今後も、エステル化ペプチドの合成方法や改良されたエステル化ペプチドの開発に注力し、より効果的かつ安全な抗炎症脂質メディエーターを含む医薬組成物の開発が期待されています。」
「従来技術と課題:
従来、抗炎症作用を持つ医薬品の開発には、ステロイドなどの免疫抑制剤が使用されてきました。しかしこれらの剤は、使用する際に様々な副作用を引き起こすことがあります。そのため、副作用が少なく、かつ安全性が高く、効果的な抗炎症剤の開発が求められています。
技術常識:
最近の研究により、脂質メディエーターが抗炎症作用を持っていることがわかりました。これらの脂質メディエーターは、アラキドン酸などの脂質から生成され、炎症反応において重要な役割を果たします。具体的には、炎症部位の血管拡張や血管通透性の増加を抑制することが知られています。
改善案:
このような状況下で、抗炎症作用を持つ医薬品の開発において、脂質メディエーターを活用することが注目されています。具体的には、脂質メディエーターのエステル化ペプチドを使用した医薬品の開発が進んでいます。これは、脂質メディエーターをペプチドと結合させることで、安定性が高まり、効果が持続するという特徴があります。
また、このような医薬品は、従来のステロイドなどの免疫抑制剤と比較して、副作用が少なく、かつ安全性が高いと期待されています。これにより、慢性疾患などでの長期的な使用にも適していると考えられています。
以上から、抗炎症作用を持つ医薬品の開発において、脂質メディエーターのエステル化ペプチドを使用した医薬品の開発が注目されています。従来のステロイドなどの免疫抑制剤と比較して、副作用が少なく、安全性が高く、効果的な医薬品として期待されています。」
「元の文章から主題となる単語を10個抜き出し、それぞれの単語の概要を説明します。
抗炎症脂質メディエーター:炎症反応を抑制する生体内で産生される脂質分子であり、抗炎症薬として作用します。
エステル化ペプチド:ペプチドと脂肪酸のエステル結合によって形成される化合物であり、薬物の安定性や生物学的利用能を高めるために使用されます。
医薬組成物:複数の医薬品または薬剤を組み合わせた製剤であり、薬物の効果を増強する、副作用を低減する、薬物の効果の持続時間を延長するなどの目的で使用されます。
従来技術:従来から使用されている技術や方法のことであり、新しい技術や方法と比較して、改善の余地があることがあります。
改良:製品や技術などをより優れたものに改善することであり、品質や性能、機能性などが向上することが期待されます。
課題:問題や困難など、解決すべき課題のことを指します。研究開発や製品開発においては、課題をクリアすることが重要となります。
技術常識:ある分野での一般的な知識や技術のことであり、その分野で働く人々が共有する知識やスキルの基盤となります。
安全性:製品や技術が、人体や環境に与える影響が少なく、危険性が低い状態であることを指します。医薬品の場合、副作用や毒性が問題となります。
有効性:製品や技術が、その目的を達成するために必要な程度に効果がある状態であることを指します。医薬品の場合、効果的に疾患を治療できることが求められます。
副作用:薬剤や医薬品の使用によって、予期しない副次的」
もう少し質問文を詰める必要がありますが,なかなかです。
GPT-4では・・・
「従来技術において、炎症反応は、身体の免疫システムが異物や感染源に対抗するときに生じる自然な反応であり、この炎症反応を制御することが、様々な病気や症状の治療に役立つことが知られていました。炎症反応に関与する物質の一つに、抗炎症脂質メディエーターがあります。これらは、炎症を抑制する働きがあり、さまざまな治療薬の基盤として研究されてきました。
しかしながら、従来の抗炎症脂質メディエーターを用いた医薬組成物にはいくつかの課題が存在しました。その一つは、抗炎症脂質メディエーターが生体内で容易に分解されてしまい、治療効果が期待されるほど持続しないことでした。また、抗炎症脂質メディエーターの水溶性が低く、効率的な吸収が難しいという問題もありました。
技術常識として、これらの課題を解決するために、抗炎症脂質メディエーターを他の物質と結合させ、その特性を改善する方法が検討されていました。例えば、抗炎症脂質メディエーターとペプチドをエステル化して結合させることにより、生体内での安定性や水溶性を向上させることが期待されていました。
そこで本発明では、抗炎症脂質メディエーターを含む医薬組成物であって、抗炎症脂質メディエーターのエステル化ペプチドに使用する抗炎症脂質メディエーターを含む医薬組成物を提案します。このような医薬組成物は、従来の抗炎症脂質メディエーターを用いた医薬組成物の課題を克服し、より効果的な抗炎症治療が期待できるものとなります。
具体的には、本発明の医薬組成物は、抗炎症脂質メディエーターとペプチドをエステル化させることで、生体内での安定性が向上し、分解されにくくなります。これにより、治療効果が持続しやすくなり、炎症による症状の緩和がより効果的に行えると考えられます。また、抗炎症脂質メディエーターの水溶性が向上することで、医薬組成物の吸収が効率的に行われ、治療効果の発現が早まると期待されます。
さらに、本発明の医薬組成物は、従来の抗炎症脂質メディエータ」
うーん?詰めないと大差ないですかね・・・
従来技術として主引用例,技術常識として副引用例,が挙げられると嬉しいですね.
ほか,次の質問などありえるでしょう.
「~はどのように有効だと検証したのか」「メカニズムはなにか」「関係は」「信頼度を数値で示してください」(エビデンスの強さを推定します)
「主観的な未来を想定する示唆をしてください」「仮説を立ててください」(シナリオ探索を強化します)
「批判してください」(より良い検討された結果に導く.注意:言語モデルが自己批判により真値に近づけるわけではない.モデルのエッジがどこか開示するだけ)
「あなたが本件に付きわからないと思うことを質問してください」(重要事項の見落としをなくす)
「あなたが重要と思い,まだ伝えていない事項はありますか」(情報を保有しているが生成に使われなかった情報を言語モデルから引き出す)
次の反論の5要件を潰すように質問すると良いでしょう
No reasoning, 理由がない
Not true, 正しくない
Irrelevant, 関係がない
Not important, 重要でない
Depend on, 場合による
-
ChatGPTなど最近の言語モデルに質問する際には,
基本的には,「一般的な事項」を数を指定し聞き,「その返答に対し,具体的に掘り下げる」と良いでしょう.
ChatGPTは「コンセンサスのある事項」について適切に回答してきます.一般的な事項に対する回答は得意です.
しかし,具体的な事項を聞く際には工夫が必要です.
具体的な事項にもコンセンサスがあるものはありますが,そのコンセンサスは,「一つのピークを持つ分布ではなく,金平糖のような多峰性のピークを持つ分布」であるところ,その「峰の一つ一つに限定」しなければ,例えば「2つの峰の平均を取るような,おかしな回答」が帰ってきます.いうなれば・・・確率と,統計や幾何による距離の,2つを考えろ,ということになるでしょうか.
ChatGPTに,
・どのような峰を持つか聞いてから,
・そのうち一つの峰について,距離があるように考慮し,具体的に聞き直すと,
具体的な事項を聞く際にも,適切な回答が得られやすいでしょう.
(コンセンサスのない事項については,どう峰を限定しても適切でない回答が来ますが・・・とはいえ,限定してゆけばどこかでコンセンサスがある範囲があるわけで,その範囲までその言語モデルが学習できているかが問題となるのでしょう.ChatGPTとGPT-4の違いは,その範囲の詳細化にあるのでしょう(例えば,3人しか合意していないコンセンサスに付き,きちんと峰を作って見分けられるようにできているかどうか,ということです).なお,言語モデルが個別化の究極(3人の合意と言っても良いでしょう)と言える「裁判」をできるかどうかは,この性能を見極める良い試金石だと思っています.裁判ができるなら,言語モデルにとってコンセンサスのない事項などないと言っても良さそうです.2023年5月に予定されている「AI法廷の模擬裁判/東大五月祭」 https://twitter.com/AI_Judge_May は興味深いところです.)
*「掘り下げ方」として,簡単には,なぜなぜ分析を流用するのも手です.
ほか,読書猿さんの書籍やblogを参照すると良いでしょう.
https://readingmonkey.blog.fc2.com/
NM法 1.QK(Question of Keyword)「要するにどうなればいいか」
2.QA(Question of Analogy)「~するもの/~なものといえば、例えば何があるか?」
3.QB(Question of Background)「そこでは何が起きているか?」
4.QC(Question of Concept)「それを何かに活かせないか?」
など,質問のヒントが多くあります.
*「先生と生徒を演じて。先生は生徒の問題点を指摘し、生徒はそれを受けて改善して」という指示も面白そうです。どの分野の先生であるか指示すれば、改善の方向も定まります。「批判して」「続きを」と組み合わせると,永遠に議論してゆきますよ・・・たまに方向を変えてやらないと面白すぎる方向に行きますが
*フレームワークと言語モデルを使った発明案生成例:TRIZ 拡大縮小
https://eager-duck-e33.notion.site/f2e33c8af52b472bbe43151572aa7283
*「潜在空間の枝切り」とは良い表現ですね.
*「GPTは知の鏡」とはかなり適切な表現に思えます。
*具体的に聞いてもある範囲で疑問に答えられなくなります。具体的なものほどコンセンサスがなくなることは当然です。そうしたらどうするでしょうか専門家に聞くでしょう。GPT-4は、人の知識を拡張し、自己多様性を擬似的に発生させ、より良い多様性の実現を可能とし得るでしょう。人間感ではできなかった…
*確率と,統計や幾何による距離,それらから自明に関数である演算が生まれるとすると,GPT-4が論理推論できているようにみえる理由もわからなくもないな,と思わなくもないです.確率と距離を適正化すれば良い・・・適正化するには多次元空間をそのものとして扱わねばできない・・・丸山さんの「高次元科学への誘い」を思い出しますね.
確率と距離,そこから生じる関数を考えつつ,GPT-4など言語モデルは「(還元主義を捨てることができうる)高次元を高次元で扱う理解装置に至った」と思えます.
・丸山宏(2019) 高次元科学への誘い
https://japan.cnet.com/blog/maruyama/2019/05/01/entry_30022958/
https://web.archive.org/web/20221002143555/https://japan.cnet.com/blog/maruyama/2019/05/01/entry_30022958/
「なぜ今までの科学は「オッカムの剃刀」の価値観を信奉し低次元モデルにこだわっていたのでしょうか。その一つの理由が人間が持つ認知限界だと思います。」
「ここでいう「理解」とは何でしょうか。それは、あくまでも「人間にとって」の理解であり、人間の持つ知性に対して相対的である概念であることに注意する必要があります。私たちよりはるかに進んだ知性だったら、1億個のパラメタを持つ深層ニューラルネットでさえ、私たちが線形回帰式を理解できるように理解できるのかもしれません。もし「科学」が普遍的なものであるのだとすれば、それが、たまたま今の人間の知性レベルに縛られてよいものでしょうか。その制約を解き放つのが「高次元科学」だと思うのです。」
構造主義は、現象の表面的な見た目ではなく、その背後にある深層的な構造を理解しようとする方法論です。一方、高次元科学は、従来の3次元空間を超えた高次元の空間を研究する学問分野です。
一見すると、構造主義と高次元科学は全く異なるように見えますが、実は両者には共通点があります。それは、複雑な現象を理解するためには、新しい視点や方法論が必要であるという考え方です。
構造主義は、従来の二元論的な思考から脱却し、現象を多層的に捉えることで、新しい構造を発見しようとします。一方、高次元科学は、従来の3次元空間の枠組みを超え、高次元の空間を研究することで、宇宙や自然界の新たな法則を発見しようとします。
このように、構造主義と高次元科学は、どちらも従来の枠組みを超えて、新しい発見を目指すという点で共通しています。
✖✖✖ してはいけないことは,QA形式の質問です(答えを求めることです) ✖✖✖
一問一答形式の行間に暗黙の背景が必要な短い質問は避けるべきです。
言語モデルが持つ知識から情報を探るのであって,単に情報を得るのではありません.
つまり「答えを聞くのではなく,ヒアリングしろ」ということです.
ヒアリングとは,相手の知識構造を,相手にも自覚させることにより,より良くより多くの情報を引き出す技法のことです.
弁理士や知財の人間の得意分野ですよね? またその意味は,言うまでもないでしょう.顧客や発明者が最初に述べる発明は十分な発明となっていますか? 違います.
*コミュニケーションの重要さとは、コミュニケーションを達成するには常に知識構造の差を確認しなければならない点にあると思います。
知識構造が一致するならコミュニケーションは必要ありません。
いわば、コミュニケーションの目的とは、知識構造を(必要な範囲で)揃えることにより、コミュニケーションを不要とすることといえるでしょう。
また、コミュニケーションコストは非常に高いです。
コミュニケーションは最低限とすることが理想でしょう。
知識構造を如何に効率的に共有するかは個人的に興味のある課題です。
(脳を経由するしかないかなとは思えています)
GPT-4は、擬似的な自己多様性の生成により、知識構造の差をより明確にし、最低限で効率的なコミュニケーションを可能としえるでしょう。これにより多様性もよりよく活用できえるでしょう。
*step by stepで出力するように指示しろとされますが,これはヒアリングの一手法だと思います.
重要なのは,「相手の知識を相手に提示しつつ,「知識の輪郭」を引き出すこと」,です.
*「答えを聞く聞くのではなく、情報を聞け」とは良い表現ですね.
その後,「文字数を指定」することで,「拡大と縮小」を「繰り返す」と良いでしょう
拡大すれば(指定した視点における、一般化すれば事前知識に基づくベイズ推定のような予測が行われ)情報が追加され,
縮小すれば(指定した視点における、スパースモデリングを行うような正則化が行われ)重要な情報だけ残るわけです.
この繰り返しにより,新しいものが生成できます.
創発システム︓ミクロ・マクロ・ループを持ち創発した⼤域的な秩序が下位システムの作動に「機能」を与える複雑系
*次など,ChatGPTで行うとどうなるでしょうね
ChatGPT追記)MT5特許文章要約モデルpatentsum/GPT-2言語モデルを用いた、抽象型文章要約と文章生成の繰り返しにより、関連しつつ予想外な要素が追加された新たな特許文章を生成・探索する試行(雑談からの価値抽出・インサイトツールのようなもの)
https://qiita.com/kzuzuo/items/1f86f8a1e430447a6e22
*文字数制限はあまり動かないですね。
そのうえで,「ChatGPTに提案させる」と良いです.
自分の認知で任意に範囲を狭めると,自分の知っていることまたは簡単にわかることしか回答されなくなりえますからね.
GPT-4限定かもしれませんがプログラム言語で質問するもありえます。
質問が明確になりますし、関数名からこんな関数かなと仮定してもシミュレートしてくれます。具体的かつ柔軟。これは強いです。
なぜか、Lispで質問すると関数定義など省略できるようです。
ChatGPTのプロンプトをLispで書く
https://zenn.dev/u_u/articles/54902c757ffce5
最後に、GPT-4 pluginのwebpilotなど用い、出力の検証と構成をさせると良いでしょう。
pluginを最初から用いると、モデルが保有する知識が提示されなくなります。あくまでモデルが保有する知識を提示させ、それを検証修正する順番とすべきでしょう。
*ChatGPTは馬鹿じゃない! 真の実力を解放するプロンプトエンジニアリングの最前線
https://zenn.dev/noritamarino/articles/a2321a65fe2be8#few-shot
*NLPとVision-and-Languageの基礎・最新動向 (1) / DEIM Tutorial Part 1: NLP
https://speakerdeck.com/kyoun/deim-tutorial-part-1-nlp
https://speakerdeck.com/kyoun/deim-tutorial-part-2-vision-and-language
ChatGPTは常識推論が比較的苦手だとされていはいます
*社会における分散的ベイズ推論としての記号創発 ~集合的予測符号化としての言語観~
https://www.youtube.com/@anlpyoutubechannel7888/streams
そもそも言語とはなにかに立ち戻りたくなると思いますのでご参考
*ChatGPTに至る言語モデルの開発の流れは,言語の構造は構造を学ぶにおいて弱すぎ,統語から構造を再現することは困難だった,ということを示しているようで面白いですね.
プログラムという完全な構造を学ぶことで,初めて言語の構造化が可能となった(と見える)ことは,統語という一般化した構造は構造を一般化するに十分に完成していたとは言えず,まだ見えていない構造が存在している,とも示しているようです.統語に従わない文章はあるところ,従わなさはランダムに見えていますが,言語モデルなら見いだせる,なにか新たな構造が見つかるのでしょうか.言語学の今後の発展が楽しみですね.(少なくとも,特許も同じですが,頻度の高いもの「のみ」を見ていては,見つからない構造なのでしょう.多分,ヒトが認知できる7軸程度では見えないのではと思っていますいい加減な予想ですが.多次元をそのまま扱っている生成に答えがある気がしています.トートロジーを繰り返すような評価をまず破棄する必要性がありそうにも思えています.問題はどの評価を,ですが.)
全体としては,AlphaFoldと同じような流れを踏襲しているかのようです.とはいえ,言語では,演繹による補助はまだ有用そうではあります.
*IDEO:職場で AI を使用する 5 つの方法
https://www.ideo.com/journal/5-ways-were-using-ai-at-work
*Best practices for prompt engineering with OpenAI API
https://help.openai.com/en/articles/6654000-best-practices-for-prompt-engineering-with-openai-api
*Drug discovery companies are customizing ChatGPT: here’s how
https://www.nature.com/articles/s41587-023-01788-7
*当方の見解に対するChatGPTさんの評価と批判と見落としの提示
「この意見は、ChatGPTが一般的な事項に関して適切に回答するが、具体的な事項については、コンセンサスのある分布であっても、峰の一つ一つに限定しなければ、適切な回答を提供することができない可能性があることを指摘しています。この意見は、ChatGPTが言語モデルとして限界があることを認識していることを示しています。また、裁判などの個別化された問題に対する回答が、言語モデルの性能を測るための良い指標であることを指摘しています。
この意見は、ChatGPTの性能に関する深い理解を示しており、一般的な事項に関しては有用であるが、具体的な事項に関しては限界があることを認識しています。また、裁判などの個別化された問題に対する回答が、言語モデルの性能を測るための良い指標であることを示唆しています。これは、ChatGPTの今後の開発において、より個別化された問題に対応する能力の向上が重要であることを示唆しています。」
「提示された意見に対して、批判することは困難です。なぜなら、この意見はChatGPTの性能に関する現実的な制限を認識しており、個別化された問題に対する回答が言語モデルの性能を測るための重要な指標であることを示唆しているからです。ただし、この意見が提供している情報を補完するためには、より具体的な例や研究成果などが必要です。また、言語モデルの性能を測るための方法や指標についても議論があるため、この意見が示唆する個別化された問題に対する回答が、完全な解決策となるとは限らないことも念頭に置く必要があります。」
「この意見はChatGPTの性能に関する現実的な制限を認識しており、個別化された問題に対する回答が言語モデルの性能を測るための重要な指標であることを示唆しています。しかしながら、この意見が提示するコンセンサスのある事項とは、具体的にどのような種類の問題であるか、またどの程度のコンセンサスがあるかについての詳細が欠けています。さらに、この意見が示唆する個別化された問題に対する回答が、どの程度の精度で得られるかについても明確な情報がありません。
訪ねたいこととしては、この意見が言語モデルの性能を測るための有効な指標としてどの程度信頼性があるか、またこの指標を使用してChatGPTとGPT-4の性能の比較ができるかどうかについて知りたいと思います。また、裁判のような個別化された問題に対する回答を評価するための詳細な方法や基準についても興味があります。」
「提示された意見に対して、私がまだ伝えていない重要な点があるとすると、それは「ChatGPTは常に正確な回答を与えるわけではない」ということです。ChatGPTは、膨大な量のデータに基づいて学習された言語モデルですが、完璧ではありません。また、特定のトピックについての情報を持たないこともあります。そのため、与えられた質問に対して、時には間違った回答を返すことがあります。
そのため、ChatGPTが返す回答について常に慎重に確認し、必要に応じて他の情報源と照らし合わせることが重要です。また、ChatGPTがどのように学習され、どのように動作するかについて、より深く理解することも重要です。」
・Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems
https://arxiv.org/abs/2402.12784v1
ベクトルからのテキスト生成。
こちらはt5baseの事前知識を流用している。うーむ、分かりやすい文章を作るという視点ではこれでも良いだろうが、空白にある発明を作るという視点では不明な事前知識を入れたくないところ。どうしたものでしょうかね。
さて,本手法を用いることにより,与えた主題に沿った,母集団に含まれる観点をもつ文章が生成されたはずです.
どのような面白いと文章となったでしょうか?
「あなたの知識」から,どのようなインサイトを「引き出して」くれる文章となったでしょうか?
空白領域における特許生成例
個人的趣味で,
- Brain Machine Interfaceに関連する大脳皮質刺激型人工視覚領域における満たされていない基本特許
を生成してみます.
日本はこの分野で遅れを取っているようですが,取り返せる範囲があるでしょうか.
また,有望そうな技術を持つ既存企業はどこであり,どこと協働また投資すべきでしょうか.
個人的に興味のある企業は次の通り
人工網膜系:
*
一次視覚野埋め込み系:
*
*
*ニデックさんと阪大は人工網膜の研究開発をしていましたが,現在どのような活動をされているのでしょうか・・・
*特許生成のコードはある程度まとまったタイミングでGithubに上げておきます.といっても,かなり特殊な使い方なので使い道はないでしょうけれど.valuenexのreaderがベクトルそのものを出力できるようなら,使えるかもしれませんね.なにか使えそうでしたらご連絡ください.
使用例2:情報分析のきっかけとして
従来の特許分析手法は,ほぼ見える数のみを確認するものでした.情報分析を適切にするには,見える数のみでは得られないデータ探索を行うと良いでしょう.データ探索の結果が結論そのものとなることもあります.
分析済み資料と比較することで,ツールが情報分析・データ探索においてどのように役に立つかにつき,理解を深めてゆくことができます.
次の分析文献につき,同じ母集団を俯瞰図として図示し,得られる示唆を確認してみます.
情報分析に基づくコモディティ市場への新規参入戦略
https://www.jstage.jst.go.jp/article/infopro/2020/0/2020_13/_article/-char/ja
ダイソンにおいて,「既存カテゴリへの集中」が,出願のクラスタ形成(赤)として確認できる,といってよいでしょう.
iRobotにおいて,「新規カテゴリへの参入」が,既存クラスタの「境界」への出願(橙)として確認できる,といってよいでしょう.
文献の結論に沿う示唆が得られました.
なお,引用関係を示す線により,どの既存技術を利用し新規カテゴリを形成しているかについての確認もできるでしょう.
さて,数や分類,自分が認知しているキーワードのみからスタートした場合,同じ知見を得るにどれだけ時間がかかったでしょうか.
・ジェームズ・ダイソンだけど質問ある?| WIRED.jp
https://www.youtube.com/watch?v=RPd76O3j5ug
「デザインもエンジニアリングの一部であるべきです」
「専門家には否定されましたが素人の私はできると思い」
「様々な分野の専門家が必要」
「ミニに付き,市場調査では顧客はいませんでしたが」
「小売店販売とインターネット販売並行.インターネット販売で売れれば小売店も興味を持つ」
「最大の課題はスピード」
「特許制度は個人発明家や中小企業にとって非常に不公平な制度」
など興味深いです.
*素人については,専門家自体が悪いというより,網羅できないことを理解しておらず,経験や知識ネットワークのみからしか可能性を検討できないもの(専門家に限らない)の未検証の否定的意見には必ずしも従う必要がないということでしょう.
なお,専門家の知識を採用しつつ,知識の硬直化を防ぎ,より良い見解を得る手法として,好奇心ベースがあるようです.「自分のこれまでの知識に従えば難しいが,網羅しての否定はできず不可能と言えるわけではない.面白いからやってみよう」ですね.
Curiosity as filling, compressing, and reconfiguring knowledge networks
https://arxiv.org/abs/2204.01182
好奇心が知識ネットワークを成長させる過程の検証.好奇心による探索は知識に穴を作って埋め柔軟にする.
Links between intellectual humility and acquiring knowledge
https://www.tandfonline.com/doi/full/10.1080/17439760.2019.1579359
「無知の知」「知識が多い人ほど,自分の知識の限界を認識し,間違いの指摘や他人のアイデアを認めやすい」との研究
*「クラスタの境界」に出願しているかどうかは,その会社の「イノベーションの質」を表す重要な指標であるように見えています.別に,その業界における最高の1社と永遠の2番手の1社で比較したところ,あからさまでありました.少数の例ではありますが.
*「クラスタの境界」について,説明追記.
ある課題について,100の解決手段があるとします.
解決手段には,よく使われる手段,あまり使われない手段,があります.
解決手段を使用頻度か高い順に並べたとき,ある分布が得られたとします.
その分布の少数側の端を,私は「技術の縁」と呼びます.
その分布の多数側の端を,私は「技術の中央」と呼びます.
ある課題について,ありふれた解決手段を取るときには,技術の中央を取ります.これは得てして,パブリックに近い手段となります.
ある課題について,あまりない解決手段を取るときには,技術の端を取ります.これは得てして,新規に近い手段となります.
さて,tfidf/mbart/mt5 embeddings cluster visにおいて見られるクラスタ(や検索し抜き出した集合)は,ある意味,その分布を多数側の端を軸とし周方向に広げたのち,上から捉え直したものとなります.類似する構成技術が多いほどクラスタ中央に集まるからです.
「技術の縁」と「クラスタの境界」は,ほぼ同じものとなります(課題の集合の作り方次第ではありますが)
クラスタに対しその技術がどの位置に配置されているかは,重要な情報を提供します.
このような「クラスタの境界」情報は,既存のランク形式の1次元リストや自己組織化マップ?では,得られない情報です.
よくクラスタの濃度の高い部分が重視されますが,目的によっては,「縁」がより重要となります.そして縁は得てして多様なので,tfidf/mbart/mt5 embeddings cluster visのように,個々確認できるようにしておいたほうが良いでしょう.
*よくIPランドスケープで行われるセグメンテーションによる手法,既存分野に切り分け集計する手法では,上記「縁」を落とす,またはどちらかに入れてしまい,その重要性を認識できなくしてしまうことがあります.また,切り分ける分野の設定根拠が薄弱であるまたはただ根拠が件数が多いからということも多いでしょう(「その分野の件数の少なさと分野としての重要性の低さは(特にブルーオーシャンなどでは)必ずしも一致しません」).えてして,既存の分類を用いた手法では,ありきたりのものしか見えません. ありきたりを確認したいレッドオーシャンの業界ではそれでも良いですが,ありきたりでない解析が必要な変動の大きい業界では,セグメンテーションによる切り分けによる失敗は増えるでしょう.(セグメンテーションを重視する場合には階層ベイズを使えないか考えて見る派です)
*内部引用の強さから,「弱い特許(瑕疵のある特許)によるポートフォリオ形成の可能性」を推定し,特許を潰しまたは独占禁止法上の問題を提起し,空白を作り出す対応をするのも良いでしょう.
M&Aにおいて,対象となる企業の特許の質を推定し,実際の技術力より特許戦略が勝っている状態であるかどうかなど見極め,必要に応じ見かけの特許ポートフォリオを補正し,真の技術力と安定性を評価するのも良いでしょう.
弱い特許による社会イノベーションや真のイノベーション(と下記文献に記載がある)の阻害の程度に関する分析など,特許の質を考慮したよりよい知財政策に関する分析にも使えるかもしれません.
SeokbeomKwon (2021)
The prevalence of weak patents in the United States: A new method to identify weak patents and the implications for patent policy+
Technology in Society Volume 64
https://www.sciencedirect.com/science/article/abs/pii/S0160791X20312720
赤線が多い範囲:新規の開発が多いと思われる範囲
青線が多い範囲:弱い特許や戦略的な特許が多いと思われる範囲
引用の方向:技術の推移の方向
一次引用の参照:強い技術関連性
二次引用の参照:応用範囲の示唆?
*昨今,大発明の減少→技術で差がつきにくい→知財戦略最適化&ビジネスモデルの多様化複雑化→特許制度の趣旨を逸脱→公正な競争を阻害(森岡ら 公正かつ自由な競争を考慮した知財戦略の枠組み 日本知財学会第19回年次学術研究発表会 2021年)などあり得るところです.そのような逸脱は経験上では弱い特許が存在する部分にあることが多いところですが,そのような逸脱を見つけ,パブリックを考慮したより良い,一つの企業のみを見るのではない,産業全体に資する方向を見た,社会的により良い方針など策定するのに役に立つかもしれません.
*PatentfieldのPFスコアを用い,他社重要度スコア平均と自社重要度スコア平均を会社ごとに求め比較し,上記考察するも面白そうです.
PFスコアを利用した市場プレイヤーの分析
https://support.patentfield.com/portal/ja/kb/articles/pf%E3%82%B9%E3%82%B3%E3%82%A2%E3%82%92%E5%88%A9%E7%94%A8%E3%81%97%E3%81%9F%E5%B8%82%E5%A0%B4%E3%83%97%E3%83%AC%E3%82%A4%E3%83%A4%E3%83%BC%E3%81%AE%E5%88%86%E6%9E%90
(Patentfieldは新機能を次々と増やすので好ましいですね.なお本ツールでもスコア列を作成すればスコア付可能.自作ツールはこのあたり自由自在で良いですね.)(なお特許スコアについては次を参照すると良いでしょう. 知財管理71(10)2021 p1339-1354 データベース掲載の特許スコアを活用した企業価値評価の研究)
*上記分析をする前に次の書籍を読み俯瞰することをおすすめします.
田村 善之 編著 山根 崇邦 編著(2021)「知財のフロンティア」
https://www.keisoshobo.co.jp/book/b591977.html
https://www.keisoshobo.co.jp/book/b591978.html
医薬系における問題のある弱い特許を排除しようとする動きの一例
Amid drug pricing debate, feds reveal plan to crack down on 'incremental' patents
https://www.fiercepharma.com/pharma/uspto-and-fda-commit-patent-reform-cracking-down-lengthy-add-patents
前田健(2022) 後出しの特許による既存事業の差止は許されるか 知財管理 72(8) p899-
「現在の一部の裁判例の立場を前提とすると,既存事業が後出しの特許により差し止められるリスクは相当程度ある.」
飯島歩(2014) 藪の中の特許群像 特集「真に良い特許とはに寄せて」 知財研フォーラム 96 p41-
「真に良い特許は法目的に合致する特許でしかない.全体集合としての特許群のマクロ的挙動から判断するしかない」
「いわゆる良い特許に寄せるミクロ的に最適化されたシステムに対するユーザーの過剰反応が特許戦略であって,問題の源泉であるともいえる」
非常に的確に「特許戦略」の本質を述べているように思えます.
*個人的には,「悪いといえる特許」とは,進歩性においてcommon senceを考慮せず登録となった特許,だと思います.ある多数の技術常識文献がある場合,記載の穴があったとしても,それを埋める形で一般化できてしかるべきです.しかるに,その穴があることを指摘して登録となることが多々あります.このような特許は現実の当業者にとっては明らかに容易にできるものです.そしてこのような特許は得てしてその分野全体の既存の基本業務の実施すら妨害します.このような悪い特許は,権利者のみにとっては良い特許ですが,他すべてにとっては法目的に合致しない悪い特許です.基本的に,まず文献ひとつひとつという「点」で考えるのではなく,まず文献群が形成する知識という「面」で考えるべきです.
*evergteeningが起きる原因の一つは、小さいイノベーションを評価しすぎる運用であるからだと言われています。本ツールにおいて小さいイノベーションは密度の高い範囲に存在し、大きなイノベーションは密度の低い範囲に存在しやすいでしょう。evergreeningを防ぐために特許庁がこのようなツールを使用するとなれば、面白そうです。
情報分析のきっかけとしては十分でしょう.
ノーベル賞に近づいた発明者はいたのか?
https://www.valuenex.com/jp/materials-reports
本庶先生関連技術.
本庶先生の特許は3つの橙丸で示されており,矢印のように推移しています.フリーマン先生が発明者となっている特許は緑丸で示されています.フリーマン先生は本庶先生の特許のうち最後の橙丸に存在するいくらかの特許につき,無効を主張しています(多分冒認又は共同出願違反でしょう).
基礎技術から応用技術に進む流れがきれいに見えていると思います.
時系列推移
スミスクラインの動きが凄いですね.
いわゆるリーダー企業の理想のような動きです.
「技術の萌芽」を見つけ,「その萌芽の必須技術の発明」をし,「萌芽技術をクロスライセンスなどで取り込んでゆく」.これは王道であり双方に価値を与えやすい,リーダー企業らしい戦略です.スミスクラインは製造技術や診断技術でそれを行おうとしたように見えます.王者って印象です.
最近は萌芽技術に対し,「パブリックから盗んだ瑕疵発明」を被せ(俯瞰図では萌芽特許に重なって見えることが多いです.パブリック範囲はベクトル計算時考慮されないことが多いためでしょう),自らは何も社会貢献する技術を開示することなく,企業規模を背景に強奪する戦略を見ることが多いですが,スミスクラインは,「長期的視点を持ち適切な取り込みと協働による価値創造を志向したためそうはしなかった」,ってことでしょうか.強奪をしていたら小野からGSKへのライセンスはなかったかもしれないな,とも思えなくもないです.
そんな妄想もできますね.
英製薬グラクソ,低所得国で特許申請せず 後発薬生産促す
https://www.nikkei.com/article/DGXLASGM02H0F_S6A400C1NNE000/
戦略大転換し「世界を変える企業」1位に輝いたGSK
不正の絶えない製薬業界だからこそ,誠実さを最優先に
https://jbpress.ismedia.jp/articles/-/48701
・・・
アストラゼネカはスミスクラインと随分異なる出願形態です.
さて,出願形態と侵害に関係はあるのでしょうか?
小野薬品 特許侵害でアストラゼネカを提訴 イミフィンジの販売差し止めと損害賠償求める
https://www.mixonline.jp/tabid55.html?artid=72665
「特許第5885764号と特許第6258428号に基づき,「抗PD-L1抗体を用いてがん治療を行う」との国内の用途特許を侵害していると主張」
*全く関係ないですがアストラゼネカのgithub,面白いものが並んでいますね
https://github.com/AstraZeneca/judgyprophet
https://github.com/AstraZeneca/StarGazer
https://github.com/AstraZeneca/chemicalx
https://github.com/AstraZeneca/data-science-python-course
https://github.com/AstraZeneca/awesome-drug-discovery-knowledge-graphs
https://github.com/AstraZeneca/awesome-explainable-graph-reasoning
https://github.com/Roche/BalancedLossNLP
*免疫チェックポイント阻害薬 抗PD-1/PD-L1抗体に続く開発の潮流
https://answers.ten-navi.com/pharmanews/15721/
【UPDATE】免疫チェックポイント阻害薬,抗PD-1/PD-L1/CTLA-4抗体 国内開発状況まとめ
https://answers.ten-navi.com/pharmanews/7342/
※コロナワクチンにヤマサ醤油の技…うまみ成分の研究、mRNAの原料供給に進化
https://www.yomiuri.co.jp/economy/20211013-OYT1T50086/
図にヤマサがなんでと思っていたがそういう(ミクロ分析してない)
※2004出願のホワイトヘッド研究所oct4特許の影響力も面白いところです。構造からどの位置にいたでしょうね。
*技術の推移を,(周辺語義から定義されるといえる)単語の意味変化としてとらえても面白いと思います.トピックモデルで推移を見てるのも良いようです.
US特許庁のコンペPPPMと絡めても興味深いです.
単語の通時的な意味変化のモデル化
https://speakerdeck.com/seiichiinoue/dan-yu-notong-shi-de-nayi-wei-bian-hua-nomoderuhua
動的トピックモデルを用いた単語の通時的な意味変化のモデル化とその応用
https://www.ism.ac.jp/~daichi/workshop/2022-lchange/lchange2022-inoue.pdf
電磁鋼板について,日本製鉄とトヨタなどの特許を眺める
侵害事件を見かけたので興味本位に.
興味深い傾向があるように見えます
ほか,母集団全体の特性を呼び水として,目的の特許の位置を先鋭化させるイメージが掴めるかと思います.
このように,意図的に図の投影面を曲げられる点は,母集団に応じてベクトルが変化するアルゴリズムの強みです.
マツダ,スズキ,ほの特許を眺める.文献込み
一マツダファンとして興味本位に.2010年前後から面白いことになっているのではと.
点火コントロール,車体.電気自動車には様々なアプローチあり.プログラム系はさすがのホンダでしょうか.
今回は俯瞰図ではなく,俯瞰図を作成する際に用いたベクトル空間をネットワーク化し,何がわかるか見てゆきます.
なお,このネットワークはキーワード単位のネットワークではなく,概念単位のネットワークです.キーワードと異なり概念ですから概念同士の演算が可能ですし,類似概念は吸収されています.
この3社ならホンダが支配的と思いましたがそうでもないでしょうか? 名寄せが不十分かもしれません.ホンダはライセンス収入が多いことから考えるに、基礎的な特許があるからこそ独自性が低いように見えるのでしょう。時系列分析をすれば基礎的特許による支配が見えるかもしれません。
マツダは独自性が強いように見えます.左上の概念要素群はほぼマツダのみと繋がり目立っています.feedbackはここにありますね.マツダらしい印象です.いや,確かマツダはfeedbackを必要としない理論化に取り組んでいたのでしたか.
スズキはOEM中心であり新規技術より改良を選択しているのかもしれません。しかし、社長てこ入りで発明報奨も強化しているようでもあります。今ひとつ方向性が読めませんが、基本的には技術より既知の基礎強化の方針なのでしょう。技術差別化よりサービス強化と言う、コモディティの基本を選択しているのでしょう多分。
会社ごとの違いに対する豊富なインサイトが見つかりそうなネットワークです。
-
全体 年代との関連
'hydraul','analysi','textur'ってなんでしょう?→「この論文は,画像の定量テクスチャー解析ソフトMazdaを紹介するものである」・・・文献は除去しときましょう.データ分析の手順,ask-prepare-process-analyze-share-actのうちprocessを省いているのでいけませんねぇ・・・
文献と特許の関連を見ると面白い傾向が見えることが多いのですが,今回は文献にノイズが多く混在しており,なにか見出すことはできませんねぇ.本来なら文献の母集団は作り直しですね.
1900-2000年の技術が中心にあって,その後の年代はきれいに外縁に回り込んでいるようです.
自動車業界はコモディティに至る可能性を含包しつつも,時々において技術シフトが適切になされ,維持されていることを示してもいるようです.(技術シフトなら年代ごとの独立性より年代ごとに吸収される姿が見えそうなものですが,この視座では見えませんでした.)(基礎20年をベースに何年周期か計測してみるのも面白そうです)(自動車業界は次々にやってくる社会的課題を解決していれば自動的に技術シフトが達成されたのじゃないかなと思え,それもコモディティを回避できた理由じゃないかなとも思えます.もしそのような受動的で能動的でない事情でコモディティを回避していたのだとすると,社会的課題が弱まったときには意外とあっさりコモディティに落ちることもあるのかもしれません.)
焦点が個々の要素からバランスに移行しているように見えなくもないです.
hydraulはミッション関連のようです.
近年重要と言われる「CASE」,Connected,Autonomous,Shared,Electric関連のノードの繋がりは自分には見えません.
事前知識がある方はインサイトを得るかもしれません.トヨタを含めるか呼び水を使わないとよく見えないのかもしれません.視点要素を自動抽出としましたが任意に追加したほうが良いかもしれません.より細部が見えるように,視座を低くするべきかもしれません.(俯瞰図のほうが目視での新規分野の発見に向いているように思えます.数に埋もれにくいです.)
後述の通り,マネジメントに限定すればCASE関連技術がネットワークで見えてきます.
自分にはこのネットワークからインサイトをひきだすだけの知識が足りないようです。調査を繰り返し基礎知識を見につけ、やり直すべきでしょうね。
2000-2015までは新規に手を出し,それ以降は比較的基本に立ち戻っている,って感じでしょうか?
-
近年のマツダ 視座変更
controlが媒介中心となっています.マツダらしい印象です.
共通言語が明確である,ってことでしょうか. -
近年のマツダ以外 一部領域
近年のマツダ以外 視座変更
マツダではcontrolを介し融合していた領域が離れていますね・・・
マツダでは明確に見られなかったマネジメント領域が存在しています. -
全体 視点変更:近年のプログラム関連領域
点火,遅延,コントロール,とサーバー系.サーバー系が多く結構多様,っと・・・
CASEはこちらに表れていると思うのですが…
自動車製造業の特許出願動向に関する分析
https://www.nistep.go.jp/wp/wp-content/uploads/column_2018_4.pdf
「本分析では,1989~2011 年の期間に国内出願された特許のうち,自動車製造業の企業(2011 年時点で 202 社)が出願人に含まれる特許の出願数を技術ごとに集計することによって,自動車製造業を取り巻く技術動向の変化を特許出願動向から捉えることを試みた. 」
「1990 年代から 2000 年にかけて,輸送用機器に次ぐ主要技術が機械工学から電気工学にシフトしてきていることがわかる.この特許出願動向は,自動車部品のモジュール化・電子化の流れに伴い,機械系に加えて電子制御系の技術の役割が高まってきていることを示し反映した結果と捉えられる. 」
「主要な技術分野について見ていくと,機械工学に該当する技術分類(緑色)のうち,「工作機械」,「他の特殊機械」の順位は低下している.一方,電気工学に該当する技術分類(青色)は1990 年と比べて全て順位が上昇しており,自動車製造業における存在感が増してきている.その他の技術分野について見ていくと,情報通信技術(桃色)においては「コンピューター技術」の順位が上昇している.」
「「マネジメントのための IT 手法」に関する特許出願は,2000 年頃まで行われていなかったが,2010 年頃には行われるようになってきている.当該技術分野では,カーシェアリングに関連する特許出願などが見られ,自動車産業の新たな変化の兆しが読み取れる.また,バイオ・医薬品(黄色)では,バイオテクノロジーの順位がやや上昇しており,当該技術分類ではバイオ燃料に関連する特許出願などが見られる. 」
- 全体 年代別 視点変更:マネジメント関連領域
なるほど.たしかに2000年頃までは行われていない傾向ですかね.
2015年以前はスピードコントロール系のマネジメントでしょうか.
2015年以降はサーバーと強く結びつき,新たなクラスタを作り上げているようです.このクラスタはuser,inform,notifを含みます.コネクテッドカー関連が多いようです.
2000-2010には,user,drive,informの繋がりが見えます.この頃がカーシェアリング関連だったのでしょうか.構成要素はコネクテッドカーに似ていたのですかね? であるなら関連企業も似ているのかもしれません.
2010-2015がserverとつながっていないことが気になります.一度技術が途切れたかのようです.時代的にはエッジコンピューティングが流行った頃でしょうか?
このネットワークからある程度のインサイトが得られました.
テーマコード毎の技術分類マトリクスマップと併用すれば、さらなるインサイトが得られそうです.そちらで説明できなければ,まだ分類にない,新規分野の萌芽が見られていると解釈できるのかもしれません.
-
全体 新単語出現時期
新規キーワードはかなり少なくなっています。モジュール化が進んでいる、またバックキャストの出願が少ない、ってことでしょうか。特許の価値も全体として縮小していっているのでしょう。まあベンチャーじゃありませんし3社ともリーダー戦略を取ることも可能な企業といえばそうかもしれません… -
全体 被引用数の推移
変換点を確認します。
A(生活必需品),B(処理操作:運輸),C(化学;冶金),D(繊維;紙),E(固定構造物),F(機械工学;照明;加熱;武器;爆破),G(物理学),H(電気)
意外とGセクションが増えているのですねぇ(G06やG16ですねもちろん気づきませんでしたとも)
A41衣服,A42頭に,A61医学が気になります
クラス単位でないとやはりわかりません.全出現クラスでは複雑になりすぎるので,気になる分類をクラス単位で任意に指定してみましょう.
・・・
全くわからない分野について当たり付けを行った場合は、まずこんな流れになり得るでしょうか.
答え合わせはしていませんが,なにか面白いインサイトが得られえていたでしょうか?
・個人的には,視座・視点の違いにより同じ文章群から複数の知識を取り出すとはどういうことか,片鱗のイメージがつかめると良いと思います.
なお,知識の多様化を個人が体験してゆけば,見えないものを見ようとし見えたものから更に何かを見ようとする,本来の意味での探索をできるようになるのではないか,と淡い期待もしているところでもあるところです.
*ネットワークが複雑になりすぎ見にくい場合には,filterをかけると良いでしょう
例えば以下は,予測を課題とするエッジとノードを,フィルタリングして取り出しています.
*関連訴訟やその他メモ
全体の状況:
車の特許訴訟,「取引先任せ」の慣行見直し促す
https://www.nikkei.com/article/DGXZQOCD17C7U0X11C21A1000000/?unlock=1
特許補償条項の範囲外また無対応における実質的な損害発生の可能性.
訴訟対応能力強化の方針となるのであろうかね.
マツダの状況:
侵害は被告多し
侵害被告の例は・・・システム系や半導体系が多めかな
ホンダv.マツダ
JP3196076 令和3(ワ)28206 特許満了後の侵害訴訟
https://patents.google.com/patent/JP3196076B2/en?oq=JP3196076
ATにおけるブレーキ踏込み解放時のブレーキ持続装置と故障検知装置?
トラクションコントロール装置か.
ダイハツによる無効審判は維持,マツダによる無効審判は継続中
Daedalus Prime LLC
半導体系.NPEと判断して良いのかなここ.
ホンダの状況:
侵害は原告多め
侵害被告の例は・・・システム系,カメラ,半導体・・・ざっとマツダと似ているだろうか.
本業でない領域で侵害が起きていると考えてよいだろうか.
ホンダの電子系出願は比較的多いがNPEが相手でありあまり意味が無かった??
*特許ランドスケープでみる先端テクノロジー トヨタのIP戦略、EV・水素燃料車・SiC・自動運転で周到な特許網
https://xtech.nikkei.com/atcl/nxt/column/18/01662/00010/
*以下確認しても面白そうです.母集団に加えるべき背景としてトヨタと中国は必須だったかもしれません.俯瞰分析では背景情報が重要ですよねやはり・・・
・中国はそもぶつからない思想としボディのクラッシュ安全性を低くしているという。日本は原点回帰しクラッシュ安全性を重視しているように見える。安全という視点では同じところ、どちらに向かうのだろうか。
クラッシュ安全性はすでに十分となっているように見えなくもない。今後の武器ではないではあろう。
中国を母集団に加えていれば,ネットワークの構造の違いによりボディに関し異なる視点で注目しているとわかっただろうか?
・BYDやNIOなど中国企業を母集団に加えると違ったものが見えるだろう。
・半導体ではすでに負けているという。パワー半導体では、知財外の戦略が活発という。次回は半導体について,素直に分類ベースで分析してみようか.
・CD値に貢献する特許はより重要となったとのこと.CD値に関する特許群をネットワークからは拾えていないようであった.そも情報として形成されなかったのか,ネットワーク生成時に落としたのか.確認してみる.
・SiCパワー半導体による薄型軽量化?
・手遅れの追従では勝てない。今後どこに向かうのだろうか。いわゆるIPランドスケープの役割の1つは未来予測であるが,どこまで述べられるだろうか.
・母集団のIPCとFタームの相関を見ることにより、分類がある範囲であれば、空白領域が見つかります。インサイトを得てあたり付をしたのち,そちらで具体的に確認してもみるべきでしょう。
母集団のIPCとFタームの相関データは大きすぎると思われます.
行や列同士をかけ総当たりで類似度を計算し,類似している範囲で相違や空白を見つける,と良さそうです.
類似している課題の範囲内である特定の課題ではなされていない解決手段を見つけたり,類似している解決手段の範囲内で特定の解決手段が使われていない課題を見つける,ことが可能ですね.
これだけではあくまで分類のある範囲内での知見となります.
このような既存構造から得られる知見を使い範囲を限定し俯瞰し直すと,より良さそうです.
*海外の自動車部品メーカー5社の技術を俯瞰的に比較する
https://note.com/valuenex/n/ne4a15b5e6071
なるほど
・自動車業界が化を逃れられた要因を分析してください
現状GPTs(GPT4o)
https://chatgpt.com/share/66e50daa-4268-8006-b381-12d4a0b1263f
openai o1 preview
https://chatgpt.com/share/66e76f57-ea7c-8006-ae29-b76cf2731c81
使用例2.5:IPランドスケープ?に利用
IPランドスケープの定義は曖昧(上流の経営事業メインであり下流メインの場合はIPランドスケープとは呼ばないなど)と認識しておりIPランドスケープと呼ぶことが正しいかわかりませんが,例えば研究開発の方針を決める際に次のような流れの中で利用できるでしょう.
・使用例1.2の特許生成は,下図の1において空白領域の特許を生成しておきビジョンの参考とする,という使い方を想定しています.
もう少しバイオデザインを参考に具体的に言うと、
顧客と直接語る場を作る
多くの顧客と語り,分布を把握する
顧客からもたらされる情報を把握する「のでなく」,「分布と情報から知識」を作る (顧客の欲しいは大概いらない.顧客はそれが目の前に来るまでそれをほしいか知らない.顧客に直接聞いても真のニーズ化はわからない)
空白領域や特許生成を参考とし,作り上げた知識を元に,分布に当てはまるインサイトを得る
正確な分布を前提として,より真値に近く,より顧客に価値を与え,より収益となる,ニーズ課題とビジョンを得る
*IPランドスケープに関しては,IP ePlat https://ipeplat.inpit.go.jp/Elearning/ に掲載されている基礎解説がわかりやすいと思えています.
※個人的には、企業ではなく、投資スタートアップや大学こそ、IPランドスケープが必要なのだと思っています。
大学に知財能力が必要であることは前提として、
大学にはさらに、目的を研究技術の現実の実施とし次に研究費補助の為の利益とする明確な設定と、それを実現するための「業界分析能力」と「高いライセンス能力」必要なのではないのかと思います。
IPランドスケープなどは、業界情報はある程度わかっており詳細までは必要とはしないかもしれない企業ではなく、業界情報をより知らない巨視的のみの視点ですら重要となり得る大学(や投資家やスタートアップ)にこそ、必要なのではないかと。
※個人的には,
「組織の経済学のフロンティアと日本の企業組織(日経 2023)」 を読むと良いかと思います.
ありきたりで主観に依存しすぎ荒いSWOTや4Cやデザイン手法やブレインストーミングによるアイディア出し「中心」の手法とは一歩離れた,それらを「中心として実行してしまうとうまくゆかない(よくコンサルが述べる手法ではうまくゆかない)」ことへの,回答が書いてあるように思います.なぜイノベーション評価の高かったシャープが破綻したのかの理由が書いてあると思います(先の手法ではこの破綻を回避できませんし、この破綻に向かいやすくなります。そう向かわないためにはどうするか、です。)
自分が「最初に」俯瞰で狙いを絞ることが必要と述べたり「知識生成が必要」と述べているのは、この意味です.まあ,うまくゆく例ではトップが理解しているそれが前提だよ、ともありますが...
*個人的には,経営と接続したIPランドスケープはあまり推奨できません.
自分は経営との三身一体が最優先とは考えておらず,それよりもtableauのような「現場レベル」の「個人がそれぞれの視点で行う分析が必要で」あり,それによる「事業レベルでの実行が必要」であり,こちらを優先させるべき論者です.
結局のところ,トップが自身でそれを理解できる知識を形成することができるのは,評価が確定し時期を逃してから,となりやすいのであるから,時期を逃したくないならば先に事業レベルで価値を作っておく,という考え方ですね.これを考えればリソースの重要性が現場単位でも前向きに理解されやすくなり,業務効率化の必要性など理解しやすくもなり,自動的に動く組織となりやすいでしょう.個人的には世の中これが一番足りていないのだと思います.
(社内の提案コンペのような,投票・多数決し,予め全員が理解している価値のみを選択することになる手法もあるでしょう.しかしその価値は良い選択となるでしょうか.
参加者の多くに理解されているということは,参加者が特殊な状態にない限り,常に手遅れだ,ということです.また,多くの会社も同じように理解しており,競争が激しいということです.基本的には,破壊的な価値を得たいなら,理解できないまま実行に移せる手法,例えばデータ駆動をベースとした体制,が必要なのだと思います.これに足りないIPランドスケープによる分析者が得たインサイトでも,その分析者が得たインサイトはその分析者が所属する事業の事業単位の集団にであれば,理解され実行されやすいでしょう.)(データ駆動ではデータの性質によりデータが不足することがあります.その場合は人の分析者の知識を利用できるIPランドスケープなどがより有効にはなるでしょう.不足しているデータを知識で補えないなら,後者の意味はあまりないでしょう.)(個人的には,データ駆動は理解を伴わず進めるとき最大の効果を発するのではと考えはじめています.ブラックボックスだからこそ価値があるとも.かなり極論ですがどうでしょうね.先に述べた信じるにも関連しますが.)
*データサイエンス及び分析と「説明」は,近年ますます離れて行っていると感じています.分析者が有用なモデルを生成できそこからインサイトを得られたとしても,そのインサイトを(別の知識を元に説明を受けるものの知識に合わせ)説明することは年々難しくなっていると認識しています.分析は事業レベルや個人レベルで消費すると実行に繋がりやすくより良さそうに思えます.
(軸に意味がなければ分析じゃない,フレームに従わないなら分析じゃない,と言うようなゲート判断権限者がいるような会社や部門は,多分永遠に破壊的な価値を生み出すように実行することができないでしょう.個人的にはそのような会社に限って,何故自分の会社からイノベーションが生まれないのか,などと言っている印象があります,判断者の能力を上げるか,最初に判断しないアジャイル的な考え方を取ることは,必須に思えます.前者は予測が容易である業務に限定しない限り,難しいでしょう.予測が容易である業務以外では,後者が現実的でしょう.)
*個人的には初手セグメンテーションはおすすめしません.セグメントはデータのドメインに依存したものであるところ,扱うデータが必ずしもそのドメインの範疇であるまたはそのドメインの範疇のままである保証はないからです.また,既存の評価軸を使っていては,レッドオーシャンはいつまでもレッドオーシャンのままです.軸・視点・視座を変えれば,レッドオーシャンがブルーオーシャンであるように認知できもするでしょう.
*ChatGPTによるとパテントランドスケープとはつぎのようです
the process of mapping out and analyzing the patent landscape
provide useful insights
This information can be useful for companies and organizations that are considering entering the market or developing new technologies in the field.
ChatGPTさんの説明が一番妥当に思えます.
*GPT-4の見解
- 「知財が経営と一体化することで、確かに経営の認識がボトルネックとなり、事業が経営の指示待ちとなる危険性が存在します。この問題は、組織の意思決定が遅くなったり、市場での機動力が低下したりすることで、競争力に悪影響を与える可能性があります。このリスクに対処するためには、以下のような対策が考えられます。」
- 「経営と知財の一体化は、適切なバランスと対策が整っていれば、競争力の向上に寄与します。しかし、それに伴うリスクや課題にも注意を払い、適切な対応策を講じることが重要です。」
*さようなら,クレイジー・データサイエンス!
https://qiita.com/KanNishida/items/1a4c809cd63a5a82c3e7
「マネージャーたちは「データドリブンな意思決定」をしたいというが,実際のところ彼らが欲しいのは「意思決定ドリブンなデータ」だ」という記載には思わず笑ってしまいました.
経営ベースのIPランドスケープは「決定を後押しして欲しいという経営要望を満たすもの」となりがちで,本来もっと深く探索できるはずであるところそのチャンスを逃しているような気がするんですよね.
*特許情報の進歩的な活用方法
https://aamtjapio.com/kenkyu/files/symposium2023/shobayashi.pdf
*IPランドスケープのススメ「旭化成株式会社」
https://www.jpo.go.jp/news/koho/kohoshi/vol49/01_page3.html
「具体的には、元々弊社が買収した会社が水の殺菌に使う深紫外線LEDを扱っていましたが、それを表面殺菌にブラッシュアップして感染症対策に役立てられないか考えたんです。そこでまず表面殺菌についての特許マップを作ったところ、競合他社はまだそこに目を向けていないことが分かりました。次にその市場に入っていくのに一緒に組める照明会社を探すため、照明業界の企業群を特許マップで確認し、シナジー効果を見込める会社を見出したんです。」
「洞察の材料として世界のイノベーションを牽引するGAFAの特許解析データや自社の特許マップを提供しました。その結果、気付きの連鎖が起きて、2030年の世界に貢献するためのアイデアが140も出てきました。それらは全社に共有しており、各現場で新事業を創るために役立つはずです。」
参考)ChatGPTに旭化成の技術分野を10件挙げてもらい,クラスタと比較してみた.
該当クラスタ | ChatGPTの回答 |
---|---|
◎クラスタ2黄色1 | 1 ポリマー製品技術:旭化成は、高機能ポリマーの製造技術を保有しており、自動車部品、医療材料、光学材料など多くの分野に応用されています。 |
〇クラスタ5青1 | 2 電子材料技術:旭化成は、電子材料の製造技術を保有しており、液晶ディスプレイ、半導体などの電子部品に用いられています。 |
3 化学プラント技術:旭化成は、化学プラントの設計・建設・運転に関する技術を保有しており、化学工場の建設・運営において高い評価を受けています。 | |
●クラスタ1緑 | 4 化学合成技術:旭化成は、独自の化学合成技術を持ち、多様な化学物質の合成に応用されています。 |
●クラスタ4赤? | 5 フィルム技術:旭化成は、高機能フィルムの製造技術を保有しており、電子部品、医療材料、光学材料などに応用されています。 |
〇クラスタ5青2 | 6 精密加工技術:旭化成は、高精度加工技術を持ち、半導体製造装置や医療機器の製造に応用されています。 |
7 セラミックス技術:旭化成は、高機能セラミックスの製造技術を保有しており、医療材料、自動車部品、半導体など多くの分野に応用されています。 | |
◎クラスタ2黄色2 | 8 塗料技術:旭化成は、高機能塗料の製造技術を保有しており、建築用塗料、自動車塗料などに使用されています。 |
●クラスタ7赤 | 9 バイオテクノロジー:旭化成は、バイオテクノロジーに関する技術を保有しており、医療材料やバイオプロセス用機器などに応用されています。 |
10 システム開発技術:旭化成は、高度なシステム開発技術を持ち、業務システムや情報システムなど多様なシステムの開発に貢献しています。 | |
クラスタ3 | |
クラスタ6 |
コメント:
次のクラスタに該当するChatGPTの回答は見つからなかった.
クラスタ3 繊維・不織布
クラスタ6 住宅・建材
クラスタ3は明確な数の特許群がある.クラスタの位置からすると半導体と膜の間にある技術である.光学材料や医薬部品に繊維技術が使われているのだろう.回答1,2,5,6が該当しているのかもしれない.
クラスタ6は明確な数の特許群がある.他のクラスタとは離れており類似クラスタは見つからない.ChatGPTはこの技術が関わる分野を提示できなかったようだ.あえていえば,回答7が近いのかもしれない.
次のChatGPTの回答に該当するクラスタは見つからなかった.
3 化学プラント技術
7 セラミックス技術
10 システム開発技術
回答3は正しい回答ではあるようだ.この分野では特許出願をしていないということかもしれない.
回答7は正しい回答ではあるようだ.クラスタ6の住宅,建材などが該当するのかもしれない.
回答10は正しい回答か不明であった.
総じて,住宅に関わる技術分野の存在をChatGPTが回答できなかったこと以外は,なかなかに適切な回答ではあった.
クラスタに名称をつけるにあたり,ChatGPTを使用しても面白いかもしれない.
出願されていない領域を,このように探しても良いのかもしれない.
旭化成の特許分析をしてみた
・旭化成の特許全てに関し,俯瞰図を用いた解析を一通りしてみました.
※ なお目的は新規事業探索としました.条件として,旭化成の特許のみから見える範囲だけの簡易版,としました.探索した新規事業はすでに他社実施済みかもしれません.正式にはそちらも考慮した解析をすることになります.
・・旭化成の上図提示の7分野すべて,俯瞰図で再現できました.
・・要素ネットワークを用いることにより,浅い視座から,旭化成の3つのコア領域を抽出できました.
・・俯瞰図を構造的知識と事業フェーズに関する知識と技術寿命に関する知識とを元に解析することにより,旭化成の中期経営計画の「戦略的育成」領域を,「新規事業候補1」として抽出できました.
・・その他分野に関する見解も,旭化成の中期経営計画と一致しています.
2023年4月11日 中期経営計画 2024 ~Be a Trailblazer~ の進捗状況について
https://www.asahi-kasei.com/jp/ir/library/initiative/pdf/230411jpn.pdf
・・さらに,旭化成の中期経営計画に記載のない,有望そうな「新規事業候補2」も生成できました.
この新規事業候補2を,生成AIに発想法フレームワークを使用することにより「具体化」もできました.この新規事業候補2の具体例と類似する課題技術は,ペンシルバニア大学,エジンバラ大学,米軍,ベンチャーが開発していました.この新規事業候補2は,権利は十分に取れやすく,市場はあり,1-100であり最適な時期で,旭化成が自社内でもまたは多少の技術を導入すれば?実現可能だろう,と確認されました.
なお,実施に関しては東レのmoon rakersでの実施もあり得るところでしょう.
・上記図「データを考慮したイノベーションの一例(差異化を目指す場合)」は,このようにも実施できます.
また,他社の新規事業の妥当性を検証するに俯瞰図の解析を用いるてのは十分あり得ると思いますね.
なお,その分野の企業に所属していないためその分野の詳細まで知ることはできない「投資家やベンチャーや大学」こそ,いわゆるIPランドスケープ,このような俯瞰解析,をする必要がある,と個人的には確信しています.
使用例3:教師あり学習と教師なし学習の融合
クラスタリングから個別認識に踏み込みます.
教師あり学習は,精度を高くでき個別認識可能性が高いが学習データのラベルに依存しすぎ構造を失いえます,教師なし学習は精度はそれほど高くないことが多いがラベルに依存しない構造がえられえます.この2つは相補的です.
教師あり学習の結果を星シンボルにするまたは色を変えるなどして,教師なし学習であるtfidf embeddings cluster vis上に表示すれば,教師あり学習の結果に教師なし学習の知見を加味した,さらなるインサイトが得られるでしょう.
クラスタの境界かつ教師ありで重要と示された特許群などは,実際とてもおいしいです.
*もともとはAIシステムだけでは得られないインサイトを得る目的及びAIシステムが見落とすかもしれない特許をカバーする目的で,AIシステムに組み込む形で,tfidf embeddings cluster visを使っていました.
retriever、readern
*教師ありと教師なしの組み合わせは,disentanglementの一部だそうです.
,
使用例4:検索教育・SDI見直しなど相対比較に
メンターの検索母集団と新人の検索母集団を混ぜてtfidf embeddings cluster visにかけ,その重複と差を見ることで,どの範囲が足りなかったと言えるか,お互いに認識しやすくまた納得感を高めて確かめてゆくことができえます.
検索対象が設定されていたならば,それが母集団の重心からどれほど離れているか確認することで,母集団の範囲が適切であったかどうか確認することもできます.また,絞り込み機能を用いることで,母集団をどう限定すればよかったのか理解することもできます.
*見つかった見つからなかった,方向性を持たない全体としてのrecallやprecisionがどうだった,数件確認してどうだった,だけでは,分布と方向とを考慮した十分な理解ができません.
また,今後,課題を中心に調査することが多くなるかと思われますが,その際には調査能力差が生まれやすいものと思われます.答えが明確にならず,評価もしにくいものです.
このようなツールを一つは持っておいたほうが良いでしょう.
作ることは難しいことでもありません.
*キーワードのみで検索するとこのように複数の分野が混合した母集団となるなど瞬時に具体的に理解できたりして,結構面白いです.キーワードに対するリンクをたどれば,そのキーワードがどこにどのぐらい影響したか見ることもできます.
使用例5:裁判判決例の争点単位概念検索
試行中.
(データ準備終了.試行.できてはいるのだが,テキストを争点単位で確実に区切ることができなかった.改良中.)
*判決例において用いられる用語は規格化されていることが多く分散表現を用いるメリットはあまりなさそうです.また,クラスタリングよりセグメンテーションが有用と思えます.よって,素直にDarts-ip https://www.darts-ip.com/ja/ip-cases-database/ を使ったほうが良いとは思います.
・大規模言語モデルを用いた日本語判決書の自動要約
○新保彰人, 菅原裕太, 山田寛章, 徳永健伸 (東工大)
202402
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/E4-4.pdf
使用例6:データ駆動ドラッグ・リポジショニングによる創薬のヒントとして
クラスタリングをセグメンテーションのように使用する例およびクラスタリングから個別認識に踏み込んだ例.
医薬品候補化合物群x,相互作用タンパク質ネットワークy,疾患群zをつなぎ,おのおの未知のリンクを予測するリポジショニング手法があります.( https://pubmed.ncbi.nlm.nih.gov/26580494/ など)
例えば,医薬品候補化合物を適当な手段でベクトル化しtfidf embeddings cluster visにかけ,相互作用タンパク質ネットワークyから中心性も考慮し得られた「タンパク質類似クラスタ」ごとに色付けした「医薬品候補化合物-タンパク質図」を作成し,かつ疾患から得られた「疾患類似クラスタ」ごとに色付した「医薬品候補化合物-疾患図」を作成し,双方の図を比較することで,未知のリンクを予測するリポジショニング手法と似た結果を,視覚的に行うこともできます.
*データのみでは情報が不足しておりヒューステリックな情報補完に大きな価値が残っておりヒトによる予測を加える価値がある場合など,比較的定性的な予測が必要である場合には,このような図示手法が有用でしょう.リポジショニング創薬はデータのみから行ったほうが良いとは思いますが.
使用例7:コミュニケーション能力代替・ファシリテーションツールとして?
コミュニケーションの問題として,コミュニケーションを能力として捉えることによるレベルキャップの問題や事前知識が共通しない場合の伝達・認知(教育)コストの問題などあるところですが,コミュニケーションの結果をどう評価しまとめるかという問題もあります.
これらまとめが困難である最大の原因は,ヒトが行っていることでしょう.
ヒトの主観を排除すべきですがなかなかできません.最終的には機械がすべて行うべきでその技術はすでにあると認識していますがそれはおいておいて,本ツールである程度の客観化を行うことも面白いかと思います.
議論の解析→議論の可視化→議論へのフィードバック→
のループです.擬似的には機械化したファシリテーターとなるでしょうか.
論述構造解析に従う議論の整理手法もあるとは思いますが,そも因果は同じでもそれを整理する「論理」にはいくらも手法があり,「個人が理解できる「論理」にも文化的多様性など多様性がある」ところ,一つの論理でまとめること自体が問題かと思います.相関または因果を示すに留めるという手段のほうが有効となることも多いでしょう.
(リアルタイムに回す必要がありその点工夫が必要かと思います.)
*ブレインストーミングもコストの高いコミュニケーションです.
本ツールとが異なりますが,Elicitの「研究の質問をブレインストーミングする」タスクを用いれば,
言語モデルの知識を用いたブレインストーミングもできます.
https://ide.elicit.org/run/JqRpiAJMnNacB7wvq
自分が知っていることしか気づくことができない,ブレインストーミングとは知識ネットワークを形成しているが意識上に浮かんでいないノードやエッジという自分の暗黙知を意識上に上げる個人的なアウトプット作業に過ぎない,と前提とすれば,このような他人のリソースを消費しすぎないツールも有用といえるでしょう.
*最近文献調査する際には,Elicit→connected papers→tfidf cluster vis→ネットワーク化の流れでツールを使ってゆくことが多いです.
*グーグル式仕事術が「ブレスト」を嫌悪する理由 Google SPRINT
https://diamond.jp/articles/-/170687
自らの知識ネットワークに含まれないものは気づくことができないとするならば,「ブレストはより個人的により省力化して」行うべきだともできるでしょう.
・perplexity.ai
https://www.perplexity.ai/
elicitも良いですが,こちらは更に使いやすいです.
ただし,elictと異なり,文献を解釈した上で提示する抽象型要約をおこなっているようです.そのため,言語モデルの弱点も備えています.すでに構造化され教科書に載るような「コンセンサスの形成されている知識」についてはかなり正確に引用してきますが,コンセンサスの形成されていない知識のエッジ周辺の知識,得てして「最先端の,議論のある知識」,については弱く,正しいように引用しておきながら誤っていることも多いです.
とはいえ,これは引用先を確認すればよいだけなので致命的な問題ではありません.
かえって,誤りを疑う必要が有ることは,文献を深読みすることを導き,適切な知識形成を導くでしょう.批判的思考に自動的に矯正されます.
perplexityを用いることで,知識の壁打ちやブレインストーミングが非常に効率的にできるようになるでしょう.
→コミュニケーションのまとめツール,ブレインストーミングツール,ファシリテーションツール,
すべて,GPT-4で足りそうです.
使用例8:マクロ探索・解析(例えば,ベクトル空間を任意の要素からなる知識ネットワークに変換,ベイジアンネットワークの使用,ベイズの融合)
ミクロ探索だけでなくマクロ探索も同時に行い,セグメンテーション,知識ネットワーク化とベイジアンネットワークの使用,拡大圧縮の創造的検討などをするのも良いでしょう.
(マクロ探索「も」とした理由は,マクロ探索のみではso-whatとなるからです.)
任意の課題と任意の解決手段を,クラスタリング結果や探索意図から設定
↓
任意の課題ごとに類似度をもとめ,それぞれ特徴列作成
↓
任意の解決手段ごとに類似度をもとめ,それぞれ特徴列作成
↓
課題ごとに全解決手段との共起・相関を求める
↓
共起や因果推論などネットワーク探索手法を基にして,母集団の任意要素をネットワーク化
点群から形成された空間は元の点群以上の情報を含み,これをネットワークとして取り出すことができる,というイメージです(キーワードの共起ネットワークは点群をネットワークにしたものであり,このネットワークとはそもそも異なります.前者は一つの知識しか取り出せませんが,後者は前者含む複数の知識を取り出せます.見た目一緒ですけどね)
*価値がネットワークのどこにあるかという視点で見ても,非常に興味深いです.少なくとも媒介中心にクリティカルな価値がある例は見ていません.エッジに価値がある点は先のアイロボットに似ています.
*エッジはノード間の関係を表し,その関係には共起・因果・構造化された関係など様々なものが考えられますが,こと特許においては,構造化された関係は必要ないことが多いかと思います.データ上に存在する関係をリセットし,新たな関係を見つけたいという課題が多いでしょう.
↓
要事,ネットワーク分析・活用
-
「視座」と「視点要素」を変えることにより,文章群から「多様な知識ネットワーク」を取り出す.(視点や視座の違いは,同じ文章であってもその文章に対する認識を変えます.ある文章はある視点からは別の知識や意味を取り出せ,別のある視点からは別の知識や意味を取り出せます.例えば,クマの食害の書籍を読んだとして,日本人が読むクマの怖さ・愛らしさと,ロシア人が読むクマの怖さ・身近さは,異なるものでしょう.ある専門書を読んだとして,専門家であれば数式メインで読むかもしれませんし,専門家でなければ数式以外を読むかもしれません.ある文章を理解できない場合でも,ある視座においては理解できる,上位概念化されたタイトルぐらいは理解でき,想像することはできます.結局は「受け手の認知」に依存する.これはみな知っていることかと思います.文章から取り出せる知識は受け手の認知に合わせ多様だということです.ここでは視座や視点要素を利用することによりその文章から引き出せる知識の多様性を自然言語処理で実装しています.)(客観的な事実に基づけば一つの文章に一つの真の意味があると思うかもしれません.明確に書かれている特許でも侵害訴訟等で見解が分かれますし,永遠に解決することはなさそうです.一つの文章に一つの真の意味できると前提することは,幻想に過ぎないでしょう.であれば,一つの文章から複数の意味を取り出すせるようにしておくことに意味があるでしょう.)(文献を遺伝子の視点で見たのなら, FRONTEOのamanogawaが出来上がるのでしょう.文献を遺伝子の視点で見切れる人はいるでしょうか? いないためこのような視点を持つツールは価値を持つわけです.視点は同じ文章群に対し新たな価値も生みます)
-
「記憶ネットワーク」から任意のキーを元に「知識ネットワーク」を抽出する方法を学ぶ.
-
ノードを構造化し,次のような有効グラフを作り,ベイジアンネットワークにかけるなどもあり得る
課題群・解決手段群の共起
市場群・機能群・技術群の共起から機能共通部分を得る(特許文章だけでは情報不足とは思われる.市場情報はどうしても弱い.特許とニーズ情報の組み合わせを予測し,その統合情報から対応した市場情報も取り出すなどはあり得る.) -
市場群・機能群・技術群の共起から新市場など探索する
参考
テキストマイニングを使用した新市場の探索について
https://jglobal.jst.go.jp/detail?JGLOBAL_ID=202202243153765222 -
特定の企業のネットワーク特徴に対し要事任意の重みを加えつつ内積を取り,類似度から似た企業を探し出す.
-
知識ネットワーク自体を新しさやアイディアの基礎とし,創造や自動出願提案やIPランドスケープに組み込む.
-
ネットワークの時系変化と新規に現れるノードを確認し,新規の研究開発動向を掴む.(点群では明確でないことがありますので,ネットワークでも確認すると明確です)
-
知識ネットワークの断絶を,目視またはトポロジーで確認し,進むべき新たな方向を得る
-
技術の空きを点ではなく「範囲」で探索し,「基本特許思考で」出願戦略を策定する.
(「視座を低くしないと違いが表れない会社」は,開発傾向にある会社でしょう.問題を細分化した開発のみに注視し,視座が低くなっており,有効な権利を取れていない傾向があります.「視座を高くしても違いが見える会社」 は,研究傾向にある会社でしょう.これに加え,前期クラスタのエッジに出願しているかどうか見ることで,出願戦略の優秀さを見積もることができえます.広く得られうる範囲に出願しかつ価値の高い研究ができているか見積もることができえます.) -
異なる分野の視点を要素として知識ネットワークを再構成し,その視点における知識を取り出す(brain machine interfaceの視点語彙で医薬品データから知識ネットワークを形成するなど.面白い結果になりますよ)
-
ベイジアンネットワークとし,この母集団では課題に適した解決手段が何であるか,解決手段に適しているかもしれない新たな課題はなにかなど,説明させる.
https://qiita.com/kzuzuo/items/2bce9e4fe58021a25430 -
特許出願状況やニュース,ネットワーク分析の説明をもとにして,ヒトの意見を集約しながらベイズにより確信度を計算し,実行のタイミングを確定させたり(と同時に毎回異なることを述べるヒトの頭の中を明確にさせる),事件の起きる時期を予測する
-
ネットワークから注目要素を取り出し,その推移をjudgyprophetのようなベイズ系のツールを用い,予測し難いイベント・事件情報まで含め見積もり,将来イベントが起きる予兆を発見した際に,より正確に影響度を予測できるようにする
https://github.com/AstraZeneca/judgyprophet
-
中心性の違いから,特許と文献を見分ける
-
多くのイノベーションは,新規のノードの発生よりも,既存ノード間のエッジの組み換えで生じることを理解する.つまり,知識を前提とした知識の破壊と生成が必要であることを理解する.
-
エッジの組み換えの重要性を理解した上で,新規のノードの生成の重要性を理解する.つまり,新しいコトの重要性を理解する.また,ノードをネットワーク上に生成させる方法に付き,ヒューマンインザループによる方法とデータによる方法の違いと意味を理解する.
-
ある人の「視点」をその人が興味を持つ特許群から引き出しておき,その視点を別の特許群に適用し,「その人の視点でどのような知識ネットワークが出来上がるか明示」することにより,「互いの知識の多様性を認識」させ,もって分析から得られるインサイトに付き,それが多様な見解によるものなのか確認する,評価されなかったインサイトにつきそれが単に受け手の知識では適切に理解評価できていなかっただけではないか確認する,などできる.
-
言語モデルは演繹より帰納が苦手であるようであるところ、言語モデルに機能的知識をネットワークで与える。
-
ある特許等から過去方向に類似に基づき原点に近いアイディアを探索した,課題類似時系列連鎖ネットワークや解決手段類似時系列連鎖ネットワークを構築する.
引用情報には恣意的なまたはバイアスがかかっていることがあるので,純粋にテキスト情報のみからこのようなネットワークを構築しても面白いかもしれません.
(ある特許より過去の一定期間の母集団を得て閾値で類似抽出しノード形成,形成されたノードそれぞれについてそれより過去の一定期間の母集団を限定し閾値で類似抽出しノード形成,とすればよいだけなので,簡単にできますね・・・できた.30分ってとこですかね.)
DDS系の特許からスタートして,培地にたどり着いたり,デバイスにたどり着いたり,細胞保存剤にたどり着いたり,順当にリポソームなどにもたどり着いたり.面白いです.
技術年表となるルートも面白いけど,類似が少しずつずれてゆくルートをみるのも結構面白いですね.
図の1753と1の関係はまた面白いです.1753は一度4系統に分れ1に収束しています.1753と1は直接はそれほど似ていません.1753との関係で言えば,1は新規でしょう.「収束と発散を繰り返すデザイン手法」の例であるかのようです.
(このようなネットワークを使えば,調査と探索の違いを説明もしやすいでしょう.デザイン手法は探索をするために用いられる知識モデル・知識形成フレームの1つである,ときちんと理解できれば,接着したいから接着剤を探したよこれが探索だ,のような,「単なる調査」と「知識を用いた探索」を混同するようなことは言わなくなると思います.)
類似時系列連鎖ネットワークと引用ネットワークを重ね,「類似自体の検証」をする,引用されていない類似文献を見つけ「引用のバイアスの程度について分析」する,破壊度を測定するCD indexの検証に用いる,「無効理由や先行文献を探索する・無効理由や先行文献を見つけるためのインサイトを得る」,などもありえます.(画像はテスト画像です)
類似時系列連鎖ネットワークの作り方は様々あるところですが,例えば,
A 一定期間ごとの母集団を作り,独立に類似を見てゆけば,推移がわかりやすくなり,
B 一定期間ごとの母集団を作り,過去の全期間の類似を斬新的に見てゆけば,「破壊的アイディア」がどこに存在していたか」わかりやすくなるでしょう.
(破壊的アイディアの存在はCD indexで示すことができるようです.CD indexは引用構造の変化をスカラーに指標化したものですが,このような引用構造の変化はそのままネットワークにするとより多くの情報が得られるでしょう.)
参考
ベクトル表現を用いた因果関係連鎖の抽出
https://www.jstage.jst.go.jp/article/jsaisigtwo/2018/FIN-020/2018_50/_pdf/-char/ja
Papers and patents are becoming less disruptive over time
https://www.nature.com/articles/s41586-022-05543-x
CD index,イノベーションの衰退,引用慣例など
など
個人的には,これら統合したツールを作ると面白いと思いますよ.
要は,母集団から視点を得,視点の動向を事件含め人の知識を加えつつ予測しているわけです.
*GPT-3など言語モデルに複数の主題ごとに複数の文章を生成させ,その文章群を知識ネットワークに変換することにより,言語モデルから知識を抽出する.なども行うことができます.応用範囲はとても広いです.
*革新的治療を実現,ブレインマシンインターフェースが開拓する医療の未来
Paradromics 創業者兼CEO マット・アングル氏インタビュー
https://ascii.jp/elem/000/004/086/4086602/
コード概要
1 テキストにtfidfを適用し任意の個数の上位特徴単語を取る
*言語は全体論的システムである(saussure).母集団に依存して変化する特性を重視.
2 tfidf上位特徴単語それぞれをword2vecにより単語分散表現ベクトルに変換する(tfidf vectorは使わない)
*ルールベースの知識を分散表現に変換し連続的に扱う.
3 不要語除去(一部の単語は設定したストップワードとベクトルの長さに基づき除去する.)
4 クラスタリングにより特徴単語を畳み込み,テキストの文構造を擬似的に再構成する.
(鋳型に合わせる.どのような目的が達成されるかは,この鋳型の形で決まる.)(位相の部分集合を分離する,といっても良い.)(空白を何で埋めるかと言っても良い)
*文章ベクトルを作るにあたり,このような過程を経ずに全単語ベクトルを合成したり単語ごとの重みを考慮しない手法を用いた場合には,碌な性能が出ないことは知られています.単語に対し選択するまたは合成を行うなど,何らかの処理をする必要があります.また,この処理により可視化時に方向を維持できるかどうかが決まります.単語選択や単語内合成はLSTMやattentionが目指すところと同じですが,これらでは方向が失われないように注意が必要です.
5 再構成された文構造をまとめ,文章ベクトルを作る
6 文章ベクトルに対しクラスタリングを行い,インタラクティブに図示する.
コードは要望に応じgithubにあげます.
https://github.com/kzh22
えらく汚いコードなのでリファクタリングしてからですが・・・といいますかリファクタリングする気が失せかけているのでコード提供しますので誰かやってくれませんかねぇ・・・
また、個人的には、改良する仲間を求めています。公開してもフィードバックがないのであれば公開する意味はないと考えています。ご協力いただける場合はご連絡ください。ソースなどお送りいたします。
*文章ベクトル参考
https://speakerdeck.com/hpprc/lun-jiang-zi-liao-simcse-simple-contrastive-learning-of-sentence-embeddings-823255cd-bd1f-40ec-a65c-0eced7a9191d?slide=14
・BERTからナイーブに抽出した文埋め込みはSTSにおける性能が低いことが知られている [11]
BERTの文脈化単語埋め込みの平均やCLSのベクトルなど
・GloVeやfastTextなどの静的な単語埋め込みの平均をとった方がBERTより性能がいい
・一方で,下流タスク (sentiment classificationなど)におけるBERT由来の文埋め込みの性能は ある程度高い点に注意
・BERTなど事前学習済み言語モデルの埋め込み空間は異方性 (anisotropy) を持ち [12], これが STSタスクの性能に悪影響を与えている可能性が示唆されている [13]
・様々な文章ベクトル作成方法
p-mean: 文埋め込みを単語埋め込み~で計算
SWEM: 単語埋め込みを 平均 / max/平均とmaxのconcat / 局所窓ごとに平均してからmax をとる
GEM: 文中の単語埋め込みの直行基底をもとにnoveltyなど重みを計算して単語埋め込みを重み付け和
DynaMax: 二つの文の単語埋め込みをstackした行列を作り Fuzzy setの考えを元にFuzzy Jaccard係数を計算
SIF: ~を計算 →埋め込み行列を特異値分解→第一特異ベクトルuで~を計算
uSIF: 複数の特異ベクトルを利用, 特異値の総和を使うハイパラ調整不要なSIF
P-SIF: 単語のトピックベクトルを使ったSIF
All-but-the-Top: 単語埋め込みの集合をPCAして上位主成分を除く
Word Mover's Distance: 文長の逆数を一様な確率質量, コストをユークリッド距離として最適輸送
Word Mover's Embedding: 文(書)とサンプリングした複数の文(書)とのWMDの列を文(書)ベクトルとする
Word Rotator's Distance: 単語埋め込みのノルムを確率質量, コストをコサイン類似度として最適輸送
*作業メモ
UMAPを使用する場合はrapidsが速い
knnはfaissを使用するとGPUを使用して高速.
https://yaakublog.com/deep_metric_learning
対照学習で意図的に重要語のベクトルを補正するなどあり得る
例えば主剤の類義語辞書を作っておき,類義語を含む文章の場合は主剤のベクトルに近づけるなど.母集団での調整以外の事後的な任意調整手段として考えておくこと.
*word2boxを実装してみたい
https://github.com/iesl/word2box
*setfitも補助として試してみるべきではあろう
使い方
- 前置き:各種設定はコードそのものを修正し行います.
1 jupyter notebookでipynbファイルを開きます.
2 分析したい特許が記載されたxlsx・CSVファイルを任意の場所に置きます.
・出願番号,出願人,発明の名称,要約,請求の範囲,の記載が最低限必要です.
・1行目は列タイトルとし,2行目から各特許の内容を記載してください.
*特許検索ソフトから検索結果を出力した場合,これらの形式となっている事が多いかと思われます.必要に応じ列名を変更してください.
3 *をxlsx・CSVファイル名に変更してください.
4 必要に応じ,*部分を変更し,色やシンボルを変更してください.
5 目的に応じ,パラメータを設定してください.
6 メニューからすべて実行を選択してください.
7 しばし待ちます.待ち時間は1時間/5000件ほどです→10分/5000件ほどに高速化しました(new)
8 終了後,別ウインドウでインタラクティブHTMLが開きます.
9 結果を見つつ,期間限定・出願人限定・分類限定・キーワード限定,正規検索,概念検索(new),attention概念検索(検証中),要約図示に変換(transformer組み込み.高速化検討中),関連製品情報検索(句の単語への置き換えまたはその逆含む.検証中),関連文献検索(検討中),LaBERTベクトル類似検索(検証中・検証結果によってはこちらで図示することも検討*BERTベクトルはmean-poolingでも事前学習の偏見が強すぎインサイトが得られにくかったため保留中),などをおこない,分析を進めます.
*特殊な検索・限定絞り込み機能以外の検索・限定絞り込み機能は,pandasの機能に依存しています.
参考・補足・書きなぐりメモ
その他
・文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017)
https://qiita.com/fufufukakaka/items/a7316273908a7c400868
tfidf embeddings/cluster visはSCDVと基本的な考え方が類似(最初から気づいておけと思わなくもないが,思いついたらとりあえず実装したくなり実装の過程で構成がまとまり構成がまとまって初めて過去事例をまともに検索できるようになるので・・・).
スパースを途中で施すのか最後に施すのかについての考え方の違いや,トピックに注目しクラスタリングするのか文の構造に注目しクラスタリングするのかについての考え方の違いがある.
(tfidf embeddings/cluster visにおいてもトピックを考慮してベクトルを補正しても良いけれど,クラスタ間の分離を良くすることを目的としていないのでそのままとしている.このような補正手法でクラスタの分離を良くして嬉しいのは,図示するときではない,と思っている.軸の意味が薄くなるしホワイトスペースは見にくくなるし…アイディア生成という面でも嬉しくないな.)
・valunex radar
https://www.valuenex.com/jp/valuenex-radar
はよくできているなと感心する.
tfidf embeddings/cluster visではホワイトスペースを正確に提示することは難しいかもしれない.
(その後,tfidf embeddings/cluster visにおいてもホワイトスペースの提示ができるだろうと結論づけた.いくらかの異なる母集団においてPCA因子分析を行い確実に存在するホワイトスペースを確認し,それらと同じ相対位置にホワイトスペースが現れることが確認できた.ただし,母集団が大きく異なる場合には再調整が必要だろう.)
*今後,コアや隠したい技術を公開しないように権利を取る知財戦略が一般化するかもしれない.そうするとホワイトスペースを見つける技術はより重要となるだろう.特許に存在しないが文献や広告等が存在する空間など怪しいと言えるかもしれない.次回はそのような,今後の知財戦略を想定した知財紛争用ツールを作る予定.
*シナリオ分析はどうなのかな.コンサル中心なので問題ないと思うが,特許のみからシナリオを求めるべきではないとは思う.他社動向やニーズや会社方針を必須としないと…
・Valuenexレポート
特許の中の「美」-「美」はどこに潜んでいるのか-
https://www.valuenex.com/materials-database/report/200422/beautyinpatent
とtfidf embeddings/cluster visとを比較.
アルゴリズムは異なるが巨視的にはほぼ同じ出力となると確認できた.
ついでざっと分析したところ,美において「光」が新ニーズとして生まれているのだろうな,との示唆が得られた.
例えば,次に関わるニーズの走りが見られた.
三菱電機の「青空照明」実物を見てきた.本物の空と区別不能 「屋内の閉塞感」を解消する新技術
*FRONTEO,旧来の創薬プロセスを変革する論文探索AIシステム「Amanogawa(あまのがわ)」ver.1.0を発表(202007)
https://www.fronteo.com/20200707
インララクティブに文献情報が見られるようだ.
このようなツールが欲しかった.全文からベクトルを作っているならば,またはvaluenexが提示したように特許と文献を同一面に配置できるならば,採用したい.
特許出願中とのこと.公開中の特許に該当しそうな記載は見つからない.これから公開されるのだろう.優先日と内容によってはコード変更必要かもしれない.審査により公知範囲がわかるようになる.ありがたい.
Concept encoderの特許確認.transformerのkey,queryにより文脈を取り出している部分と似た処理により重要単語を取得し精度を増しているということかな?.こんな感じで
tfidfは文章作成者の癖に依存してしまう弱点もある.文脈を読み取る手法はより良いだろう.しかし文脈を読み取る手法でも,類義語が繰り返された場合の選別と最低表現数の確保,事前知識の検討(上図上下の違いの通り,事前知識により選択は変化する)をしたほうが良いと思うのだがしているのかな?
202010時点のtfidf embeddings/cluster visの外観.
amanogawaって良い名前だよなぁ
*tfidf embeddings/cluster visは,ちょうどvaluenexとconcept encoderの中間の技術を使っていると表現すると近いかな.違いがあるとすると,ある程度任意にアルゴリズムの調整ができることかな.
*特許と製品を同一面に配置?.検討したい.
Navigating a product landscape for technology opportunity analysis: A word2vec approach using an integrated patent-product database
https://www.sciencedirect.com/science/article/abs/pii/S0166497220300237?via%3Dihub
米国特許および商標データベースから統合された特許製品データベースを構築します.次に,word2vecを使用して,技術的関係を維持しながら,類似した技術基盤を持つ製品が互いに近くに配置されるベクトル空間モデルとして製品ランドスケープを構築します.
*「僕はこのときはっとした.なぜプリンストンの実験室から,どんどん報告が出ているのかに思い当たったからだ.彼らは実際に自分たちの手で造りあげた装置で研究しているのだ.だからこそどこに何があり,何がどう働いているかが,ちゃんとわかっているのだ.(ファインマン)」
*深層学習を利用した特許請求項ベースの特許技術俯瞰マップ
*坪田 匡史, 宮村 祐一, 神津 友武
主催: 一般社団法人 人工知能学会 会議名: 第34回全国大会(2020)
https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_4Q3GS903/_article/-char/ja/
self-attention LSTM
*特許文書ベクトルを用いた企業価値評価
*藤原 匠平, 松本 祐介, 菅 愛子, 高橋 大志
主催: 一般社団法人 人工知能学会 会議名: 第34回全国大会(2020)
https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_3Rin456/_article/-char/ja/
SCDV+
Constructing a Decision-Making System Using Patent Document Analysis
https://link.springer.com/chapter/10.1007/978-981-16-2994-5_23
*特許文書情報を対象としたコンテンツ分析の手法と出願人タイプ別特性比較
公開日: 2020.06.08
著者: 小柴 等,池内 健太,元橋 一之
雑誌情報: STI Horizon, Vol.6, No.2
https://www.nistep.go.jp/activities/sti-horizon%E8%AA%8C/vol-06no-02/stih00210
分散表現→k-means→umap(特徴語抽出工程は存在していない?)
共通する課題と解決すべき課題は何かな・・・実装し比較してみるか・・・
*Topic Modeling with BERT
https://towardsdatascience.com/topic-modeling-with-bert-779f7db187e6
*シマノとカンパニョーロ
特定企業の戦略的特許出願網の事例分析 S社の自転車部品市場における知的財産戦略
https://www.jstage.jst.go.jp/article/infopro/2020/0/2020_1/_pdf/-char/ja
参考:いま欲しい電動コンポはシマノそれともスラム? それぞれの長所と短所に迫る!
https://blog.cbnanashi.net/2020/10/15316
私はシマノ&SRAM派ですがいやリアの歯数がね
*ホンダ,知財分析ソフト発売 異業種連携を後押し
https://r.nikkei.com/article/DGXMZO66223610T11C20A1910M00
「知的財産のデータベースの情報などを解析し,特定の分野で協業できそうな企業を効率的に探す」
興味深い.セグメンテーション中心の手法なのかクラスタリング中心の手法なのかハイブリッドか.
「俺たちが必死で稼いだ1円,1秒をITに使わせない」とまで言われた ホンダの挑戦
https://www.atmarkit.co.jp/ait/articles/1908/26/news012.html
これを思い出す.
*医薬の新領域 中分子医薬の開発状況を特許で読み解く
魅了な未了領域ー AI活用 ー
https://www.jpo.go.jp/news/koho/kohoshi/vol46/01_page3.html
40万件.tfidf embeddings/cluster visでは一つ一つの特許を省略しないので重すぎる.
*IPRally
https://www.iprally.com/
知識グラフベースの特許検索
深層学習に対し知識グラフの結果を加えて?精度を上げているようだ.
1 起草時考慮知識をもとにした知識グラフ
2 審査履歴
3 1,2を加えた深層学習
知識の組み込みというトレンド通り?.
知識グラフから外れた部分がどうなるか気になるが精度は高いだろう.
既存の構造から抽出した?要素を考慮するので,先行技術調査,権利化可能性調査,特に無効資料調査に強そう.また,構成要素部分を任意に切り出す手法より漏れも少なさそう.判例の争点をどう切り出すか未だに悩んでいたが参考とできるか?
*STNext - 新機能 「Chemscape」 リリース
20210125
https://www.jaici.or.jp/news/news.php?selectedId=2324
「化学物質の類似性を解析する Chemscape (ケムスケープ) が搭載されました.マップ内には関連特許の件数が 3D で表示されるため,物質の類似性と化学関連特許を視覚的に解析することができます.」
充実してきたなぁ
*統合情報量の情報幾何的定義
https://tripdancer0916.hatenablog.com/entry/2018/08/04/%E7%B5%B1%E5%90%88%E6%83%85%E5%A0%B1%E9%87%8F%E3%81%AE%E6%83%85%E5%A0%B1%E5%B9%BE%E4%BD%95%E7%9A%84%E5%AE%9A%E7%BE%A9
各種の情報量は,要素間の相互作用を全て考慮に入れた"full model"とそこから一部の相互作用を取り除いた"disconnected model"との距離として定義できる.
*Legalscape
https://www.legalscape.co.jp/
判例解析?を行っている?Legalscapeという会社.
特許6469919
「【発明が解決しようとする課題】
【0006】
しかしながら,特許文献1に開示された訓練用文章の分類分けでは,文章毎にトピックまたは「特徴」が付与されているため,文章全体を構文解析した結果として,文章全体にトピックまたは「特徴」が付与される.
【0007】
通常,判決文などは,理由,請求,主張,などの多くの項目からなる.よって,それぞれの項目の特徴は,その事件によって内容(種類)が異なり,これらの複数の特徴を平均して1つの判決文にラベルを付与することはユーザによる判決文の検索精度を低下させている恐れがある.そもそも,複数の項目の特徴を平均して1つのラベルを導き出すこと自体が精度の低いラベリング手法であるともいえる.
【0008】
更に,多くの判決文は,その判決文を詳細に説明した評釈と呼ばれる解説文が作成されており,この評釈を判決文と照らし合わせて読むことによって判決文の理解が深まる.しかし,判決文と評釈の文章中の対応関係については,読者によって見出す他方法はなく,判決文や評釈の読解を困難にしている.
【0009】
また,判決文は,訴状に記載された訴えの内容に対照的に作成されるものであり,判決文を読み慣れていれば,判決文を読む際に,訴状と照らし合わせて読む必要はない.すなわち,訴状と判決文とは,対応関係にあるにも関わらず,訴状の作成には莫大な時間と費用がかかることが通常であり,一般人が訴訟を起こすことの妨げとなっている可能性がある.
【0010】
そこで,本発明は上記事情に鑑みてなされたものであり,判決文を適切に小文章に章立てし,当該小文章の項目分けまたは種類分けを行う技術や,この項目分けまたは種類分けされた小文章から判決文に関連する他の判決文の小文章や評釈などの小文章の検索を行う技術や,この項目分けまたは種類分けされた小文章から訴状などの文を作成する技術を提供することを目的とする.」
「~前記処理部が前記記憶部に前記第1の文,前記第1小文章,および前記第1項目をそれぞれ対応付けて記憶し,前記第2の文,前記第2小文章,および第2項目をそれぞれ対応付けて記憶し,
更に前記第1の文および前記第2の文を対応付けて記憶させる記憶ステップと,
を含むことを特徴とする判決文データベース作成方法.」
広そうだな.基本ルールベース?
その法令に精通した専門家用ではない?
複数の項目の特徴を平均して1つのラベルを導き出すこと自体が精度の低いラベリング手法であるともいえる.というのは確かに.自分は争点を項目単位で区切ろうとしたが.
*ストックマーク Wikipediaを用いた日本語の固有表現抽出データセット
https://github.com/stockmarkteam/ner-wikipedia-dataset
*Language-agnostic BERT Sentence Embedding
https://arxiv.org/abs/2007.01852
多言語BERTベクトル表現LaBERT.BERTベクトルで工夫するならばこちらかな.
"vocab_size": 501153.語彙は足りるだろうか.
https://huggingface.co/setu4993/LaBSE
場を整えてくれているhuggingfaceには足を向けて眠れないな.
*sentence BERT
https://medium.com/swlh/transformer-based-sentence-embeddings-cd0935b3b1e0
文章ベクトルの妥当な解の一つか.
*The Dynamic Embedded Topic Model
https://deepai.org/publication/the-dynamic-embedded-topic-model
*発明の抽出的要約と生成的要約,文献検索用上位下位概念化要約,実施物検索用表層化要約を同時にできるとかなり使える.
すべてtransformerを用いた試行,課題抽出中だが,どこまでできるかな.
文献検索用要約では興味深い検索結果が自動で得られ楽しかった.
最大の課題は多分処理時間.どうかできないか…
HuggingFace model hubにモデルを置きAPIを用いて結果を得るという方法もあるが.(速くもない)
サーバーが欲しいな…
*GoogleAILanguage Interpretability Tool (LIT
https://pair-code.github.io/lit/
https://colab.research.google.com/github/PAIR-code/lit/blob/main/lit_nlp/examples/notebooks/LIT_sentiment_classifier.ipynb
「言語解釈可能性ツール(LIT)は,NLPモデルを視覚化して理解するためのオープンソースプラットフォームです」
*Ruishi Liang; Yilong Li; Xiaomiao Chen; Junwen Chen
2020 International Symposium on Computer Engineering and Intelligent Communications (ISCEIC)
Patent Trend Analysis through Text Clustering based on K-Means Algorithm
https://ieeexplore.ieee.org/document/9325336
TFIDF k-means
*テーブルデータ向けの自然言語特徴抽出術
https://zenn.dev/koukyo1994/articles/9b1da2482d8ba1
現状基礎整理
*AIで特許・論文の類似度を分析,NISTEPがツール開発
https://newswitch.jp/p/27622
「文部科学省の科学技術・学術政策研究所(NISTEP)の小柴等主任研究官は,人工知能(AI)技術で特許や科学論文の類似度を求める分析ツールを開発した.広範な研究活動を分類したり,似た研究を検索したりできる.検索システムのようなツールとし,NISTEPに加えて文科省の職員が使える.科技政策の立案や学術界の俯瞰(ふかん)的分析を支援する.自然言語処理技術で研究開発の類似度を算出する.特殊なインデックスを用いて,類似しそうなものだけに絞って類似度を計算する.既存技術は全ての内容について類似度を求めていた.先に絞り込むことで計算負荷を抑えた.例えば1件の特許に対して200件の類似特許を求めるのに7ミリ秒と高速で計算が終わる.過去15年分の特許400万件に対し類似度を求めるのに7時間47分で済む.
技術としては,特許の文章を数値ベクトルの分散表現にして,高次元ベクトル近傍探索という技術で近しい特許を探す.特許全体で数値ベクトルを約300次元に抑えたため高速処理できた.特許全体を俯瞰して分析できる.」
具体的な使用事例を公開してもらいたいもの.
どうも,ある期間内の全特許をベクトル化して保存し検索図示しているようだが,その場合は「その母集団における」という視点,例えば共通価値,意味,状態,属性など,が入らなくなる.あえて任意に母集団を規定することによって,何について分析したいのかの情報が与えられる.ある視点ではある2つの特許は遠いべきだし,ある視点では近いべきだ.この情報を失っているこの手法で,目的が達成できるのかな?.
「その母集団における」は非常に重要.valuebexが母集団において動的なtfidfを使い続けていることには意味がある,と思っている.(他のページで書いているように,自分はこの「認知」を非常に重視している.)
*ある視点を作るには幾何が必要.
「集合を,目的に合わせどのような幾何に整えるか」が最重要であるのに,それを気にしていない図示が多いように思える.近けりゃええでしょう,では図示を解析に用いるに明らかに足りない.と思う.(amanogawaは遺伝子視点に固定しているがそれが目的に繋がっており問題ない.汎用目的なのに動的な視点でないものについて,その図示で何をしたいのか理解できない.絶対的な近さならば,1次元のリスト形式での出力がより良いと思うのだが.例えるなら,Patenrfieldの手法が良いと思う.)
*ストックマーク 製品化・事業化が加速する-研究開発部門のニュース活用術
https://webinalist.com/events/buisiness/18089/
*Anewsの裏側で動く,自然言語処理を活用したビジネスニュースの推薦システム
https://tech.stockmark.co.jp/blog/20210601_anews_recommendation/
Anewsの構成技術とtfidf/mbart/mt5 embeddings cluster visの基本技術は考え方がほぼ同じかな.
自分は他の手段では重み付けしていたのでtfidf/mbart/mt5 embeddings cluster visでは切り捨ててしまった.この点が異なる.また,tfidf/mbart/mt5 embeddings cluster visでは比較的ドメインが限定されることもあり,切り捨てた後に更にストップワード処理を行いより精度が高くなるようにしている.
A Simple but Tough-to-Beat Baseline for Sentence Embeddings
https://openreview.net/forum?id=SyK00v5xx
SIF 割り当てられたベクトルを単語の重要度に準じて重み付けし,足し合わせる
*【Techの道も一歩から】第40回「Texthero で日本語を解析する」
https://buildersbox.corp-sansan.com/entry/2021/06/29/110000?utm_campaign=Weekly%20Kaggle%20News&utm_medium=email&utm_source=Revue%20newsletter
「TF-IDF 行列を PCA で可視化しやすいよう 2次元に次元削減し,K-means 結果とともにプロットします.」
Texthero.短くまとまり便利そう.
*旭化成が注力する「知財のDX」,特許分析で競合他社の戦略を読み解く
https://active.nikkeibp.co.jp/atcl/act/19/00313/091400007/
使用例の補足
*例ではインタラクティブHTMLから類似特許を探しましたが,「記事文章を入力しておき」,記事文章ベクトルと各特許文章ベクトルとの類似度の数値から類似特許を探すことも可能です.
(概念検索機能を追加.「記事文章を予め入力しておく機能」は概念の上位下位レベルの選択をアルゴリズムに委ねる場合に使用し,「概念検索機能」は事後的に確定的な概念を用いて絞り込みを行いたい場合に使用すると良い.)(「attention概念検索」検討中・・・)
*類似特許が多すぎ図上で判断し難い,どの特許を確認したか忘れてしまう,次元削減前の類似度で比較したい,などの場合には,「類似度リスト」を使うと良いでしょう.
(絞り込み検索を行った後に類似度リストを作成することにより,より精度の高いリストとすることができます.)(類似度リストとすると特性の方向性など多面的な類似情報が失われてしまうことに注意してください.)
*探したい特性を示すクラスタが無くどの方向を探せばよいのかわからない場合には,「キーワード限定」「分類限定」,「母集団にその特性を示す特許群をダミー(呼び水)として加えてベクトル計算をしたのちダミーを消す」,などの対応を行うと良いでしょう.
(これを利用し例えば,製薬会社全体の情報を調査対象製薬会社の情報に混ぜベクトル計算をし製薬会社全体の情報を除くことにより,調査対象製薬会社が採用していない戦略や急所を抽出する,などの使い方があり得るでしょう.パラメータを変更し類似の抽象度を変えより上位概念で混合することにより見えるものもあるかもしれません.)(ニッチでしょうけれど,特許隠蔽会社の予測にも使えるでしょう.)(クラスタリングにおいては母集団の内容は非常に重要となります.通常の特許分析などのセグメンテーションと同じ感覚で母集団をとらえてはいけません.周辺技術を含んだ母集団とすることは,非常に重要です.)(自由に任意の視点とできるようにすることは重要です.任意の視点のみとしてしまうことは避けたほうが良いと思うところです.)(関連母集団を追加することで,新たな視点のクラスタを作成し,新たなセグメントについての知見を得る,なども面白いとこhiろです.)
*キーワードでも分類でも見つけづらい特許において特に有効でしょう.近年需要の高い新規分野の特許ではキーワードも分類も安定していないでしょうから有効となりやすいでしょう.
(未知キーワードであろうと前後関係を考慮した他単語との類似性から適切に図示されます.分散表現を使っていれば当たり前ですが.ただし,あまりに未知である場合には,未知キーワード同士で類似性があると計算されてしまうことがありますので注意必要です.)
*それぞれの点は,設定したパラメータに依存した類似指標に基づき近接しているため,その類似指標から外れた視点においては,近接している点であっても関連性が低いように見えることがあります(上位概念が共通するが下位概念は異なるなど).
その場合においても,「関連性が低く見えるがどこに共通性があるのか探索しよう」という視点で見ることにより,連想記憶に基づき「思い込みを防ぎ,新たなインサイトを生み出す」ことができ,「技術の使われ方の革新である「イノベーション」」に寄与する,「共通の目的に向かって同調せずに自立し行動する「共創」」に寄与する,創造性を生み出し創造に寄与する,かもしれません.
(「関連性の低い2つの対象間での共通点の探索は対象の「目立たない」知識の活性化を促進する.」「固定的な見方の解消とは「目立たない」知識を活性化させること.」 山川真由・清河幸子 関連性の低い対象間の共通点探索プロセスーカテゴリ判断課題との関連による検討 日本認知科学会第37回大会 JCSS2020
httpss://www.jstage.jst.go.jp/article/jcss/27/4/27_2020.002/_pdf/-char/ja )(目立たない特徴を活性化させ,さらに自らのバイアスから特徴の隙間を補って(生成して)足すことこそが,検索者や調査者の役割,と.認知視点の検索論に基づき言い切ってもよいと思う.)(ヒトによる生成:「DRMパラダイムとは•相互に意味的関連のある単語リストを呈示し,後に自由再生をさせると,実際には呈示されていない意味的関連の強い単語が誤って再生される(Deese, 1959) )(開発者はイノベーションに向かない(眼の前にある実現可能性の高さに拘束されすぎる)ことは様々なデータにより示されている.そこで企画が利用されることがあるが,企画はフレームに拘束されすぎイノベーションにたどり着かないことがあるし,結局,眼の前にある実現可能性の高いアイディアしか採用されにくい.様々な壁やコスト,生み出され得る価値を考慮すると,開発者自らがイノベーションを生むことが重要となる.(ABCDEFの分担という考え方もあるが,分担するほど価値観合わせなどの壁が高くもなり生み出される価値が小さくまとまり得るので統合できるところは統合したほうが良い.多様性より自己多様性,に似る.).開発者はイノベーションに向かないと認識したうえでいかにイノベーションを起こすか,その答えの一つは,自律的に多様な情報を収集することである.ここに示すツールは,開発者が自主的に多様な情報を収集しインサイトを得ることができ,開発者によるイノベーション生成に寄与するだろう.)(面白さとはパターンの発見である.面白さを報酬として知的好奇心が形成される.知的好奇心は自立の源泉であり,イノベーションの源泉と考えている.)(バンデットアルゴリズム.探索と活用のトレードオフが,イノベーションからみた開発の不誠実さと開発から見たイノベーションの不誠実さのジレンマと対応しているようで面白い.ジレンマやトレードオフに対応するため,イノベーションにも因果探索推論のアルゴリズムを導入すべきなんかな人任せではなく.さてどう組み込むか.)(私は,分析者の構造化能力に強く依存するテキストマイニングによる多空間発想法のようなアイディア生成手法よりも,閲覧者がそれぞれ自身の視点と能力に基づきアイディアを生成するクラスタリング系のアイディア生成手法を好む.後者のほうがより広い可能性を含むと思うから.閲覧者の能力に依存させないほうが良い,分析者のほうが優秀だと諦めたときのみ,前者を検討するだろう.)(理解不可能と認めた上でそのまま取りだす,セグメンテーションではない,クラスタリング手法が,複雑な隠れ情報を価値のあるママ取り出す有効な手段だ,という視点は,イノベーションに関連すると思われます.本手法は隠れ情報をそのまま使ったわけではないですが.)
*集合がキーワードや分類によりどう変化するのか比較することにより,「精度の高い部分集合を組み合わせ再現率の高い集合を作るにはどうすればよいのかについてトレーニングするツール」,検査能力向上訓練ツールとしても使えるかもしれません.
(母集団の特性が重要との観点において,ダミーを利用しつつ専用化すればシステマティックレビュー,メタ分析にも使えるかもしれません.特許SDI用AIと同じように他技術と組み合わせてみようか…)
使い方の補足
*文献やニュース・判例・他言語にも対応しています.
ただし,適当な前処理を行い,適当なストップワードを追加する必要があるでしょう.
(ストップワードは結果を確認しつつ追加したほうがよろしかろうと存じます.個人的経験から述べると,最初から名詞のみに限定するような限定はやめたほうが良いでしょう.アルゴリズムと母集団に適合した丁寧なストップワード設定によりより多くの価値を残せるでしょう.)
*複数言語同時表示には対応していません.
Aylienに期待するとよろしかろうと放り投げ
https://t.co/7LkXI0viQY?amp=1
(mbartやmT5のようなend-to-endの多言語モデルが見られるようになってきました.ここから得たベクトルは複数言語同時表示に対応するでしょう.とりあえずmbart触り中.どこからベクトルが取れるかわかりませんが,翻訳言語を固定し全翻訳単語の各語彙出現確率の要素和を取れば元の言語に依存しないベクトルとして取り出すこともできると思っています.少々次元が大きすぎるので次元削減は必要でしょうけれど.)(英語の固有ベクトルと日本語の固有ベクトルなど必要な言語の固有ベクトルを求めておけば,理屈の上では,言語非依存のベクトルが求められ,複数言語同時表示ができるはずです.retrofitting?.どこかで試そう.)
*要約過程を経るため,ある程度長い文章に向いています.目安としては400単語以上です.
*特許で用いることをまず想定していますので,1テキスト内で内容が単一性を示すことを仮定しています.
使用したいテキストがこの仮定に合致しない場合は,あらかじめ単一性を示すセンテンスに切り分けておくなど対応ください.
*様々なソースから集めたテキストを混合した場合,それらテキスト間では文章の解像度がかけ離れていることが多いため,適切に図示され難くなるかもしれません.
対応済みですが,完全とは言い難いでしょう.
(解像度の違いを吸収する文章ベクトル作成手法が提案されるのを待ちましょう.transfomerから求めた文章ベクトルであれば,すでに解像度の違いを吸収できていると言えるかもしれません.適当に置き換えてください.)(LDAを用いトピックを介しまとめることで特許と文献の用語の差は吸収できるとのこと.valuenexが新機能として提示しそうです.待ち採用するのも良いでしょう.)
*複数の抽出手法を組み合わせる手法がより良いでしょうね.
コード概要補足
*抽出的文章要約という分野の手法といえるらしい.
*教師なしデータから学習した単語クラスタリング (Brown clustering)の特徴を追加して教師あり学習する⽅法論を提案
https://www.aclweb.org/anthology/N04-1043/NAACL-2004
Name Tagging with Word Clusters and Discriminative Training
https://www.aclweb.org/anthology/N04-1043/
*word2vecとtf-idfを組み合わせた例
***
*ある答えを求めるにあたり(数百の)複数の解決手段が考えられるとき,そのルートをいくらかに限定することこそが(認知適合と優秀さを両立する)知能の役割だとすれば,3のようなクラスタリングこそが本質に近いと考えている.
(結果としてクラスタリングされる場合と似たルートをクラスタリングしてゆく場合の差は…)(ベイズで限定しても良いし構造を適用して限定しても良し.非常に面白い.)
*減算と縮約の視点からすると縮約に該当すると思うが,本体の特許SDI用AIでは減算を行っている,と思う,ので,気にはしていない.(減算と縮約について,未だに理解しているわけではないが,可逆圧縮と非可逆圧縮と考えるとよいだろうか?.)(縮約はいわば目立たない特徴を消し去っているとも言えるわけだが,あえて消し去ることで,検索者による生成を促す効果を強められている,とも思わなくもない.)
(再構成により,tfidfでは避けられない著者の癖による影響も低減させている.スタイル・文体を消す,異なる解像度を主要単語に限定する,と表現してもよいかもしれない https://qiita.com/kzuzuo/items/b6875441d7103ee515c1 )
(再構成の考え方は,サンプリング中の最も代表的な単語を採用するというサンプル中の分布を考慮したminimun bayes risk MBRという手法に似ているようだ.self-attention LSTMなどで採用されているとのこと. https://arxiv.org/abs/1805.04833 後半はreformerと同じ考え方か?.まとめると,MBR&LSHというアルゴリズムだと表現できそう.)
*(一般化できないのでその他へ移動)「教師あり」による文章ベクトル生成は,距離をある方向において積極的に近づけ,それにより他を「離す」.離す際に,内在的な方向性を示す情報を「失う」ことがある.
「教師なし」による文章ベクトル生成は,距離や方向の違いを「見出す」.内在的な方向性を示す情報は失われておらず,単に見いだせなかったと解釈される.
本手法のような文章間類似可視化において,予め定めた任意の方向を明示することが必要なのでは無く,仮説を前提としつつも自由なインサイトが必要なのであれば,教師なしが最適であると考えている.ただし,この場合は見出すための鋳型(窓,プロジェクション,なんと呼んでも良いけれど)が問題となる.
コードと改良
*3000行+
*MITライセンスでGithubに上げる,または欲しいと意思表明した人に改良時ライセンスバック契約で送る,予定.(上記コード概要を参考に自作したほうが良いとも思う.真面目に書けば2000行ぐらいで書けるはず.)
*文章ベクトルとしてBERTベクトル(CLSではないsentence-BERT),クラスタリング手法としてDBSCAN,PHATEを選択できるように改良中.
(Tfidf embeddings/cluster visはそもそもBERTを含む自作AIの補正のために作成したAIシステムの一部.重複し補正の役に立たないだろうBERTベクトルを採用するモチベーションはあまりない.とはいえ選択できると便利だろう.)
*統合概念検索機能を追加.入力した単語群と近い概念の特許を抽出可能とした.(類義語と記載の多様性を吸収.)
*知財高裁判決を争点単位で検索するデモを連休中に作ってみよう
→判例争点単位概念検索システム
判決PDF→テキスト→争点区切り→文章ベクトル化→html
・一通り実行完了.
・争点をキーワードで限定しかつ概念でも限定できるようにした(例えば,医薬にかかわる進歩性についての争点に限定し類似度を出力できるようにした.下図参照)
残された課題
・区切位置見直し
・判決12000件分予想計算時間15日
・不要語除去
*疑似self-attentionをとり,その上位数単語を更に足し合わせるのもありやな.かんたんに実装できるし試してみるか.
*上記の判例争点単位概念検索システムを調整していて思ったのだが,keyword attention形式とすれば,争点区切りをする必要が無くなるため区切り位置ミスの影響を受けずに類似計算をできるようになり,さらにself-attentionより軽くでき,より良いのではないか.
構成要素区切り位置が問題となる構成要素単位類似検索でも同じ課題があるな…実装してみるか
→「attention概念検索」
(なお,構成要素単位類似検索で得られるのはあくまであるアルゴリズムに従った構成要素単位間の類似のみ.構成要素が類似しているからと言ってそれが直ちに進歩性などに関連する先行文献となり得るわけではない.もし,進歩性などに関連する先行文献を見つけようとするならば,類似とは別のさらなるアプローチが必須となる.このアプローチがない場合は,進歩性などに関連する先行文献の発見は検索者の役割となる.)
個別attention概念検索に付き,概念を知識グラフから持ってこれば,ある意味zero-shot学習による検索ができるといえるのかな?.呼び方はともかく実現可能だな・・・
*明確な類似とアルゴリズム上の類似との相違点の参考等とするため,引用被引用の関係にある点間に線を追加する予定.
参考 https://stackoverrun.com/ja/q/11636832
→被引用実装.多方向から線が引かれている特許は多分野に影響力がある特許だといえるのだろう.特定方向への線の集中は分野間の関連の深さを表しているのだろう.下記図はある特許に類似する特許母集団を作成しそれを図示したもの.類似する特許群であるため当然に引用関係になることが多く,線の密度が高すぎ判断が難しい.しばらく観察してみる.
*混合ガウスモデルを採用し抽出可能とする予定.
*mBARTなどの要約技術を利用して,フラットな概念でも図示可能とする予定.ついで,特許文章と文献,商品情報,判例の,より適切な同意時平面図示の検討を試みる.
*非記載固有表現抽出っぽい機能を力技で実装し試行.5000件ほどの処理に100時間ほどかかるどうしたものか.
*概念近傍検索追加.
*追加予定
DSOC,ジョンズホプキンス大学のAngelo Mele准教授と共同研究したネットワーク解析のアルゴリズムをオープンソースで公開
https://prtimes.jp/main/html/rd/amp/p/000000210.000049627.html
lighthergm
https://github.com/sansan-inc/lighthergm
*NLP2022
・C3-3 製品特徴に基づく製品発表プレスリリースの関連特許自動判定
○中山優輝, 酒井浩之, 永並健吾 (成蹊大)
重要語を抽出し分散表現とする,基本的な考え方は同意する.
ただ,プレスと特許で類似した語が使用されていると言う理由で,特許の効果や実施例をデータとしたのであろうが,特許全文を簡単に入手することは比較的難しいため実用としてはどうであろうか.また分野によっては必ずしも効果や実施例の用語がプレスの用語に類似するわけでもない.表現の上位化下位化を行っていなかった点は残念.
FIなど分類をモデルに含めなかった点は正しいだろう.モデル判定を使ってから分類を使用すれば良い.分類をモデルに含めると,その影響が大きすぎ,分類の間違いにも大きく引きづられてしまう.数値上の精度等が良くなるとしても,分類で見えないものを見えるようにする可能性を無くしてしまう.「その分類知識を積極的に破棄できるシステムを加えない場合は」例えば「分類をネットワーク化し,間違いを近似ノード情報により補正できるようにしていない場合は」,よくはない.(分類を使用する場合は知識ネットワークに変換してから入れると良い.分類を間違えているとしても,全く間違えている可能性は低く,間違いは隣り合うノードに現れるはずで,ネットワークはそれを補正してくれる.)
・・・selfでなく,一般コーパスで学習したモデルに通し直し,ベクトルの長さで選択し,特許と侵害品に共通する用語を抽出する,と言うやり方もありやな.CLIP通すよりも処理が早いだろう.
・A5-1 単語ベクトルの長さは意味の強さを表す
○大山百々勢 (京大/理研), 横井祥 (東北大/理研), 下平英寿 (京大/理研)
非常に重要.
・B6-1 対照学習による文ベクトルを使用した障害レポートのクラスタリング
○小林千真, 山下郁海, 岡照明, 小町守 (都立大), 真鍋章, 谷本恒野 (富士電機)
障害レポート 故障の 状況 原因 措置
うまく集約したい
それぞれ,文ベクトル化
クラスタリングして集約
simCSEの学習と集約,事例分析
・BERTを用いた教師なし文表現
https://tech.retrieva.jp/entry/2021/10/12/130850
*tfidf/mbart/mt5/CLIP embeddings cluster visは,ほぼ統計と分布仮説にのみに基づくためかattentionよりもドメイン依存が少ないためか,ヒト認知に近いと感じる.イメージとしては,自分を含まない他者の考えではなく薄まっているが自分の考えも含むため認知に近いと感じる,といいましょうか.NLP2022「自然言語を複雑系として捉える試み」の気持ちに似ているといいましょうか.または,ヒトは非線形な感覚に基づいてものの良し悪しを判別しており(数万のうち7つほどを選ぶ)そしてそれを理解しようとすると線形で捉えようとしてしまう(7つのみから判断しようとする)ところ,ヒト認知に近づけるにはその後者の7つのみから構成するようなアルゴリズムが良い,といいましょうか(こんなイメージ? https://note.com/4bata/n/n0a44276a0ef1 )
なお,モデルとヒト認知との適合をどう検証すればよいか未だにわかっていません.基本的には距離の総和で評価すれば良いとは思いますがbin毎の差も重要となりそう…
*BM25
tfidf進化系.文章の長さ補正.検索でよく用いられる.
文章内で単語のランキングをする際には関係ない.
*Re-evaluating Word Mover's Distance
https://arxiv.org/abs/2105.14403
https://github.com/joisino/reeval-wmd
正しく正規化するとbag-of-wordsがWord Mover's Distanceに迫ることを発見
Top2Vec learns jointly embedded topic, document and word vectors.
https://github.com/ddangelov/Top2Vec
2. UMAPを使用して,ドキュメントベクトルの低次元の埋め込みを作成します.
3.HDBSCANを使用してドキュメントの密集した領域を見つけます.
…
母集団ごとに可変なベクトルを使用しないので目的に合わない
(分析結果を共有するツールは多々ありますが,ある程度以上複雑な表現となると受け手の認知の問題により共有しても理解されないことも多いです(KH Coderの対応分析ぐらいが限界かと思えています).分析結果よりも,探索的な仮説を疑問形式で提示したほうが理解されやすいこともあります.自作はこのような工夫をしやすいという点で優れているでしょう.(受け手の認知への対応手段としては,TableauのようなBIツールの標準ダッシュボードに複雑な表現を押し込み慣れさせ,受け手の認知を向上させる方法も良いとは思います.ただし,いたちごっこですが.)(個人的な印象ですが,「相手に無駄な思考をさせない」などと,受け手にわかる単純な表現のみ選択してゆけば,わからないことがわからないものが増えてゆきます.わかりやすさとは短期的な利だが長期的な毒だ.と思っています.よく行われる「複雑な表現から安易に受け手の認識を考慮し単純にするような逃げ」をすべからく(場合によってはこちらで良いときもあります.別のページではこちらを主眼において検討しています)するのではなく,「複雑さを維持したまま表現を変え受け手の認知が向上されるように説明する努力」をすべきです.単純化できないものまですべからく単純化する思考は,昨今のイノベーション停滞の大きな原因の一つであり大企業病の病原の一つかとも思えています.法律をエキスパートシステムにしようとして失敗しましたよね.すべからく単純化の問題はこれら失敗により十分示唆されています.)
SAO2Vec: Development of an algorithm for embedding the subject-action-object (SAO) structure using Doc2Vec
https://pubmed.ncbi.nlm.nih.gov/32023289/
近いかもしれない.鋳型の取り方がSAOではない点は異なる
*AI創薬はAlphafold2先生の独壇場になりつつある気もします.既知の実測データ群から類似を予想するより,構造自体を精度高く予測して類似=結合を確認するほうが,データ不足の未知にも対応できより良いでしょうね.(現実の動態を考慮した構造ではない,点変異の予測に強くない?,など課題はあるようですが.)( タンパク質立体構造情報を用いた薬剤バーチャルスクリーニング(2021) https://www.jstage.jst.go.jp/article/jsbibr/2/1/2_jsbibr.2021.9/_html/-char/ja )(個人的には,点変異と現実の構造情報を考慮したリガンド等との結合の類似を直接比較できるベクトル作れないかなと興味があります.計算量少なく.)( AlphaFold2より得られたヒト全タンパク質立体構造との結合親和性に基づく医薬品化合物の副作用予測(2022) https://confit.atlas.jp/guide/event-img/pharm142/26J-am-11/public/pdf?type=in 日本薬学会参加していませんがどんな話だったんでしょうかね.)
*ベイズ統計学入門 〜頻度主義からベイズ主義へ〜
https://speakerdeck.com/ueniki/beizutong-ji-xue-ru-men-pin-du-zhu-yi-karabeizuzhu-yi-he
*特許に自動生成初期メモ
最初はデータ不足で自然な文章とはならないことが多いでしょうがそれでもとても面白い文章が生成できるでしょう.(データ不足は特許分類の説明文をPPPTコンペ上位解法を参考にうんちゃらすれば良さそうです.コンペの知識は意外と役に立つんですよね)(まだ本ツールに内蔵していませんが内蔵させる予定です)(ベクトル空間は語彙で表現するしかなく語彙が不足する場合には新しい特許を表現し難いため構造的限界がある.と思っていたのですが,正規表現も微分可能で組み込めるそうです.可能性が広がりますね))
(基本的な考え方は次の通り.ベクトル空間における実態は語彙しかないところ,語彙がない空間にも例えば['brain','electrod','chip']という複数語彙で表現される点があるわけです.この点は文章で表すこともできます.つまりvec2seqです 例えば https://ieeexplore.ieee.org/document/9263191
['brain','electrod','chip']で概念を形成した場合は,'brain','electrod','chip' を含む文章が生成されやすいでしょう.文章生成の意味はあまりないかもしれませんね.ただ,上記群から求めた「戦略概念」の場合はどうでしょう.「空白」の場合はどうでしょう.単語から概念を求めていないのでどの単語から生成されるかわかりませんね.周辺から語彙を集めてもわけわからないかもしれません.こんなときにvec2seqは役に立つでしょう.生成のもととなる分布自体は正しいと確信というか正しいと想定できるので,十分創造的と認識することができ,受け手のインサイトを刺激もします.
なお,自分のやり方では,ベクトル空間を毎回作り直してしまうので事前学習による転移が使い難く,何らかの工夫がをしたほうが良いです.ベクトルをある手法でマスクした場合は意味がほぼ変わりませんでしたからこれを用いるかもしれません.また,文章をencoderに通した場合の出力や画像モデルの中間層の出力とは異なり,encoderに入力するmemoryは完全に位置情報を失っていますが,位置情報はどのように生成されることになるでしょうか?どこまでできるでしょうか? CNN-transformer decoderによるimage captioningの予備実験では6000件も学習データがあれば足りそうです.ただ,設定したパラメータとcpuでは学習時間が8hほどかかりますね・・・メモリは4GBほどと許容できますが.memory側の情報量が足りないので適当に加えて検証してもみましょうかね.分類や引用数や引用元など・・・.memoryつまりk,vの情報量が少ない分,母集団の文章全体からqを十分に学習できるようにしておくと良いかもしれません.
「空白」部分は任意の計算で求めるのではなくトポロジーで求めても良いですけれど,特許における空白は新規だけでなく単に実現不可能である空白もありますが・・・うーん,とりあえず総当たりで空白から生成させてみても面白いでしょうね.ある程度実態を考慮したqをもとにした生成ができるはずですし・・・特許の自動生成にはあまり興味はありませんが,なかなか面白そうです
image2seqでテスト中・・・
よくもまあバックパックを背負っていないことまでわかるもんですねぇ・・・pretrainされた画像分類にバックパックは含まれていたでしょうか≒見分けやすいベクトルが形成されていたと言えるでしょうか・・・
n02769748: backpack, back pack, knapsack, packsack, rucksack, haversack
https://image-net.org/challenges/LSVRC/2012/browse-synsets.php
含まれてはいましたね.分類外の表現を用いた比較的創造的と言えそうな文章を生成した例を見つけたいけれど・・・
いや,「〜がない」という表現は「〜がある(クライミング時にはバックパックを背負っていることが普通である)」ことが一般である場合にしか自然に読めないはずですから,これはいわゆる確信性が高いという意味で創造的なのかもしれません.
*mT5のようなencoder-decoderも考えたのですが,encode部分は演算可能であるベクトル空間でないと空白領域の指定が難しいのですねぇ
Technology Fitness Landscape for Design Innovation: A Deep Neural Embedding Approach Based on Patent Data
https://arxiv.org/abs/2110.13624
引用グラフと単語埋め込みから新たな埋め込みを学習.
面白い特徴をとらえている
GraphSAGE
http://snap.stanford.edu/graphsage/
未知のノードのembeddingを計算することができる
https://github.com/kzh22/graphsage-simple
*感覚的には,attentionを用いる精度が高くなりやすい手法よりも,統計的なtf-idfや分布仮説を用いた手法のほうが,ヒト認知に近いと感じています.また,これら統計的な手法は,母集団の特性に応じ変化するという都合の良い性質を持っています.
また,こと特許文章においては,attentionを用いる精度が高くなりやすい手法が「してしまう」「文脈に基づいた単語の意味」を見分ける機能は,中途半端で邪魔にもなります.特許における文脈は,明細を読み込みさらに調査することにより初めて判明し,その上で単語の意味が確定するなど,どこまでいってもデータ外のデータが必要となるなど複雑で繊細であることが多く,attention手法が学習した「比較的一般的な文脈を考慮した単語の意味」とは,fine-tuningしたとしても,異なることが多いためです(common sence reasoningまでは解けるけれど特許解釈に必要な技術常識までは得られない,というイメージです).統計的な手法はこのような邪魔をしません.特許においては,「文脈に基づいた単語の意味」は「統計的な手法を見た後にヒトが判断する,human-machine collaboration」の方針として得たほうが良い結果となることが多いでしょう. (self attentionを用いる手法はqueryでその文をどのような観点で読み取るか決定していると言えます.multi headを用いることで「複数の観点で文を読み取っている」わけです.さて,head数はlargeで16個ほどですが,この個数でまたはこのアルゴリズムで,「必要十分な観点」が揃っていると言えるでしょうか(観点は最低でも文法認識に必要な個数,5w1hの6個,人が認知する文脈に対応する個数,更に文中の非機能語ごとに1つ欲しいところです.しかし,qもkもXから求める以上Xに観点が含まれている必要があり,もつれ合いを考慮するにしても,「必要十分な観点」を揃えるには限界があるでしょう.Attention Is All You Need論文の試験結果からするとhead数を単純に増やせばよいわけではないようですが,これはXの情報量に限界がありheadを増やしすぎても解決できないという意味でしょう多分.また集約の仕方はconcatと重み付けとなっていますが,これで足りるでしょうか.「必要十分な観点」を揃えるための案を思いつきで適当に出せば,headの多様性を確保するためにconcat前に内積を取り類似した観点は重み付けしつつ独立ではないとして除去してゆく,またはqの多様性を確保するためまたは主題に沿った学習をさせるためデータ外の暗黙知として任意のsubjectを与えておきこれに近い観点を優先的に残す,などありえるかもしれません(後述のネットワークはこれを考慮して形成できるようにしています)(後述の特許生成はattention手法を用いた生成ですが,これを考慮して生成できるようにしています)
複雑な観点が必要となる場合には,今のところはまだ,human-machine collaborationが答えだと思います.いや数百GBのGPUメモリを用いる最新モデルではどうなっているのかわかりませんけれどね.理屈の上では無限のXにはすべての観点が含まれますから)
また,特許文章の場合は,sequenceがあまり重要となりにくいためまたは非sequence情報がより重要であることが多いため,sequenceを考慮した手法は限定的な課題以外では比較的重要ではありません(機械翻訳や固有表現抽出や感情分析とは異なり,入力順を無視しても比較的十分な情報が得られる,と表現すればよいでしょうか.といいますかどちらかといえば順番は無視してほしいぐらいではあります.例えば,〜を含むと〜を含まないという順序を考慮すれば見分けられる表現は見分けず同じ価値で表現して欲しいです個人的には)
これら特性を重視し,作成するベクトルは統計的手法で得られたものを「骨」としています.
・基本的にはクラスタリングを行うコードですが,特定の条件に合う特許群の色を任意に変えるなど対応することによりセグメンテーションにも使えるでしょう.後ほど述べるように「呼び水」を利用すれば,軸に任意の意味をもたせることもできます.
*既知の知識を活用するにはセグメンテーション,未知の発見を求めるならクラスタリングがより適切です.クラスタリングは未知の構造の発見を可能としますが,ある程度の知識の再構成も可能とします.本コードはこの点を重視しています.
*予想以上に使い勝手が良かったため,もともとは別途作成している「特許SDI用AIシステム」の一部でしたが独立させました.
https://qiita.com/kzuzuo/items/d41327433c9cdc6a5fd3
https://qiita.com/kzuzuo/items/4670b5ff7526319680f4
*A 機械学習は自動化含めた多くの決定をする際に採用し,
B 統計はいくらかの意思決定をする際に採用し,
C 分析は未知に対するインスピレーションを得たい場合に採用する
とされます.
「特許SDI用AIシステム」はAを担い,本ツールは一部のBとCを担っています.
*東京大学 総合研究機構 イノベーション政策研究センター 東京工業大学大学院 イノベーションマネジメント研究科 梶川研究室
学術俯瞰システム
https://academic-landscape.com/page/about
202302追記 chatGPTに聞いてみた
chatGPTは,コンセンサスのある回答についてはは真っ当で,コンセンサスのないエッジの効いた回答については苦手としている心象です.次の質問はコンセンサスのない回答となる質問と思いますが,興味深い回答ではあるかもしれません.
- モデル自体の創造性とは何ですか
- モデルの示す創造性とは、新しいアイデアや概念を提案し、既存のものとは異なる方法で問題を解決することができることを指します。モデルの創造性を評価するためには、以下のような指標が考えられます。
新規性:モデルが提案する解決方法や概念が、既存のものと比べて新しいものであるかどうか。これは、例えば、専門家や一般の人々が、その提案についてどの程度知っているかを調査し、それが新規かどうかを評価することで測定することができます。
有用性:モデルが提案する解決方法や概念が、問題を解決するために実用的であるかどうか。これは、例えば、実際にその提案を実装し、その効果を評価することで測定することができます。
意外性:モデルが提案する解決方法や概念が、その問題を解決するための予想外の方法であるかどうか。これは、既存の方法と比べて異なる解決方法が提案されたかどうかを評価することで測定することができます。
一般性:モデルが提案する解決方法や概念が、その問題を解決するだけでなく、他の問題にも適用可能であるかどうか。これは、例えば、提案された解決方法や概念が、他の問題にも適用可能であるかどうかを評価することで測定することができます。
以上のような指標を総合的に評価し、モデルの創造性を評価することができます。
(*simCSEのような?距離学習のみを行った場合には,バネのような制約がない場合(遠さの制約ができてない限り,データの偶然に左右されると思われ),entangleされた複数の軸をベクトルが含有することができるか,疑問に思っています.また,距離学習は少数のデータとは相性が悪いとおもわれ,特定母集団の特徴を考慮した学習は難しいでしょう.また自分が知る限りでは,使用例1.1のような単語ベクトルとの演算は難しいです(上記に上げたいくつかもそうですが).距離学習とentangleまたは演算可能性については調査中です.現状では,距離学習は補正にのみ使います.なお,補正する場合には,補正の上限を設定すると良いようです.)
無効資料調査のうち主引用例のみの検索を特許のみから行い,文章レベルのみ扱い,後に述べるような単語レベルの演算をして副引用例を探すようなことをしないなら,距離学習は良さそうです.
いや・・・対象学習であろうCLIPで演算できるのだから演算自体はできるのか?
対象学習はバッチが小さいと文脈学習ができない問題はある
単語を加える演算をする際には・・・その単語が複数の概念を持っていた場合は・・・
文章単位でベクトルを生成し,単語レベルの演算をする場合と,単語レベルでベクトルを生成し,単語レベルの演算をする場合,どちらが良いのだろうか.前者はtransformer以前は後者より悪いと言えたのだが・・・ 単語の文脈考慮の必要性で考えればよいのか?
chatgptさんいわく,
「対照学習とword2vecは、両方とも単語の分散表現を学習するための方法ですが、その特性にはいくつかの違いがあります。
まず、対照学習は、ニューラルネットワークを用いて学習を行うため、データセットに応じて学習されたベクトルが異なる可能性があります。これに対して、word2vecはニューラルネットワークを用いて学習するため、学習プロセスがより一貫性があることが知られています。
また、対照学習は、膨大な量のテキストデータを必要としますが、word2vecは比較的少ないデータで効果的な学習ができます。
さらに、対照学習は、単語の共起情報を考慮しながら学習を行うため、文脈によって異なる意味を持つ単語のベクトル表現を獲得できます。一方、word2vecは、単語の周辺の単語の出現確率を考慮して学習を行うため、単語の意味をより精確に表現できることが知られています。
以上のような特性の違いがあるため、どちらの手法が適しているかはタスクに依存します。」
「特許文章群について,simCSEなど対照学習を用いて作成したベクトル空間と,word2vecを用いて作成したベクトル空間の,特性の違いはなんですか.
simCSEやword2vecなどの自然言語処理におけるアルゴリズムを用いて作成されたベクトル空間による特許文章群の分析について考えると、以下のような特性の違いが挙げられます。
学習の方法の違い
simCSEは、対照学習を用いてベクトル空間を学習します。一方、word2vecはニューラルネットワークによる教師なし学習を用いて、単語の分散表現を学習します。したがって、simCSEは対照学習によって、単語や文章の意味的関係を学習することができますが、word2vecは、単語の出現頻度に基づいた統計的な情報から単語の意味的関係を学習することができます。
表現の精度の違い
simCSEは、単語や文章の意味的関係をより正確に表現することができる可能性があります。これは、simCSEが対照学習によって、同義語や類義語などの単語の意味的な類似性を学習することができるためです。一方、word2vecは、単語の共起関係に基づいて単語の意味的な類似性を推定するため、表現の精度が低下する可能性があります。
計算コストの違い
simCSEは、対照学習を用いて、単語や文章のベクトル表現を学習するため、計算コストが高い傾向があります。一方、word2vecは、単語の共起関係を基にベクトル表現を学習するため、計算コストが比較的低いです。したがって、大規模な特許文章群の分析においては、word2vecの方が効率的である可能性があります。
以上のように、simCSEやword2vecなどのベクトル表現学習アルゴリズムによって生成されたベクトル空間の特性には違いがあります。どちらが優れているかは、分析の目的やデータの性質によって異なります。
それぞれの問題点について教えてください
simCSEやword2vecなどの自然言語処理におけるアルゴリズムは、高い表現力を持つため、多くの応用が可能ですが、それらにはいくつかの問題点があります。以下に、それぞれの問題点を説明します。
隠れ変数の解釈の困難性
simCSEやword2vecなどのアルゴリズムは、単語や文章の意味的な特徴を表現するため、ベクトル空間を生成します。しかし、このベクトル空間の各次元が何を表しているのかを解釈することは困難です。したがって、解釈性が低いため、実際にどのような特徴を表現しているかを正確に理解することが難しくなります。
Out of Vocabulary (OOV) 問題
simCSEやword2vecなどのアルゴリズムは、事前に学習した単語や文章のみに対して、ベクトル表現を生成するため、未知語に対しては対応できません。この問題を「Out of Vocabulary (OOV) 問題」と呼びます。特に、専門用語などのレアな単語に対しては、OOV問題が深刻になります。
データのスパース性の問題
単語の共起情報に基づいて学習を行うword2vecなどのアルゴリズムでは、データのスパース性が問題となります。つまり、ある単語と他の単語の共起頻度が低い場合、その単語と他の単語との意味的な関連性を正確に捉えることができません。そのため、単語の意味的な表現が不十分になることがあります。
トレーニングデータの偏りの問題
simCSEやword2vecなどのアルゴリズムは、トレーニングデータに依存するため、トレーニングデータが偏っている場合、生成されたベクトル表現にも偏りが生じます。そのため、トレーニングデータの質を向上させることが重要です。
以上が、simCSEやword2vecなどの自然言語処理におけるアルゴリズムに関する問題点の一部です。これらの問題を解決するために、より高度な手法や改」
いやあっているかどうかは別として,課題が整理できてよいですねぇ
コメント
表現について:
単語の文脈を考慮してほしくはありません.同一単語を複数の意味に分けてほしくありません.逆に単語をその類義語を含めて同じようなベクトルで表現してほしいです.本件用途では,word2vecのほうが適切でしょう.ただし,対照学習でも,同一単語と類義語を同じクラスタに入れた上で,同一単語を複数の意味に分けているかとは思われます.
単語を含めた演算をする際には,対照学習では同一単語でも別の意味と解釈されかねず都合が良くはないでしょう.
母集団に基づいた文脈解釈は,使用者の認知に含まれません.特に特許など未知の文献を母集団とする場合は顕著でしょう.その場合,使用者の認知に近いのは,word2vecの方になるのではないでしょうか?
OOVについて
word2vecでは問題となりません.つご学習しており,語彙は落としていないからです.
一方simCSEでは,一度大きく学習したモデルを流用するため,OOVの問題があります.特に特許など新単語が現れうる文章では問題となりそうです.
共起頻度について
word2vecでは問題となりそうです.対照学習では負例により適正化できうるかもしれません.
訓練データの偏りについて
本目的においては,母集団の偏りが重要となっています.simCSEではより大きな訓練データで訓練することになり,偏りはなくなってしまいます.これは本目的においては都合が悪いです.simCSEは,大きな代表分布を得られている場合には適切と思われますが,特許など分布が将来大きく変わりうる場合には,あまり適切な手法とはいえないのではないでしょうか? 後ろ向きの検証はより良くなり得るとは思いますが・・・
また,自分は,attentionよりも,汎用であり分布仮説を追求したツールを一つ持っておきたいと思ってもいます.
「分布意味論仮説は予想を超えて(やっぱり)強力だった。」とは多々知られているところです.
word2vecは分布仮説そのものでしょう.対照学習も,分布仮説を学んでいるでしょう.正例2つ,つまり類似文章には,同じ正の単語が現れることが多いでしょうし,そうすると同じ単語の周辺に出現している単語の分布も学んでいるはずです.word2vecとの大きな違いは,対照学習が負の単語を学ぶのに対し,word2vecは負の単語を学ばないという点にあるでしょう.負の単語とは,一義に決まるのでしょうか? どこまでいっても,ドメイン適合が必要に思えますし,対照学習においては負例の設定が大きなテーマでもあり,そこに恣意性があり,対照学習で得られるベクトルには,客観的でない恣意性が入るように思えています.そこが気持ち悪いです.十分多くのデータが有るときには,負例の汎化もでき,無視できるかもしれませんが・・・
とはいえ,検証しないといけないでしょう.
対照学習による文ベクトルを使用した障害レポートのクラスタリング
https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/B6-1.pdf
GPT-4の見解「SimCSEとSentence BERT:
これらの手法は文レベルの埋め込みが主な目的であり、単語レベルでの演算に関しては保証されません。ただし、使用される事前学習済みの言語モデル(例:BERT)によって生成された単語ベクトルは、文脈に依存した意味表現が可能であるため、単語間の類似性をある程度計算することができます。
Word2Vec:
Word2Vecは単語レベルのベクトル表現を学習することを目的としており、単語ベクトル同士の演算が一定の意味を持つことが知られています。加算や減算によって、意味的な関係性を保持することができますが、これらの演算が常に正確な結果をもたらすわけではありません。
総じて、SimCSEやSentence BERTの単語ベクトルは、文脈に依存した意味表現が可能であるため、類似性計算には有用ですが、ベクトル同士の演算による新たな意味の形成に関しては保証されません。一方、Word2Vecは単語レベルでの演算が意味的な関係性を保持することができることが多いため、単語間の意味操作に適しています。ただし、結果の正確性はケースバイケースで異なります」
*言語はスパースだったのでしょうか? 自分は単語に意味が付与される前提で、スパースだと思います。
・Isotropy, Clusters, and Classifiers
https://speakerdeck.com/hpprc/isotropy-clusters-and-classifiers
「埋め込み表現の等方性化は、STSなど意味的類似度タスクでは有益だが、クラスタリングタスクにおいては不利益。対照学習も良し悪し」
体感どおりの結論と思えます。
*「知らないことを認め,進むべき方向さえわからないという態度を,いつも保ちつづけること.それがあれば,たとえ何がほしいのかを知らなくとも,結局はそれを達成する方法を育てるのに必要な思考の変革,知識への新しい貢献と発見が可能になるのです.(ファインマン)」
自分なりに言い直すなら,「モデルが正しいと認識し,そのモデルが示した結果につき自分は何に気づけていないのか問い続ける,その姿勢を取ることができるもののみが,インサイトを得ることができる」のだと思います.そして,モデルが正しいとの確信を持つには,そのモデルを理解していることが重要です.
「僕はこのときはっとした.なぜプリンストンの実験室から,どんどん報告が出ているのかに思い当たったからだ.彼らは実際に自分たちの手で造りあげた装置で研究しているのだ.だからこそどこに何があり,何がどう働いているかが,ちゃんとわかっているのだ.(ファインマン)」
統計はより理解しやすいです.n-gramを用いた確率言語モデルはまだ理解できます
https://qiita.com/kzuzuo/items/b6875441d7103ee515c1 .いわゆる深層学習によるモデルはより理解しがたいです.統計を理解できない人もいれば深層学習モデルを理解できるヒトもいます.受け手の理解力の問題です.
ただ,モデルを理解せずとも,認識することはできます.理解がベストですが,認識することでも,インサイトをえることができるヒトとなるでしょう.
(説明を求めるべきなのは,自分の認識という自己の内部に対してなのであって,モデルに対してではない,と言えばよいでしょうか)
(モデルを妄信するという意味ではなく,モデルを過剰に否定しないまたは,まずモデルの出力に意味があると仮定し考える,ということ)
(途中式を理解できなくても,結論は同じ,といえばよいでしょうか)
(モデルの創造性とはなにかについて別に検討してきましたが https://qiita.com/kzuzuo/items/756470e6e17c54aa5e2e ,現時点での自分なりの適当な結論は「受け手に確信高く認識させること」です.創造的な価値にたどり着くかどうかはヒトの問題です.モデルに必要な機能自体は単に,違いを示すことができれば(十分な表現能力があれば)足りるといえます.相関のうち価値を生むものは因果のみですが,(完全なデータ駆動を思考しない限り)ヒトが相関から因果を読み取れば足ります.ヒトを前提と出来るなら,モデルが因果を示さなければ足りないというわけではありません.分析者がまたは分析閲覧者が「そのそれぞれの知識を元にして」価値を作るのであり,分析やモデルが価値のすべてを作るのではありません. 顧客が価値を作るのであり開発者が価値を作るわけではないとの考え方に似ています.モデルから価値を引き出せないのは,そのモデルの表現能力を別とすれば,ヒトの問題です.)
(情報とはデータであり知識とは関数であるところ,分析とは出力された情報ではなく「知識そのものを見る」ことであるので,受け手の知識との照らし合わせが必要となっている,といえばよいのでしょうか)
*結局の所、わからないことがわからない状態を変化させることが課題となる。その手法として、時間がかかりすぎる学習以外の手法はないのであろうか。
私は、モデルの認知によりそれができると信じる。
そしてそれこそが、使いたくない言葉だが、いわゆるDXのゴールなのだと思う。
*amplified 特許庁は困っている(はず)
https://www.amplified.ai/ja/blog/29062020/why-patent-ai-2/
「USPTOでさえ、自前ツールを作るほどに先行技術調査に課題を感じていることをご理解いただけたのではないでしょうか?
そして、USPTOもAIを使うという意思表示をしていますが、このパラダイムシフトにおいては、調査をする私たち自身がAIを使いこなすスキルが必要になることがわかっているのです。」
*データアナリストの姿勢と道具箱
https://note.com/valuenex/n/n5acf3384a7a1
*社会における分散的ベイズ推論としての記号創発 ~集合的予測符号化としての言語観~
https://www.youtube.com/@anlpyoutubechannel7888/streams
https://www.dropbox.com/s/2kbu0m5jc1lo1xc/230315nlp23-taniguchi_cut_still_small.pdf?dl=0
*用語は勉強しつつ統一してゆきます
*森下裕三 (桃山学院大) 計量的な語の意味分析から視点と主観は捉えられるのか
*大規模言語モデルの知識を補完するための Retriever の紹介
https://tech.acesinc.co.jp/entry/2023/03/31/121001
*マクスウェル視を利用した網膜投影型アイウェア技術も前眼部疾患対応技術としてわるくないのですが、網膜など後眼部疾患の重要性を考慮するに、個人的課題において足りないところです。
*概念ベクトルを精密な脳波に置き換えて、脳波から直接文章生成できるようになったら面白いですね。単語レベルに解読し言語モデルでは修正する方法があるようですが結構期待できると思えています。
*ほぼ同じ手法で、ある行動がどんな法令やルールに抵触しそうか提示する、コンプライアンス遵守ツールが作れそうでもある。
法令やルールに従おうと思っていても、忘れていたり学習負荷が高すぎ対処できないことはある。関連するルール等を提示するツールは非常に有用に思う。特に、ローカルルールに柔軟に対応できればなお有用だろう。
・言語の固有次元を測る
○上田亮 (東大), 横井祥 (東北大/理研)
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/E6-1.pdf
方向を保ちうる固有次元は意外と小さい?10次元ぐらい? word2vecの経験論から言うと200次元は必要だが,12次元程度までなら情報損失なく圧縮しうるような示唆を得ても良いのかな?
また,経験論の余分な次元は「演算により平均が誤って類似しないようにするに十分な演算可能であるベクトル空間」を作るに必要なのかも?
余剰次元は,意味空間を適切に表現するのに必要な,より細かい感情の違い、文脈のニュアンス、あるいは特定の状況やコンテキストに関連する情報を含むのかもしれない.
・平均プーリングによる文埋め込みの再検討: 平均は点群の要約として十分か?
○原知正, 栗田宙人 (東北大), 横井祥 (東北大/理研), 乾健太郎 (MBZUAI/東北大/理研)
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/A10-4.pdf
次元を増やせば平均は適切に離れやすくなり,自動的に文の誤った混同は少なくなるのではないのだろうか?(ただ,次元を増やすだけでは問題が解決しないことは,word2vecの過去実験で予想できそうだが,問題の割合は減るのでは?)
word2vecの平均プーリングでは,不必要な単語の重み(分割しない表現で言えばノルム)を考慮してしまうため,誤った平均に導かれやすくズレが大きいのでは? doc2vecの性能の低さと同じで.(例えば助詞のみを平均すれば似てくるだろう)
最近のモデルで問題が起きない理由は,より高次元を使っており,かつ重みをより最適に選んでいるから,ではないか?
・部分空間法に着想を得たTransformerのアテンションヘッドにおける特徴抽出
○前田晃弘 (JAIST), 鳥居拓馬 (東京電機大), 日髙昇平 (JAIST), 大関洋平 (東大)
・RLHF 強化学習による 認知フィードバック
認知フィードバック:眼球運動・脳波による大規模言語モデルの強化学習
○原田宥都, 大関洋平 (東大)
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/D7-2.pdf
認知ファインチューニング:眼球運動による大規模言語モデルのファインチューニング
染谷大河, ○大関洋平 (東大)
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/D7-5.pdf
「読みやすさ」自動採点など
・工学的性能と人間らしさの関係はトークン分割に依存する
○三輪敬太, 吉田遼, 大関洋平 (東大)
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/D7-6.pdf
人間らしさと,単語分割の長さの関係