みなみの備忘録

とあるライブラリアンの備忘録です。

6/18 ライセンス検討小委員会セッションメモ

6/18のライセンス検討セッション、何とか無事に終了しました。

セッション詳細 6月18日(月)|Japan Open Science Summit 2018(JOSS2018)

ご登壇いただいた皆様、参加していただいた皆様に大変感謝します。
当日のスライドや概要報告は追ってJOSSのサイトで公開される予定なので、ここでは個人的なメモ(というか反省と考察)を。

=====

セッションの趣旨としては、「研究者が」研究データの共有、公開を進めるために必要なガイドラインの策定。検討のcriteriaとしては、以下の3つを立てて登壇者に検討してもらい、会場も交えてディスカッションを行う、というもの。
近隣分野の登壇者から出たcriteriaへの回答としては、ざっくりまとめると

1.データ公開の可能性
→ (手法として)手順自体の標準化、公開状況(公開率)の共有、(アグリゲートサービスを前提とした)公開用データの作成

2.ルールの標準化
→ 約款で対応、政府標準利用規約+手引書の作成、ガイドライン作成(パブリックドメイン作品/メタデータ利用ガイドライン(Europeana))。

3.表記方法
→ CCライセンスに準ずる(Europeanaガイドラインに明示)。

というもの。
ディスカッションはかなり荒れ模様・・・司会の実力不足を痛感。申し訳ない。
出た意見としては、研究者間のオープン化に対する意識の差、(分野ごとの)用語の使い方に対する微妙なずれ、メタデータ基準、インセンティブ、法律 vs 慣習、ライセンスのコミュニティ、open by defaultとの関係、といったところ。
ただ、非常に様々な視点からのコメントがあり、検討材料が一気に増えたのも事実。取り急ぎ自分なりに整理、考察してみた(「研究データ」と大きく括りすぎ&数値データによりすぎ問題は一旦置いておいて)。

【研究データのフェーズごとの整理】
まず、今対象にする「研究データ」は、公開されておらず、「研究者の手元にある」データが中心。

  1. 作成当初のデータの取扱いについては民間データと同じ立ち位置で、(役に立つか分からないが)作成してみた段階なので、ここでの共有・公開は難しいしあまり意味もない(競合研究者にとっては意味があるが、共有・公開の視点ではなおのこと検討の余地がない)。
  2. 標準的な形で整理したりメタデータを付与したデータは使い勝手があがる。この段階のデータは共有、公開することによって活用が見込まれるが、この段階では研究者の業績の問題と衝突する。「共同研究の推進」、「公開による利活用促進の評価」という形で、貢献度を別の形で示す取り組みはあるものの、データ分析が研究者の主たる業務である以上この段階で強制力を働かせることは相当工夫がいる。単なる強制では、研究環境自体の崩壊につながりかねない。
  3. 論文の根拠データについては、既に政策、コミュニティの両面から強制力が働きつつある。この段階ではオープンデータやデジタルアーカイブの知見が非常に役立つ。事例の共有や見える化、ガイドラインの整備が有効だろう。

【公開に向けて】
・・・こうやってつらつらと書いてくると、3. 論文根拠データ以外の研究データは生貝先生の言う通り「open by default」の準備段階、というのがしっくりくる(そもそも公開できる=人に見せて意味が分かる程度になっていない、という観点でも)。
ただ、公開に向けて努力しなければならないという原則を踏まえれば、準備段階から公開段階へ移行するための仕掛けが論文以外に必要。良く使われる手法としては取得からの年限を区切って公開してしまう手法だが、管理者よりの手法であることは否めない。これのカウンターとして(研究者の自律性を尊重する手法として)インセンティブの議論が位置づけられる訳だが、妙な既得権になっては困るのでこれまた難しい。

【公開条件:研究者の視点から】
ここでやっと本題だが、では、公開に当たってどのような条件があると公開が進むのか。対象は2. 整理済みデータ、かつ未公開のものになり、上記でいうインセンティブの議論と密接に絡む。
データを中心に考え直すと、現状存在するインセンティブは「論文」による業績化。なので、とりあえず論文と同等の効果が認められればよいだろう、というのが一つの指標になる。ということで、引用だとか業績として認めるだとかいう議論が出てくるが、論文には「分析による考察」という知的労働が含まれるので、同業者として全く同じ業績とは認めづらいだろう。似通ったスタンスであるプレプリントとの兼ね合いやアンケート結果を見ても、「引用」が妥当な線か。

【公開条件:データ管理者の視点から】
博士論文(あるいは知財権)の手法に倣えば、論文発表に必要な程度の公開猶予期間をまず確保しつつ、延長を認める(あるいは出しても問題ない形に加工したデータの提出を認める)、という手法になるだろうか。延長にも限度を定めておく必要はあるものの、準備の程度に差があるデータを一律に公開フェーズへ動かすことが出来るのは有力な手段だろう。

【公開条件:市民の視点から】
データ取得に対して納税している、という視点をきちんと明確にするべきなので、オープンデータ的に「出せるものはすぐ出す、出せないなら理由を」ということになる。ただ、現状研究者の業績評価システムと見事に衝突しているので、研究者コミュニティ維持の観点からも一定程度のエンバーゴはやむを得ない、というところまでは理解が得られる(と勝手に推測)。既存の制度に倣えば、データのカタログ公開+データの公開請求(及び非公開事由の開示)制度の準備、カタログ内での延長理由の提示、あたりでフォローするところまでは容易にイメージできる。
補足として、データの保存範囲については保存コストを明示できると良さそう。この範囲までなら100万円、全部保存したら1000万円とか。データを出せる範囲、出せない範囲を納得してもらう、というのも公開の際に重要な視点。

※その意味でも、既に大分時間が経っている研究データ開示に対して、具体的な利活用のオファーがあると話が進みやすい気がするけれども。本当に使いたい人はいるのだろうか。。。

・・・単なる自分用のメモになってしまったものの、とりあえずアップします。
続きはまたそのうちに。