Datasetの人気記事 130件 - はてなブックマーク

1 - 40 件 / 130件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Datasetの検索結果1 - 40 件 / 130件

Datasetに関するエントリは130件あります。データ、機械学習、オープンデータなどが関連タグです。人気エントリには『無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能　全国の町丁目レベル18万9540件の住所データを記録』などがあります。

無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能　全国の町丁目レベル18万9540件の住所データを記録
- 1448 users
- internet.watch.impress.co.jp
- テクノロジー
- 2020/08/20
- 地図
- データ
- あとで読む
- 住所
- データベース
- 不動産
- map
- 開発
- gis
- data
無料 BGM・効果音のフリー音源素材 | Springin’ Sound Stock
- 1039 users
- www.springin.org
- アニメとゲーム
- 2022/06/23
無料 BGM・効果音のフリー音源素材誰でも報告不要で商用利用無料！今すぐ使える BGM・効果音 1,000点以上！動画制作やイベントにもちろんスプリンギンアプリでも利用可
- 素材
- フリー素材
- 音楽
- あとで読む
- sound
- プログラミング
- 音源
- BGM
- フリー
- 無料
個人情報テストデータジェネレーター
- 833 users
- testdata.userlocal.jp
- テクノロジー
- 2021/09/14
アプリケーションのテストなどで利用できる、リアルな架空の個人情報データ（疑似データ）を生成するツールです。
- テスト
- あとで読む
- データ
- ツール
- webサービス
- generator
- tool
- test
- ジェネレータ
- data
PLATEAU [プラトー] | 国土交通省が主導する、日本全国の3D都市モデルの整備・オープンデータ化プロジェクト
- 832 users
- www.mlit.go.jp
- テクノロジー
- 2020/12/22
3D都市モデルが実装されることで、未来はどのような展望を見せるのか。インタビューやレポートを通じて、多角的な視点で3D都市モデル、そしてPLATEAUのさまざまな可能性を読み解きます。
- 地図
- 3D
- あとで読む
- map
- webサービス
- 行政
- データ
- 国土交通省
- GIS
- web

誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)
- 686 users
- dmv.nico
- テクノロジー
- 2020/09/14
著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。概要 Dwango Media Villageの廣芝です。誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。 (2022年5月 SeirenVoiceシリーズの製品化に伴いデモページは終了しました。) この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します。声の変換技術には、リアルタイム性と品質のトレードオフがあります。既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。品質を優先した声変換
- 音声合成
- あとで読む
- 機械学習
- 技術
- 音声
- 学習
- technology
- システム
- データ
- deeplearning
デジタル庁のデータ分析基盤「sukuna」｜デジタル庁
- 621 users
- digital-gov.note.jp
- テクノロジー
- 2023/06/27
はじめまして。デジタル庁ファクト＆データユニット所属、データエンジニアの長谷川です。本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。デジタル庁のデータ活用組織「ファクト＆データユニット」ファクト＆データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており（参考：デジタル庁 - 組織情報）、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。ファクト＆データユニットも
- データ
- あとで読む
- 統計
- GCP
- data
- 分析
- 行政
- cloud
- データ分析
- bigquery
Googleが大量の機械学習用データベースを無料公開してた - Qiita
- 593 users
- qiita.com/ulwlu
- テクノロジー
- 2021/08/31
個人用メモです。機械学習は素材集めがとても大変です。でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類使い方はExploreから画像セットを探し、ダウンロードするだけ。他の方法も見つけた open images dataset 「すごい神だな」と思ったのはこれもう完成されてますよねもちろんこの認識前の画像もセットでダウンロードできます。 Youtube-８Mとは、画像数を取るか、精度で取るか、という違いでしょうか。他にも良い素材集を教えていただきました（はてなブックマーク情報 @sek_165 さん）
- 機械学習
- あとで読む
- google
- データベース
- 学習
- 素材
- youtube
- 無料
- ML
- データセット
市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ
- 537 users
- www.m3tech.blog
- テクノロジー
- 2024/07/30
全国の市区町村の名前とコードをデータベーステーブル化したもの、すなわち市区町村マスタはITシステムを作っていれば何かしらの場面で必要になるものです。ではその市区町村マスタを作るための元データはどこから手に入れたらいいものか。そして「作る」というのもありますが、市区町村は再編されるものですから最新の変更にどう追従するか、しかもそれを自動化できるかというのも大いに気になるところですね。エムスリーエンジニアリンググループ三浦(@[email protected]) [記事一覧 ]です。 Unit1（製薬プロモーション）およびUnit9（治験臨床研究支援）のエンジニアです。今回は私も皆様とまったく同じように市区町村マスタのデータ源に悩んでいろいろ調べましたので、それで得た知見を共有させていただこうと思います。今回は代表的な3つのデータソースをご紹介し比較していきます。ほしいのはこんな感じのデ
- データ
- あとで読む
- db
- webサービス
- 行政
- 住所
- 日本
- 資料
- 地図
- 開発
無料で10万点以上のパリの美術作品がダウンロード可能に、商用利用・修正・再頒布もOK
- 534 users
- gigazine.net
- 学び
- 2020/01/10
パリ市立近代美術館などが収蔵する多数の美術品を所管する公共団体Paris Muséesが、10万点以上の美術コレクションの画像を無料かつ自由に利用・修正・再頒布可能なオープンコンテントとしてインターネットに公開しました。 Les collections en ligne des musées de la Ville de Paris http://parismuseescollections.paris.fr/fr Open content : plus de 100 000 œuvres des collections des musées de la Ville de Paris en libre accès | Paris Musées http://www.parismusees.paris.fr/fr/actualite/open-content-plus-de-100-000-
- 素材
- 美術
- ダウンロード
- あとで読む
- 無料
- 芸術
- art
- gigazine
- 画像
- 美術館
バンナム、約42万フレーム分のモーションデータ無償公開　歩行、格闘、ダンスなど　研究用に
- 532 users
- www.itmedia.co.jp
- テクノロジー
- 2022/04/28
ライセンスは「CC BY-NC-ND 4.0」で、利用の際にクレジットを表示すること、非営利でのみ利用すること、内容を改変しないことを求めている。バンダイナムコは、メタバースやXR技術が広まる中、コンテンツ規模が拡大すると従来のモーション制作過程では限界を迎えると予想。AIを活用したキャラクターのモーションを生成する研究を行っている。一方、AIによるモーション研究はデータセットの入手が難しいため研究開発が進んでいないとして、自社で使っているデータの一部を提供することにしたという。関連記事実在しない顔の画像3000点を無償配布、AI学習用データセットに　法人向け・商用利用可 AI活用のコンサルティング事業を手掛けるAPTOなど2社が、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。
- 3DCG
- あとで読む
- 素材
- 3D
- データ
- AI
- 研究
- 開発
- モーション
- game
APIキーもログインも不要！完全無料で使える天気予報API「Open-Meteo」を使ってみた！ - paiza times
- 408 users
- paiza.hatenablog.com
- テクノロジー
- 2021/11/04
どうも、まさとらん（@0310lan）です！今回は、誰でも無料で使える天気予報APIを提供してくれるWebサービスをご紹介します！面倒なユーザー登録やAPIキーの設定などが不要で、欲しい天気情報のパラメータを含めたURLを好きなように構成するだけで簡単にJavaScriptから制御できるのが特徴です。日本はもちろん、世界中の詳細な天気情報を取得できるのでご興味ある方はぜひ参考にしてみてください！【 Open-Meteo 】 ■「Open-Meteo」の使い方それでは、「Open-Meteo」をどのように使えばいいのか詳しく見ていきましょう！「Open-Meteo」が提供する天気予報APIを利用するにあたり、何か特別な登録や申請は必要ありません。もっと言えば、ユーザー登録も不要でAPIキーもありません。非営利プロジェクトであれば誰でも自由に使うことが可能で、以下のエンドポイント
- API
- あとで読む
- webサービス
- 天気
- 開発
- javascript
- プログラミング
- weather
- グラフ
- JSON
あなたがまだ使っていないかもしれないHTML5の便利機能10選 - Qiita
- 385 users
- qiita.com/kanye__east
- テクノロジー
- 2020/09/22
こんにちは、たかとーです🧑‍🎤 こちらは、10 useful HTML5 features, you may not be usingの翻訳記事になります。当記事は、Tapasさんの許可を得て翻訳しています。Tweet 10 useful HTML5 features, you may not be using HTML5は新しいものではありません。最初のリリース（2008年1月）以来いくつかの機能を使用してきました。100DaysOfCodeの取り組みの一環として、HTML5の機能リストをもう一度よく見てみました。何か見つけたかな？私は今のところあまり使っていません。この記事では、過去にあまり使ったことがなかったが、今では便利になったHTML5の機能を10個挙げています。また、Netlifyでホストされている、実際に動作する例を作成しました。参考になることを願っています。 htt
- html5
- html
- あとで読む
- web制作
- qiita
- css
- 便利
- javascript
- コンテンツ
- web
スマートニュース、国会議案データベースを無償公開　過去20年分をGitHubで
- 372 users
- www.itmedia.co.jp
- テクノロジー
- 2022/07/01
スマートニュースは7月1日、国会の過去20年分以上の議案データ約1万8000件を収集・整理し、オープンデータ化した国会議案のデータベースを、GitHubで無償公開（衆議院、参議院）した。GitHubを利用しない人向けに、閲覧用のWebページ（衆議院、参議院）も公開した。国会で審議された法案や予算案、条約、決議案といった議案は、衆参両議院のWebサイトに掲載されている。提出者や審議された委員会、賛成・反対した政党（衆院のみ）などの情報も確認できるが、国会の回次ごと、また議案ごとにページが分かれているため、集計や検索、一覧が難しかった。今回、同社の「メディア研究所」が、各議案のページに掲載されている情報を収集、整理し、CSVファイルとJSONファイル形式で公開。MITライセンスに準拠し、商用・非商用を問わずオープンデータとして誰でも無償で使えるようした。主に報道機関や研究者に、選挙報道や
- データベース
- あとで読む
- 政治
- github
- メディア
- 選挙
- データ
- web
- オープンデータ
- 国会
ダミーデータ作成のお供に！ VS Code 拡張機能「vscode-random」で人名やカラーコードなどを自動生成してもらおう！ | DevelopersIO
- 339 users
- dev.classmethod.jp
- テクノロジー
- 2020/10/15
はじめにダミーデータを作成しなければならないときってありますよね？テストデータやサンプル画面を作るときに値をどうするか困ったことありませんか？そういった悩みを VS Code で解決するための拡張機能が vscode-random です。 https://marketplace.visualstudio.com/items?itemName=jrebocho.vscode-random デモ（GitHub リポジトリより引用）拡張機能としてはカーソル位置にランダムな値を挿入するという単純なものなのですが、VS Code のマルチカーソル機能と組み合わせることで非常に強力な体験を得ることができます。名前やメールアドレスの項目がある JSON や YAML に対し、複数の項目にまとめて値を挿入して作り上げるのは気持ちいいこと間違いなし！対応コマンドコマンド説明生成例
- vscode
- あとで読む
- データ
- テスト
- コード
- dummy
- プログラミング
- 拡張
- ダミーデータ
- code
OCR処理プログラム及び学習用データセットの公開について | NDLラボ
- 309 users
- lab.ndl.go.jp
- テクノロジー
- 2022/04/25
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。リポジトリ : https://github.com/ndl-lab/
- OCR
- あとで読む
- github
- 勉強
- 学習
- 資料
- 機械学習
- 図書館
- python
- AI
Geolonia 住所データ
- 234 users
- geolonia.github.io
- テクノロジー
- 2020/08/05
Skip to the content. Geolonia 住所データ全国の町丁目、大字、小字レベルの住所データ（277,543件）をオープンデータとして公開いたします。本データは、国土交通省位置参照情報ダウンロードサービスで配布されている「大字・町丁目レベル位置参照情報」をベースとしていますが、「大字・町丁目レベル位置参照情報」データは年に一回更新であるのに対して、本リポジトリで配布するデータは毎月更新しています。 latest.csvをダウンロード latest.dbをダウンロードリリースノート住所データ仕様ファイルフォーマット latest.csv: CSV latest.db: SQLite3で読み込めるバイナリ形式列都道府県コード都道府県名都道府県名カナ都道府県名ローマ字市区町村コード市区町村名市区町村名カナ市区町村名ローマ字大字町丁目名大字町丁目
- GIS
- data
- データ
- opendata
- 地図
- development
- oss
- address
- webサービス
- geocoding
図書館オープンデータを使って図書館データポータルサイトを作りました - Qiita
- 223 users
- qiita.com/uedayou
- テクノロジー
- 2021/09/12
国立国会図書館では、さまざまなオープンデータが公開されています。その中に「図書館及び関連組織のための国際標準識別子（ISIL）」試行版LODがあります。これは、日本全国の図書館に関する情報が網羅的にまとめられているRDFデータとなります。提供されているデータはXMLファイルなので個別にデータを取得するためにはプログラムなどで処理する必要があるので、Webブラウザで各データを見やすく提供するWebサイト「図書館施設データポータル」を作成しました。ここでは、図書館施設データポータルを紹介します。図書館及び関連組織のための国際標準識別子（ISIL）」試行版LOD とは元データは、「図書館及び関連組織のための国際標準識別子（ISIL）」という図書館等につけられる国際的な識別子で、国立国会図書館では、このISILが付与される図書館の情報をオープンデータ(XMLファイルのRDFデータ)
rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化
- 188 users
- prtimes.jp
- テクノロジー
- 2021/04/07
rinna株式会社（本社：東京都渋谷区/代表取締役：ジャン“クリフ”チェン、以下rinna社）は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI＆リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています
- 自然言語処理
- あとで読む
- AI
- 機械学習
- GPT-2
- 開発
- 日本語
- 言語
- nlp
- 研究
Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
- 176 users
- hironsan.hatenablog.com
- テクノロジー
- 2020/09/26
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは？ Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。ページのフィルタリングペー
公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
- 128 users
- tech.mntsq.co.jp
- テクノロジー
- 2021/04/28
特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ
- database
- 企業
- あとで読む
- データ
- dictionary
- NLP
- 会社
- programming
- データベース
【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう！ | AI専門ニュースメディア AINOW
- 127 users
- ainow.ai
- テクノロジー
- 2020/03/02
最終更新日： 2020年3月4日 AIの高まりとともにデータの大切さが再認識される今、オープンにさまざまなデータが公開され、気軽に活用できるようになっています。オープンデータの存在は、膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要です。一方、オープンデータのみでは競合優位性のあるAIは構築できません。マクロなオープンデータと、独自に収集したミクロなデータを組み合わせて、独自のAIを構築していくことが重要です。オープンデータを活用したサービスを構築する際には、サービスのUX（ユーザー体験）を高め、いかにユニークなデータを取得できるかが勝負なのでオープンデータに頼りすぎないようにしましょう。今回、オープンデータ・データセットを6カテゴリに分類し、100個選出しました。自身のサービスやAIの構築に活かせそうなデータを
国土数値情報ダウンロードサイト
- 121 users
- nlftp.mlit.go.jp
- 学び
- 2020/09/24
All rights reserved. Copyright(c) National Land Information Division, National Spatial Planning and Regional Policy Bureau, MLIT of Japan
- opendata
- 統計
- データ
- あとで読む
- GIS
- QGIS
- ダウンロード
- 不動産
- 情報
日本語形態素解析器 MeCab を Python から利用する際の語彙データ（UniDic）が AWS 上で Open Data として公開されました | Amazon Web Services
- 102 users
- aws.amazon.com
- テクノロジー
- 2020/10/09
Amazon Web Services ブログ日本語形態素解析器 MeCab を Python から利用する際の語彙データ（UniDic）が AWS 上で Open Data として公開されました多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの
- aws
- mecab
- python
- 形態素解析
- 自然言語処理
- あとで読む
- nlp
- データ
GPT-3の学習データはどのように作られたか - moriyamaのエンジニアリング備忘録
- 100 users
- nmoriyama.hatenablog.com
- テクノロジー
- 2020/10/09
OpenAIが発表した言語モデルGPT-3はパフォーマンスの高さから各方面で注目されており、ついにはMicrosoftが学習済みモデルの利用を独占化しました。私個人の所感としてこれまで学習済みモデルは無料公開するという流れを無視し、（アーキテクチャではなく）学習済みモデルが商品化するのはAIビジネスの一つの転換期と感じています。深層学習による自然言語処理分野で巨大化していくモデルを十分に学習させるためにはWebデータの活用が大きな役割を果たしています。一方、その量に関する話題はあるものの、利用にあたっての細かな前処理に関する議論はあまりなされていない印象です。そこで本記事は学習データの構築にフォーカスします。 GPT-3の論文でも言及されている通り、学習データはGoogle Researchが発表したT5のデータを踏襲したと書かれていますので、まずはT5のデータから見て行きましょう。
- 機械学習
- GPT-3
- NLP
- あとで読む
- AI
- machineLearning
https://jp.techcrunch.com/2020/08/05/geolonia-retechjapan-open-data/
- 90 users
- jp.techcrunch.com
- テクノロジー
- 2020/08/05
- open data
- 不動産
- map
- 住所
- あとで読む
- 統計
- 地図
- データ
- Dataset
- japan
PyTorch／TensorFlow／Keras／scikit-learnライブラリ内蔵のデータセット一覧
- 84 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/07/22
PyTorch／TensorFlow／Keras／scikit-learnライブラリ内蔵のデータセット一覧：AI・機械学習のデータセット辞典機械学習やディープラーニング用の主要ライブラリが提供する「画像／音声／テキストなどのデータセット」の名前とリンクを表にまとめ、典型的な使い方を簡単に紹介する。連載目次本連載「AI・機械学習のデータセット辞典」では、ここまで主に、scikit-learnやKeras／TensorFlow（tf.keras）、TensorFlow Datasets、PyTorchといった主要なPythonライブラリに共通的に含まれる代表的なデータセットを紹介し、各ライブラリでの典型的な実装コード例を示してきた。しかし、これらの全ライブラリに共通的に含まれているデータセットはまれで非常に少ない。よってこれからは、個々のライブラリに1つしか含まれていないようなこまごまと
- データセット
- TensorFlow
- ライブラリ
- PyTorch
- 機械学習
- 学習
- あとで読む
- AI
- scikit-learn
- Keras
ReazonSpeech - Reazon Human Interaction Lab
- 74 users
- research.reazon.jp
- テクノロジー
- 2023/01/19
ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。
- AI
- speech
- 機械学習
- voice
- japanese
- 日本語
- 学習
- 音声認識
- api
Papers with Code - Machine Learning Datasets
- 66 users
- paperswithcode.com
- 学び
- 2021/02/03
CIFAR-10 (Canadian Institute for Advanced Research, 10 classes) The CIFAR-10 dataset (Canadian Institute for Advanced Research, 10 classes) is a subset of the Tiny Images dataset and consists of 60000 32x32 color images. The images are labelled with one of 10 mutually exclusive classes: airplane, automobile (but not truck or pickup truck), bird, cat, deer, dog, frog, horse, ship, and truck (but no
18～19世紀の新聞データ100万ページを英国企業が無償公開　商用利用は条件付きで可
- 65 users
- www.itmedia.co.jp
- 学び
- 2021/08/12
大英博物館と協力して古い新聞をデータ化し、サブスクリプション形式で提供している英Findmypast Newspaper Archiveは8月9日（現地時間）、18～19世紀に刊行された新聞約100万ページのデータを無償公開した。同社が許可すれば商用利用も可能という。非営利の場合は、著作権表示と参照元を明記すれば利用を認める。提供するのは、大英博物館が保存する1720～1880年にかけて刊行された150紙のデータ。新聞のタイトルは、ジャマイカの政治動向を報じる「Royal Gazette of Jamaica」、英国で初めてカラーイラストを採用した「Colored News」など。ユーザーはFindmypast Newspaper Archiveが提供するサブスクリプションサービス「The British Newspaper Archive」のアカウントを作成すれば閲覧できる。無償で閲
コロナ対策で政府がオープンデータに本腰　民間の支援情報をGoogleスプレッドシートで公開
- 65 users
- www.itmedia.co.jp
- テクノロジー
- 2020/03/10
新型コロナウイルス感染症の拡大を受け、政府や自治体によるオープンデータの公開や活用が活発化している。内閣官房と総務省、経済産業省は3月10日、民間が提供している新型コロナ対策支援サービスなどのデータを標準化して公開する「#民間支援情報ナビ」プロジェクトを、エンジニアの民間団体Code for Japanと共同で始めた。自宅学習用のオンライン教材無償提供など、民間の支援サービスをGoogleスプレッドシートに集約。誰でもアクセス・利用できる。このデータの活用例として、収録データを検索できるサイト「VS COVID-19 #民間支援情報ナビ」をCode for Japanが公開した。政府は、公開したデータを使ったさまざまなアプリ開発を奨励していく他、新型ウイルス対応に関する政府の事業者支援情報についても、検索しやすい情報サイトを作る予定だ。 #民間支援情報ナビは、標準のデータフォーマット
- opendata
- 行政
- あとで読む
- ITmedia
- dataset
- clip
- COVID-19
- 健康
GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ
- 61 users
- github.com/japan-opendata
- テクノロジー
- 2024/02/27
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- オープンデータ
- github
- 情報
- 資料
- API
- あとで読む
- 日本
3DDB Viewer の公開について | 研究チーム | 人工知能研究センター
- 60 users
- www.airc.aist.go.jp
- テクノロジー
- 2020/08/12
近年、社会活動や企業活動の一部として世界的に三次元データの利用が拡大しており、多種多様なデータを容易に検索/閲覧できるシステムが、データの提供者と利用者の双方から求められています。3DDB Viewer は、産総研の3Dデータベース用に開発された Web ユーザインタフェースで、様々な三次元データ（点群／メッシュ／構造物等）を検索／表示／ダウンロードすることができます。マニュアルはこちら。
無償入手可能な音声コーパス／音声データベースの一覧 - Qiita
- 59 users
- qiita.com/nakakq
- テクノロジー
- 2021/09/08
無償かつ入手しやすい音声データセットをメモしています。ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。コーパスを探すときに有用なサイトコーパス配布元サイト音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能緩いライセンスのコーパスでなくても良いときはここ自発的発話の日本語音声コーパスはだいたいここにある入手は要申請所属や責任者を記入する必要があるため、研究者や企業でないと厳しい？（この記事では音声資源コンソーシアムのコーパスは未掲載） Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス大量の日本語音声コーパスが配布されている音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情あなたにどうしても伝えたい30の音声コーパス
GitHub - llm-jp/awesome-japanese-llm: 日本語LLMまとめ - Overview of Japanese LLMs
- 53 users
- github.com/llm-jp
- テクノロジー
- 2023/07/16
[ English | Français | 日本語 ] 日本語LLM・海外LLMのパラメータ数の推移。日本語モデルの情報は本記事、海外モデルの情報は LifeArchitect.ai の Models table を参照しています（ただし、図のスペース上一部のモデルは省略。また、海外モデルのパラメータ数は推測値を含む）。修正・追加等ありましたらお知らせ下さい。この記事は、一般公開されている日本語LLM（日本語を中心に学習されたLLM）および日本語LLM評価ベンチマークに関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。 ::: warning 以下の点について、あらかじめご理解とご了承をお願いいたします本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また
- LLM
- 自然言語処理
- 日本語
- まとめ
- Japanese
- 人工知能
- 機械学習
- dataset
- github
アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト
- 51 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/08/05
アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト：AI・機械学習のデータセット辞典「300個以上のデータセットを紹介している大型サイト」「毎週／毎月のようにアクティブに更新されているサイト」という条件に該当するお勧めのデータセット一覧サイトとして「arXivTimes/DataSets」「Awesome Public Datasets」「UCI Machine Learning Repository」の3つを紹介する。
https://jp.techcrunch.com/2020/01/24/2020-01-23-googles-dataset-search-comes-out-of-beta/
- 43 users
- jp.techcrunch.com
- テクノロジー
- 2020/01/24
心理統計学の授業で教材に使えるオープンデータ集
- 42 users
- htsuda.net
- 学び
- 2020/01/22
はじめに統計学の講義や実習の際に使える心理系のデータセットをまとめました。アヤメの分類や経済統計もいいですが、やはり心理学に関連したデータを使う方が心理系の学生には興味をもって統計を学べると思います。ここには私が授業でよく使っているものをリストしました。他に良いものがあれば教えて下さい。 Open Stats Lab https://sites.trinity.edu/osl Psychological Science 誌に掲載された論文のデータが公開されています。データだけでなく、論文の概要や実習の手引きなども揃っています。回帰分析や因子分析など統計手法ごとに分類されているので、教材を選ぶ際にとても便利です。 datarium パッケージ https://rpkgs.datanovia.com/datarium/ R のパッケージです。パッケージをインストールすればすぐ使えるようになる
地図作成のための機械学習用データセット（ＧＳＩデータセット）
- 38 users
- gisstar.gsi.go.jp
- 暮らし
- 2022/12/09
概要ＧＳＩデータセット（愛称。正式名称は「CNNによる地物抽出用教師データセット」。以下、「本データセット」といいます）は、地上画素寸法20cm級の空中写真画像を対象として、画像内に写っている地物の範囲を、セマンティックセグメンテーションという手法で抽出する際に用いる機械学習用のデータセットです。道路や建物といった、多くの研究で取り組まれている主要な地物だけでなく、高塔や水制といったマイナーな地物や、広葉樹林や針葉樹林などの自然植生、水田や畑などの既耕地も対象としています。本データセットは、国土地理院の特別研究「ＡＩを活用した地物自動抽出に関する研究（平成30年度～令和４年度）」の研究成果として作成されたものです。このデータセットを使って学習させたモデルによる地物抽出性能が一定以上（抽出性能の評価に用いられる一般的な指標の一つであるＦ値という値が0.600以上となったもの。：当初はＦ≧
Open Images Dataset：Googleによる膨大な画像データセット
- 36 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/11/11
データセット「Open Images Dataset」について説明。物体検知用の境界ボックスや、セグメンテーション用のマスク、視覚的な関係性、Localized Narrativesといったアノテーションが施された、約900万枚と非常に膨大な数の画像データセット。その概要と使い方を紹介する。
- オープンデータ
- Google
- あとで読む
- 機械学習
- dataset
- AI
- tech
LLM のデータセットまとめ｜npaka
- 35 users
- note.com/npaka
- テクノロジー
- 2023/04/03
LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・llm-jp-corpus-v2 (ja) ・llm-jp-corpus-v2 ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・youlery (ja) ・ce-lery/mistral-3b-dataset ・ayousanz/OSCOR-2301-ja-cleaned ・ayousanz/c4-ja-cleaned ・Common Crawl (multilingual) ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh)