[B! dataset][NLP] Nyohoã®ãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯

Nyoho id:Nyoho

datasetã¨NLPã«é–¢ã™ã‚‹Nyohoã®ãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯ (3)

${{author_name}}$

{{{comment_expanded}}}

{{label}}

{{#is_bookmark}}ãƒªã‚¹ãƒˆ{{/is_bookmark}}{{^is_bookmark}}ãƒªãƒ³ã‚¯{{/is_bookmark}}

${{author_name}}$
{{author_name}}{{created}}
{{ #comment }}{{ comment }}{{ /comment }}
- {{ label }}

${{author_name}}$

{{{comment_expanded}}}

{{label}}

{{#is_bookmark}}ãƒªã‚¹ãƒˆ{{/is_bookmark}}{{^is_bookmark}}ãƒªãƒ³ã‚¯{{/is_bookmark}}

Thomas Wolf on Twitter: "Surviving every AI wave, two kernels have consistently been the beating hearts of Natural Language Processing: Datâ€¦ https://t.co/heOt3pzUOA"
Nyoho 2020/05/19
ã™ã”ã„

nlp

dataset
ãƒªãƒ³ã‚¯
CCMatrix: A billion-scale bitext dataset for training translation models
CCMatrix: A billion-scale bitext dataset for training translation models What it is:CCMatrix is the largest dataset of high-quality, web-based bitexts for training translation models. With more than 4.5 billion parallel sentences in 576 language pairs pulled from snapshots of the CommonCrawl public dataset, CCMatrix is more than 50 times larger than the WikiMatrix corpus that we shared last year.
Nyoho 2020/02/08
dataset

NLP
ãƒªãƒ³ã‚¯
æ—¥æœ¬å¤å…¸ç±ããšã—å—ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ
ãƒ©ã‚¤ã‚»ãƒ³ã‚¹ ã€Žæ—¥æœ¬å¤å…¸ç±ããšã—å—ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã€ï¼ˆå›½æ–‡å¦ç ”ç©¶è³‡æ–™é¤¨ã»ã‹æ‰€è”µï¼æƒ…å ±ãƒ»ã‚·ã‚¹ãƒ†ãƒ ç ”ç©¶æ©Ÿæ§‹ ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ã‚¹å…±åŒåˆ©ç”¨åŸºç›¤æ–½è¨ äººæ–‡å¦ã‚ªãƒ¼ãƒ—ãƒ³ãƒ‡ãƒ¼ã‚¿å…±åŒåˆ©ç”¨ã‚»ãƒ³ã‚¿ãƒ¼åŠ å·¥ï¼‰ã¯ã‚¯ãƒªã‚¨ã‚¤ãƒ†ã‚£ãƒ–ãƒ»ã‚³ãƒ¢ãƒ³ã‚º è¡¨ç¤º - ç¶™æ‰¿ 4.0 å›½éš› ãƒ©ã‚¤ã‚»ãƒ³ã‚¹ï¼ˆCC BY-SAï¼‰ã®ä¸‹ã«æä¾›ã•ã‚Œã¦ã„ã¾ã™ã€‚ ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆå…¨ä½“ã‚’ã”åˆ©ç”¨ã®éš›ã«ã¯ã€ä¾‹ãˆã°ä»¥ä¸‹ã®ã‚ˆã†ãªè¡¨ç¤ºã‚’ãŠé¡˜ã„ã—ã¾ã™ã€‚å€‹åˆ¥ã®å¤å…¸ç±ã®ã¿ã‚’ã”åˆ©ç”¨ã®å ´åˆã«ã¯ã€ãã‚Œãžã‚Œã®ãƒšãƒ¼ã‚¸ã‚’ã”è¦§ä¸‹ã•ã„ã€‚ ã€Žæ—¥æœ¬å¤å…¸ç±ããšã—å—ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã€ ï¼ˆå›½æ–‡ç ”ã»ã‹æ‰€è”µï¼CODHåŠ å·¥ï¼‰ doi:10.20676/00000340 å¯èƒ½ãªå ´åˆã¯ã€ãƒ‡ãƒ¼ã‚¿æä¾›å…ƒã§ã‚ã‚‹ROIS-DSäººæ–‡å¦ã‚ªãƒ¼ãƒ—ãƒ³ãƒ‡ãƒ¼ã‚¿å…±åŒåˆ©ç”¨ã‚»ãƒ³ã‚¿ãƒ¼ã¸ã®ãƒªãƒ³ã‚¯ã‚’ãŠé¡˜ã„ã—ã¾ã™ã€‚ æä¾›ï¼šROIS-DSäººæ–‡å¦ã‚ªãƒ¼ãƒ—ãƒ³ãƒ‡ãƒ¼ã‚¿å…±åŒåˆ©ç”¨ã‚»ãƒ³ã‚¿ãƒ¼ ãƒ‡ãƒ¼ã‚¿æä¾›æ–¹æ³•ãƒ»æ³¨æ„äº‹é … æ›¸ç±ã”ã¨ã«å—å½¢ã‚’ã¾ã¨ã‚ãŸZIPãƒ•ã‚¡ã‚¤ãƒ«ã€ãŠã‚ˆã³å…¨éƒ¨ã‚’ã¾ã¨ã‚ãŸZI
Nyoho 2019/11/14
nlp

æ—¥æœ¬èªž

dataset
ãƒªãƒ³ã‚¯
1

ãŠçŸ¥ã‚‰ã›

ã‚‚ã£ã¨èªã‚€

å…¬å¼Twitter

@hatebu
æœ€æ–°ã®äººæ°—ã‚¨ãƒ³ãƒˆãƒªãƒ¼ã®é…ä¿¡

ã‚ãƒ¼ãƒœãƒ¼ãƒ‰ã‚·ãƒ§ãƒ¼ãƒˆã‚«ãƒƒãƒˆä¸€è¦§

jæ¬¡ã®ãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯

kå‰ã®ãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯

lã‚ã¨ã§èªã‚€

eã‚³ãƒ¡ãƒ³ãƒˆä¸€è¦§ã‚’é–‹ã

oãƒšãƒ¼ã‚¸ã‚’é–‹ã

è¨å®šã‚’å¤‰æ›´ã—ã¾ã—ãŸx

ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯

ã‚¿ã‚°

é–¢é€£ã‚¿ã‚°ã§çµžã‚Šè¾¼ã‚€ (2)

datasetã¨NLPã«é–¢ã™ã‚‹Nyohoã®ãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯ (3)

ãŠçŸ¥ã‚‰ã›

ä»Šé€±ã®ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯æ•°ãƒ©ãƒ³ã‚ãƒ³ã‚°ï¼ˆ2026å¹´1æœˆç¬¬4é€±ï¼‰

ä»Šé€±ã®ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯æ•°ãƒ©ãƒ³ã‚ãƒ³ã‚°ï¼ˆ2026å¹´1æœˆç¬¬3é€±ï¼‰

ã€å®Œäº†ã€‘ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯ã®è¨ˆç”»ãƒ¡ãƒ³ãƒ†ãƒŠãƒ³ã‚¹ã®ãŠçŸ¥ã‚‰ã›ï¼ˆ2026å¹´1æœˆ23æ—¥(é‡‘) æ·±å¤œ1:30ã€œ3:00ï¼‰

å…¬å¼Twitter

ã‚ãƒ¼ãƒœãƒ¼ãƒ‰ã‚·ãƒ§ãƒ¼ãƒˆã‚«ãƒƒãƒˆä¸€è¦§

ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯

å…¬å¼Twitter

ã¯ã¦ãªã®ã‚µãƒ¼ãƒ“ã‚¹

ã‚¿ã‚°

é–¢é€£ã‚¿ã‚°ã§çµžã‚Šè¾¼ã‚€ (2)

datasetã¨NLPã«é–¢ã™ã‚‹Nyohoã®ãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯ (3)

Thomas Wolf on Twitter: "Surviving every AI wave, two kernels have consistently been the beating hearts of Natural Language Processing: Datâ€¦ https://t.co/heOt3pzUOA"

CCMatrix: A billion-scale bitext dataset for training translation models

æ—¥æœ¬å¤å…¸ç±ããšã—å­—ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ

ãŠçŸ¥ã‚‰ã›

ä»Šé€±ã®ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯æ•°ãƒ©ãƒ³ã‚­ãƒ³ã‚°ï¼ˆ2026å¹´1æœˆç¬¬4é€±ï¼‰

ä»Šé€±ã®ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯æ•°ãƒ©ãƒ³ã‚­ãƒ³ã‚°ï¼ˆ2026å¹´1æœˆç¬¬3é€±ï¼‰

ã€å®Œäº†ã€‘ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯ã®è¨ˆç”»ãƒ¡ãƒ³ãƒ†ãƒŠãƒ³ã‚¹ã®ãŠçŸ¥ã‚‰ã›ï¼ˆ2026å¹´1æœˆ23æ—¥(é‡‘) æ·±å¤œ1:30ã€œ3:00ï¼‰

å…¬å¼Twitter

ã‚­ãƒ¼ãƒœãƒ¼ãƒ‰ã‚·ãƒ§ãƒ¼ãƒˆã‚«ãƒƒãƒˆä¸€è¦§

ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯

å…¬å¼Twitter

ã¯ã¦ãªã®ã‚µãƒ¼ãƒ“ã‚¹

é–¢é€£ã‚¿ã‚°ã§çµžã‚Šè¾¼ã‚€ (2)

datasetã¨NLPã«é–¢ã™ã‚‹Nyohoã®ãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯ (3)

æ—¥æœ¬å¤å…¸ç±ããšã—å—ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆ

ãŠçŸ¥ã‚‰ã›

ä»Šé€±ã®ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯æ•°ãƒ©ãƒ³ã‚ãƒ³ã‚°ï¼ˆ2026å¹´1æœˆç¬¬4é€±ï¼‰

ä»Šé€±ã®ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯æ•°ãƒ©ãƒ³ã‚ãƒ³ã‚°ï¼ˆ2026å¹´1æœˆç¬¬3é€±ï¼‰

ã€å®Œäº†ã€‘ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯ã®è¨ˆç”»ãƒ¡ãƒ³ãƒ†ãƒŠãƒ³ã‚¹ã®ãŠçŸ¥ã‚‰ã›ï¼ˆ2026å¹´1æœˆ23æ—¥(é‡‘) æ·±å¤œ1:30ã€œ3:00ï¼‰

å…¬å¼Twitter

ã‚ãƒ¼ãƒœãƒ¼ãƒ‰ã‚·ãƒ§ãƒ¼ãƒˆã‚«ãƒƒãƒˆä¸€è¦§

ã¯ã¦ãªãƒ–ãƒƒã‚¯ãƒžãƒ¼ã‚¯

å…¬å¼Twitter

ã¯ã¦ãªã®ã‚µãƒ¼ãƒ“ã‚¹