5ch(æ—§2ch)ã§ã¯ã“ã“æ•°å¹´ã¯Twitterã‚’ä½¿ç”¨ã™ã‚‹ã‚ˆã†ã«ãªã£ã¦ã—ã¾ã„ã¾ã—ãŸãŒã€ãƒãƒƒãƒˆã®ãƒŸãƒ¼ãƒ ã®ç™ºä¿¡åœ°ç‚¹ã§ã‚ã£ã¦ã€æ§˜ã€…ãªã‚¹ãƒ©ãƒ³ã‚°ã‚’ç”Ÿã¿ã€æ§˜ã€…ãªæ–‡åŒ–ã‚’ä½œã£ã¦ããŸã¨æ€ã„ã¾ã™ã€‚

å¦ç”Ÿæ™‚ä»£ã€2chã¾ã¨ã‚ã¨ã‹è¦‹ã¦ã„ãŸã®ã§ã€å½±éŸ¿ã‚’å—ã‘ã¦ããŸãƒãƒƒãƒˆæ–‡åŒ–ã§ã€æ„Ÿè¦šå€¤ã‹ã‚‰ã™ã‚‹ã¨ã€ã©ã†ã«ã‚‚æµè¡Œã‚Šå»ƒã‚ŠãŒã‚ã‚‹ã‚ˆã†ã§ã™ã€‚

5chã®éŽåŽ»ãƒã‚°ã‚’éŽåŽ»18å¹´ã»ã©ã•ã‹ã®ã¼ã£ã¦å–å¾—ã™ã‚‹æ–¹æ³•ã¨ã€æ‡ã‹ã—ã„ãƒãƒƒãƒˆã‚¹ãƒ©ãƒ³ã‚°ã®ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã«å ã‚ã‚‹å‡ºç¾å…·åˆã‚’æ™‚ç³»åˆ—ã§ã‚«ã‚¦ãƒ³ãƒˆã™ã‚‹ã“ã¨ã§ã€æ™‚ä»£ã®å¤‰é·ã§ã©ã®ã‚ˆã†ã«ä½¿ç”¨ã®æ–¹æ³•ãŒå¤‰åŒ–ã—ãŸã®ã‹è¦³æ¸¬ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

æ–‡æœ«ã«ã€Œorzã€ã£ã¦ä»˜ã‘ãŸã‚‰è‹¥ã„äººã‹ã‚‰ã€Œorzã£ã¦ãªã‚“ã§ã™ã‹ï¼Ÿã€ã¨èžã‹ã‚Œã¦å¿ƒèº«å…±ã«orzã¿ãŸã„ã«ãªã£ã¦ã‚‹
— ã°ã‚“ãã— (@vaaaaanquish) October 19, 2018

å›³1. ä»Šå›žé›†è¨ˆã—ãŸorzã®çµæžœ

ä¾‹ãˆã°ã€ä»Šå›žé›†è¨ˆã—ãŸ5chã®æ›¸ãè¾¼ã¿500GByteç¨‹åº¦ã®ãƒã‚°ã‹ã‚‰ã§ã¯ã€orzã¨ã„ã†ãƒãƒƒãƒˆã‚¹ãƒ©ãƒ³ã‚°ã¯ã€2005å¹´ã‚’ãƒ”ãƒ¼ã‚¯ã«æ›¸ãè¾¼ã¿ã®ä¸ã§å‡ºã¦ãã‚‹é »åº¦ãŒã©ã‚“ã©ã‚“ä¸‹ãŒã£ã¦ã„ã¾ã™ã€‚
orzã¨ã„ã†è¡¨ç¾ã¯ã€è‹¥ã„äººãŒçŸ¥ã‚‰ãªã„ã®ã‚‚ã€ã¾ãã—ã‚‡ã†ãŒãªã„ã€ã¨ã„ã£ãŸæ„Ÿã˜ã®ãƒãƒƒãƒˆã‚¹ãƒ©ãƒ³ã‚°ã®ã‚ˆã†ã§ã™ã€‚

5chã®éŽåŽ»ãƒã‚°ã‚’ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°ã™ã‚‹ã«ã¯

å‰ã€…ã‹ã‚‰5chã®ã‚³ãƒ¼ãƒ‘ã‚¹ã¯æ¬²ã—ã‹ã£ãŸã®ã§ã™ãŒã€ã©ã“ã‹ã‚‰ã€ã©ã†ã‚„ã£ã¦å–å¾—ã™ã‚Œã°ã„ã„ã®ã‹ã‚ã‹ã‚‰ãªã‹ã£ãŸã®ã§ã™ãŒã€ãªã‚“ã¨ã‹Python3 + requests + BeautifulSoupã®çµ„ã¿åˆã‚ã›ã§ç¢ºç«‹ã—ãŸæ–¹æ³•ãŒã‚ã‚‹ã®ã§ã”ç´¹ä»‹ã—ã¾ã™ã€‚

å¹…å„ªæŽ¢ç´¢ã«ã‚ˆã‚‹éŽåŽ»ãƒã‚°ã®ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°

URLåŒå£«ã®ãƒªãƒ³ã‚¯ã°ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯æ§‹é€ ã«ãªã‚Šã¾ã™ã€‚
ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°ã™ã‚‹éš›ã®æˆ¦ç•¥ã¨ã—ã¦ã€ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã‚’ã©ã†ãŸã©ã‚‹ã‹ã€ã¨ã„ã†å•é¡Œã§ã€å¹…å„ªå…ˆæŽ¢ç´¢ã‚’è¡Œã„ã¾ã—ãŸã€‚
2chã®éŽåŽ»ãƒã‚°ã‹ã‚‰è¾¿ã‚Œã‚‹ãƒã‚°ã¯å¹³é¢çš„ã«å¤§é‡ã®ãƒªãƒ³ã‚¯ã‚’2~3å›žãŸã©ã‚Œã°ç›®çš„ã®ãƒ‡ãƒ¼ã‚¿ã«ã‚¢ã‚¯ã‚»ã‚¹ã§ãã‚‹æ§‹é€ ã§å¹…å„ªå…ˆæŽ¢ç´¢ã«é©ã—ã¦ã„ãŸã‹ã‚‰ã¨ã„ã†ç†ç”±ã§ã™ã€‚

å›³2. ãƒ‰ã‚¤ãƒ„ã®ãƒ•ãƒ©ãƒ³ã‚¯ãƒ•ãƒ«ãƒˆã‹ã‚‰ã®è·¯ç·šå›³ã§å¹…å„ªå…ˆæŽ¢ç´¢ã‚’ã—ãŸå ´åˆ(Wikipedia)

èµ·ç‚¹ã¨ãªã‚‹ä¸€ç‚¹ã‚’æ±ºã‚ã‚‹

ã‹ãã¦ã‹ã‚‰2chã®å…¨ãƒã‚°å–å¾—ã¯å¤¢ã§ã—ãŸãŒã€æ§˜ã€…ãªæ–¹æ³•ã‚’æ¤œè¨Žã—ã¾ã—ãŸãŒã€ãƒã‚°ãŒä¿å˜ã•ã‚Œã¦ã„ã‚‹URLã®ä¸€è¦§ãŒå˜åœ¨ã—ãªã„ã¨ã„ã†ã“ã¨ã§è«¦ã‚ã¦ã„ãŸã®ã§ã™ãŒã€ã¤ã„ã«ç™ºè¦‹ã™ã‚‹ã«è‡³ã‚Šã¾ã—ãŸã€‚
ä»¥ä¸‹ã®URLã‹ã‚‰ã‚¢ã‚¯ã‚»ã‚¹ã™ã‚‹ã“ã¨ãŒã§ãã€å¤šãã®ã‚¹ãƒ¬ã®éŽåŽ»ãƒã‚°ã‚µãƒ¼ãƒã‚’å‚ç…§ã—ã¦ã„ã¾ã™ã€‚
ãã®ãŸã‚ã“ã“ã‹ã‚‰ã‚¢ã‚¯ã‚»ã‚¹ã™ã‚‹ã“ã¨ã§2chã®éŽåŽ»ãƒã‚°ã‚’ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

 http://lavender.5ch.net/kakolog_servers.html

ãƒ¬ã‚¬ã‚·ãƒ¼ãªhtmlãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆã«å¯¾å¿œã™ã‚‹

Pythonã®htmlãƒ‘ãƒ¼ã‚µãƒ¼ã‚’å‰æã«è©±ã—ã¾ã™ãŒã€æ—§2chã®HTMLã¯æ£ã—ã„HTMLã¨ã„ã†ã‚ã‘ã§ãªã„ã‚ˆã†ã§ã™ã€‚
tableã‚¿ã‚°ã‚’å¤šç”¨ã™ã‚‹ãƒ‡ã‚¶ã‚¤ãƒ³ãŒ2017å¹´åº¦åŠã°ã¾ã§ä¸»æµã ã£ãŸã‚ˆã†ã§ã€ã“ã®ã¨ãã®ã‚¿ã‚°ã«é–‰ã˜ã‚‹ã®å¯¾å¿œãªãã€lxml, html.parserãªã©ã‚’ä½¿ã†ã¨å¤±æ•—ã—ã¾ã™ã€‚
ãã®ãŸã‚ã€ä¸€éƒ¨ã®å£Šã‚ŒãŸhtmlã§ã‚‚ãƒ‘ãƒ¼ã‚¹ã§ãã‚‹ã‚ˆã†ã«html5libãƒ‘ãƒ¼ã‚µãƒ¼ã‚’åˆ©ç”¨ã—ã¦ãƒ‘ãƒ¼ã‚¹ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™[1]

ã€€ã“ã®å•é¡Œã¯ã€BeautifulSoupã®ãƒ‘ãƒ¼ã‚µã‚’ä»¥ä¸‹ã®ã‚ˆã†ã«html5libã«è¨å®šã™ã‚Œã°è§£æ±ºã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

soup = bs4.BeautifulSoup(html, 'html5lib')

ä¸¦åˆ—ã‚¢ã‚¯ã‚»ã‚¹ã‚’è¡Œã†

2chã®éŽåŽ»ãƒã‚°ã¯ã€ä¸€ã¤ä¸€ã¤ã®ã‚µãƒ¼ãƒã«åå‰ãŒã¤ã„ã¦ã„ã¦ã€å„ã‚µãƒ¼ãƒãŒç•°ãªã£ãŸã‚µãƒ–ãƒ‰ãƒ¡ã‚¤ãƒ³ã‚’æŒã£ã¦ã„ã¾ã™ã€‚
ãã®ãŸã‚ã€ç•°ãªã£ãŸå®Ÿã‚µãƒ¼ãƒã‚’ã‚‚ã£ã¦ã„ã‚‹ã¨è€ƒãˆã‚‰ã‚Œã‚‹ã®ã§ã€ã‚µãƒ¼ãƒã”ã¨ã«ã‚¢ã‚¯ã‚»ã‚¹ã‚’ä¸¦åˆ—åŒ–ã™ã‚‹ã“ã¨ã§é«˜é€ŸåŒ–ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚åŠ ãˆã¦ã€ã‚‚ã¨ã‚‚ã¨Pythonã®requestsã¨BeautifulSoupã‚’ä½¿ã£ãŸhtmlè§£æžãŒé‡ã„ä½œæ¥ãªã®ã§ã€ãƒžãƒ«ãƒã‚³ã‚¢ãƒªã‚½ãƒ¼ã‚¹ã‚’æœ€å¤§é™åˆ©ç”¨ã—ã¦ã€ä¸¦åˆ—ã‚¢ã‚¯ã‚»ã‚¹ã™ã‚‹æ„ç¾©ãŒã‚ã‚Šã¾ã™ã€‚

é›†è¨ˆã™ã‚‹ãƒãƒƒãƒˆã‚¹ãƒ©ãƒ³ã‚°ã®é¸å®š

ä¸€èˆ¬çš„ãªãƒãƒƒãƒˆã‚¹ãƒ©ãƒ³ã‚°ã¯æ™‚ä»£ã®å¤‰é·ã®å½±éŸ¿ã‚’å—ã‘ã‚‹ã¨ã„ã†æ„Ÿè¦šå€¤ãŒã‚ã‚Šã¾ã—ãŸã€‚

å…·ä½“çš„ã«ã¯ã€ãã®æ—¥ã«ãŠã‘ã‚‹å˜èªžã®é »åº¦ãŒäººæ°—ãŒã‚ã‚‹ã¨é«˜ããªã‚Šã€ä½Žããªã‚‹ã¨ä¸‹ãŒã£ã¦ã„ãã¨ã„ã†æ„Ÿè¦šå€¤ãŒã‚ã‚Šã€æ™‚ç³»åˆ—ã«ã—ãŸã¨ãã€äººæ°—ã®ç™ºç”Ÿã‹ã‚‰ã€ä½¿ã‚ã‚Œãªããªã‚‹ã¾ã§ãŒè¦³æ¸¬ã§ãã‚‹ã®ã§ã¯ãªã„ã‹ã¨æ€ã„ã€é›†è¨ˆã—ã¾ã—ãŸã€‚

éŽåŽ»ã€ï¼’ï¼å¹´é–“ã«å˜åœ¨ã—ã¦ããŸæ§˜ã€…ãªãƒãƒƒãƒˆã‚¹ãƒ©ãƒ³ã‚°ã«ã¤ã„ã¦ã€æ§˜ã€…ãªã¾ã¨ã‚[2]ãŒã‚ã‚Šã€ã¿ã¦ã„ã‚‹ã¨ã¨ã¦ã‚‚æ‡ã‹ã—ããªã‚Šã¾ã™ã€‚

è¨˜æ†¶ã«å¼·ãæ®‹ã£ã¦ã„ãŸã‚Šã€é•å’Œæ„ŸãŒã‚ã£ãŸã‚Šã€ä»Šã§ã‚‚ä½¿ã‚ã¦ã„ã‚‹ã®ã ã‚ã†ã‹ï¼Ÿæœ€è¿‘è¦‹ã¦ã„ãªã„ãŒã©ã®ç¨‹åº¦æ¸›ã£ãŸã®ã‹?ã€ã¨ã„ã†è¦–ç‚¹ã§é¸ã‚“ã å˜èªžãŒã“ã‚Œã‚‰ã«ãªã‚Šã¾ã™ã€‚

ï¼ˆä¸‹è¨˜ã«è¨˜ã—ãŸGitHubã®é›†è¨ˆã‚³ãƒ¼ãƒ‰ã‚’å¤‰æ›´ã™ã‚‹ã“ã¨ã«ã‚ˆã£ã¦ã€ä»»æ„ã®ã‚ãƒ¼ãƒ¯ãƒ¼ãƒ‰ã§å†é›†è¨ˆã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€ã‚ˆã‚ã—ã‹ã£ãŸã‚‰ã‚„ã£ã¦ã¿ã¦ãã ã•ã„ï¼‰

orz
å°Šå¸«
é¦™å…·å¸«
ç¬‘(æ–‡æœ«)
åˆéŸ³ãƒŸã‚¯
çµæœˆã‚†ã‹ã‚Š
ã‚³ãƒ¼ãƒ‰ã‚®ã‚¢ã‚¹
hshs
iphone
ã†ï½
è‡ªå®…è¦å‚™å“¡
ãƒ¯ãƒ³ãƒãƒ£ãƒ³
ã‚¹ãƒ†ãƒž
æƒ…å¼±
ãƒãƒ©è£
ä»ŠåŒ—ç”£æ¥
ç¦¿åŒ
w(æ–‡æœ«)
ãƒ¡ã‚·ã‚¦ãƒž
ã¾ã©ãƒžã‚®
ã‚½ã‚·ãƒ£ã‚²
ã‚¸ãƒ¯ã‚‹
ãƒŠãƒžãƒ
(ry
ggrks
ã‚ªãƒ¯ã‚³ãƒ³

ã“ã®è¨ˆç®—ã¯ã€ä¸‹è¨˜ã®GitHubã®examples/time_term_freq.pyã§è¡Œã†ã“ã¨ãŒã§ãã¦ã€ãƒ—ãƒã‚°ãƒ©ãƒ ã‚’å¤‰ãˆã‚‹ã“ã¨ã§é›†ã‚ã‚‹å˜èªžã‚’å¤‰æ›´ã™ã‚‹ã“ã¨ãŒã§ãã€å†é›†è¨ˆã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

htmlã‚’jsonlåŒ–ã™ã‚‹

ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°ã—ãŸhtmlã‚’ã‚¹ãƒ¬ã®å†…å®¹ã‚’å–ã‚Šå‡ºã—ã€jsonl(ä¸€è¡Œã«ä¸€ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®json)ã«ã—ã¦ãŠãã¨ã„ã‚ã„ã‚ã¨é›†è¨ˆãŒéƒ½åˆãŒã‚ˆã„ã§ã™ã€‚
scan_items.pyã¨ã„ã†ãƒ—ãƒã‚°ãƒ©ãƒ ã§ãƒ‘ãƒ¼ã‚¹ã§ãã‚‹ã®ã§ã€å‚è€ƒã«ã—ã¦ãã ã•ã„ã€‚

$ python3 scan_items.py

çµæžœ

examples/time_term_freq.pyã‚’å®Ÿè¡Œã™ã‚‹ã“ã¨ã§å¾—ã‚‰ã‚Œã¾ã™ã€‚

ä»®èª¬ã©ãŠã‚Šã€ãƒãƒƒãƒˆã‚¹ãƒ©ãƒ³ã‚°ã¯æµè¡Œã‚Šå»ƒã‚ŠãŒã‚ã‚Šã€ä»Šã¯æ®†ã©ä½¿ã‚ã‚Œãªããªã£ãŸã‚‚ã®ãŒã©ã®æ™‚æœŸã‹ã‚‰æ¶ˆãˆã¦ã„ã£ãŸã®ã‹è¦–è¦šåŒ–ã•ã‚Œã¾ã—ãŸã€‚

ã¾ãŸã€æ–‡æœ«ã«wã‚’ã¤ã‘ã‚‹ãªã©ã®è‰ã‚’ç”Ÿã‚„ã™è¡¨ç¾ã¯ä»Šã‚‚å¼·ããªã‚Šã¤ã¥ã‘ã¦ãŠã‚Šã€ã—ã°ã‚‰ãä½¿ã£ã¦ã‚‚è€å®³æ‰±ã„ã•ã‚Œãªã„ã§ã—ã‚‡ã†(å®‰å¿ƒ)ã€‚

æ„Ÿè¦šå€¤ã¨å®Ÿéš›ã«ãƒ‡ãƒ¼ã‚¿ã§è¡¨ã•ã‚Œã‚‹ãƒãƒƒãƒˆã‚¹ãƒ©ãƒ³ã‚°è¡¨ç¾ã®éš”ãŸã‚ŠãŒæ˜Žã‚‰ã‹ã«ã•ã‚Œã€ç™ºç¥¥ã‚„æ™‚ä»£æ„ŸãŒä¸æ˜Žç¢ºã§ã‚ã£ãŸã‚Šã—ãŸã‚‚ã®ãŒæ•´ç†ã•ã‚Œã€ç™ºè¦‹çš„ãªé›†è¨ˆã¨ãªã‚Šã¾ã—ãŸã€‚

ã«ã»ã‚“ã”ã®ã‚Œã‚“ã—ã‚…ã†

æ—¥æœ¬èªžã¨ã—ã¦ä¼ãˆã‚‹ãŸã‚ã®è¨“ç·´ã‚’å…¼ããŸãƒ†ã‚¯ãƒã‚°

5ch(æ—§2ch)ã‚’ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°ã—ã¦ã€éŽåŽ»æµè¡Œã£ãŸãƒãƒƒãƒˆã‚¹ãƒ©ãƒ³ã‚°ã®ä»Šã‚’çŸ¥ã‚‹

5chã®éŽåŽ»ãƒã‚°ã‚’ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°ã™ã‚‹ã«ã¯

å¹…å„ªæŽ¢ç´¢ã«ã‚ˆã‚‹éŽåŽ»ãƒã‚°ã®ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°

èµ·ç‚¹ã¨ãªã‚‹ä¸€ç‚¹ã‚’æ±ºã‚ã‚‹

ãƒ¬ã‚¬ã‚·ãƒ¼ãªhtmlãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆã«å¯¾å¿œã™ã‚‹

ä¸¦åˆ—ã‚¢ã‚¯ã‚»ã‚¹ã‚’è¡Œã†

é›†è¨ˆã™ã‚‹ãƒãƒƒãƒˆã‚¹ãƒ©ãƒ³ã‚°ã®é¸å®š

htmlã‚’jsonlåŒ–ã™ã‚‹

çµæžœ

ã‚³ãƒ¼ãƒ‰

å‚è€ƒ

5chã®éŽåŽ»ãƒ­ã‚°ã‚’ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°ã™ã‚‹ã«ã¯

å¹…å„ªæŽ¢ç´¢ã«ã‚ˆã‚‹éŽåŽ»ãƒ­ã‚°ã®ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°

èµ·ç‚¹ã¨ãªã‚‹ä¸€ç‚¹ã‚’æ±ºã‚ã‚‹

ãƒ¬ã‚¬ã‚·ãƒ¼ãªhtmlãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆã«å¯¾å¿œã™ã‚‹

ä¸¦åˆ—ã‚¢ã‚¯ã‚»ã‚¹ã‚’è¡Œã†

é›†è¨ˆã™ã‚‹ãƒãƒƒãƒˆã‚¹ãƒ©ãƒ³ã‚°ã®é¸å®š

htmlã‚’jsonlåŒ–ã™ã‚‹

çµæžœ

ã‚³ãƒ¼ãƒ‰

å‚è€ƒ

5chã®éŽåŽ»ãƒã‚°ã‚’ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°ã™ã‚‹ã«ã¯

å¹…å„ªæŽ¢ç´¢ã«ã‚ˆã‚‹éŽåŽ»ãƒã‚°ã®ã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°

èµ·ç‚¹ã¨ãªã‚‹ä¸€ç‚¹ã‚’æ±ºã‚ã‚‹

ãƒ¬ã‚¬ã‚·ãƒ¼ãªhtmlãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆã«å¯¾å¿œã™ã‚‹

ä¸¦åˆ—ã‚¢ã‚¯ã‚»ã‚¹ã‚’è¡Œã†

é›†è¨ˆã™ã‚‹ãƒãƒƒãƒˆã‚¹ãƒ©ãƒ³ã‚°ã®é¸å®š

htmlã‚’jsonlåŒ–ã™ã‚‹

çµæžœ

å‚è€ƒ