HadoopStreaming ã§ xml ãƒ•ã‚¡ã‚¤ãƒ«ã‚’å‡¦ç†ã™ã‚‹

HadoopStreaming ã§ xml ãƒ•ã‚¡ã‚¤ãƒ«ã‚’æ‰±ã†æ–¹æ³•ã®è§£èª¬ã§ã™ï¼Ž
ã“ã®è¨˜äº‹ã§ã¯ï¼Œã—ã‚ã‹ã„ï¼ã®RSSãƒ•ã‚£ãƒ¼ãƒ‰ã‹ã‚‰ <title>~</title> ã‚’æŠ½å‡ºã™ã‚‹ã“ã¨ã‚’ç›®æ¨™ã¨ã—ã¾ã™ï¼Ž
ã¾ãŸï¼Œè¨€èªžã¯ Python ã‚’ä½¿ç”¨ã—ã¾ã™ï¼Ž

å®Ÿè£…ã«ã‚ãŸã£ã¦ã¯ä»¥ä¸‹ã®è¨˜äº‹ã‚’å‚è€ƒã«ã—ã¾ã—ãŸï¼ˆè‹±èªžã§ã™ï¼‰ï¼Ž
http://davidvhill.com/article/processing-xml-with-hadoop-streaming

RSSãƒ•ã‚£ãƒ¼ãƒ‰ã‚’å–å¾—ã—ã¦HDFSã«è»¢é€

$ wget http://shirokai.hatenablog.com/feed -O feed.xml
$ hadoop fs -put feed.xml

mapper.py

<entry>~</entry> é–“ã‚’ã¾ã¨ã‚ãŸå¾Œï¼Œxml ã‚’ãƒ‘ãƒ¼ã‚¹ã—ã¦ <title>~</title> ã‚’å‡ºåŠ›ã—ã¾ã™ï¼Ž

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import cStringIO
import xml.etree.ElementTree as xml

# <entry>~</entry>ã®æ–‡å—åˆ—ã‚’ä¿æŒã™ã‚‹ãƒãƒƒãƒ•ã‚¡
buff = None
# <entry>~</entry>é–“ã‚’å‡¦ç†ä¸ãªã‚‰True
intext = False

for line in sys.stdin:
    line = line.strip()

    # <entry>ã®é–‹å§‹ï¼Žbuffã«æ›¸ãè¾¼ã‚ã‚‹çŠ¶æ…‹ã«ã™ã‚‹ï¼Ž
    if '<entry>' in line:
        buff = cStringIO.StringIO()
        intext = True

    # <entry>~</entry>é–“ï¼Žbuffã«æ›¸ãè¾¼ã¿ï¼Ž
    if intext:
        buff.write(line)

    # </entry>ï¼Žxmlãƒ‘ãƒ¼ã‚¹ã—ã¦<title>~</title>ã‚’å‡ºåŠ›ï¼Œbuffã¯è§£æ”¾ï¼Ž
    if '</entry>' in line:
        root = xml.fromstring(buff.getvalue())
        print root.find('title').text.encode('utf-8')
        buff.close()
        buff = None
        intext = False

reducer.py

Mapperã®å‡ºåŠ›ã‚’ãã®ã¾ã¾å‡ºåŠ›ã™ã‚‹ã ã‘ã§ã™ï¼Ž

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys

for line in sys.stdin:
    print line.strip()

HadoopStreaming ã®å®Ÿè¡Œ

$ hadoop jar hadoop-streaming-***.jar -mapper mapper.py -reducer reducer.py -file mapper.py reducer.py -input feed.xml -inputreader "StreamXmlRecordReader,begin=<entry>,end=</entry>" -output feed.out

â€» *** ã«ã¯ä½¿ç”¨ã™ã‚‹ãƒãƒ¼ã‚¸ãƒ§ãƒ³ãŒå…¥ã‚Šã¾ã™ï¼Ž

-inputreader ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã§ï¼ŒMapper ã¸ã®å…¥åŠ›å½¢å¼ã‚’æŒ‡å®šã§ãã¾ã™ï¼Ž
å…¥åŠ›ã‚’ xml ã«ã™ã‚‹ã«ã¯ StreamXmlRecordReader,begin=<entry>,end=</entry> ã‚’æŒ‡å®šã—ã¾ã™ï¼Žã“ã‚Œã§ï¼Œxml ã®<entry>~</entry>é–“ã‚’1ã¤ã®ã‹ãŸã¾ã‚Šã¨ã—ã¦åŒä¸€ã® Mapper ã§å‡¦ç†ã•ã‚Œã‚‹ã‚ˆã†ã«ãªã‚Šã¾ã™*1ï¼Ž

çµæžœã‚’ç¢ºèª

$ hadoop fs -cat "feed.out/*"
ã€Macã€‘ã€ŒGet Plain Textã€ã§Evernoteã¸ã®ã‚³ãƒ”ãƒšãŒæ—ã‚‹ï¼
Rails Tutorial å…¨éƒ¨èªã‚“ã ã®ã§æ„Ÿæƒ³ã¨ã‹ã¾ã¨ã‚ã¨ã‹
LIBLINEARã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’ã‚°ãƒªãƒƒãƒ‰ã‚µãƒ¼ãƒã™ã‚‹ã‚¹ã‚¯ãƒªãƒ—ãƒˆæ›¸ã„ãŸ
... ä»¥ä¸‹ç•¥ ...

ã¡ã‚ƒã‚“ã¨ <title>~</title> ã‚’å–ã‚Šå‡ºã›ã¾ã—ãŸï¼

ã¾ã¨ã‚

HadoopStreaming ã§ xml ãƒ•ã‚¡ã‚¤ãƒ«ã‚’æ‰±ã†æ–¹æ³•ã‚’è§£èª¬ã—ã¾ã—ãŸï¼Ž
ã“ã®è¨˜äº‹ã§æ‰±ã£ãŸã‚ˆã†ã«ï¼Œxml ã‚’æ‰±ã†ã«ã¯å°‘ã—å·¥å¤«ãŒå¿…è¦ã§ã™ï¼Ž
ãã“ã•ãˆæ°—ã‚’ã¤ã‘ã‚Œã°å¤§è¦æ¨¡ãª xml ãƒ•ã‚¡ã‚¤ãƒ«ã‚‚ Hadoop ã§é«˜é€Ÿã«å‡¦ç†ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ï¼Ž

ä¾‹ãˆã° Wikipedia ã® dump ãƒ•ã‚¡ã‚¤ãƒ«ã‚’å‡¦ç†ã™ã‚‹æ™‚ãªã‚“ã‹ã«å½¹ç«‹ã¤ã¨æ€ã„ã¾ã™ï¼Ž
æ©Ÿä¼šãŒã‚ã‚Œã°æ˜¯éžè©¦ã—ã¦ã¿ã¦ãã ã•ã„ï¼
Wikipedia:データベースダウンロード - Wikipedia

*1:ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã®å…¥åŠ›å½¢å¼ã ã¨ãƒ•ã‚¡ã‚¤ãƒ«ãŒåˆ†å‰²ã•ã‚Œã¦ã—ã¾ã„ xml ã®å½¢å¼ãŒå´©ã‚Œã¦ã—ã¾ã„ã¾ã™ï¼Žã“ã®è¾ºã¯ HDFS ã®ä»•çµ„ã¿ã‚’èª¿ã¹ã¦ã¿ã¦ãã ã•ã„ï¼Ž

RSSãƒ•ã‚£ãƒ¼ãƒ‰ã‚’å–å¾—ã—ã¦HDFSã«è»¢é€

mapper.py

reducer.py

HadoopStreaming ã®å®Ÿè¡Œ

çµæžœã‚’ç¢ºèª

ã¾ã¨ã‚

RSSãƒ•ã‚£ãƒ¼ãƒ‰ã‚’å–å¾—ã—ã¦HDFSã«è»¢é€

HadoopStreaming ã®å®Ÿè¡Œ

çµæžœã‚’ç¢ºèª

ã¾ã¨ã‚