Common Lispã§ã‹ã‚“ãŸã‚“Webã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°

Webã‚¹ã‚¯ãƒ¬ã‚¤ãƒ”ãƒ³ã‚°ã¨ã¯Webã‹ã‚‰æƒ…å ±ã‚’è‡ªå‹•çš„ã«é›†ã‚ã¦ãã‚‹ã‚¯ãƒãƒ¼ãƒ©ã‚’å®Ÿè£…ã™ã‚‹ã¨ã„ã†ã“ã¨ã§ã‚ã‚‹ã€‚ã“ã‚Œã‚’å®Ÿç¾ã™ã‚‹ã«ã¯HTTPã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆã¨HTMLãƒ‘ãƒ¼ã‚µã€ãã—ã¦ãƒ‘ãƒ¼ã‚¹ã•ã‚ŒãŸæœ¨æ§‹é€ ã‹ã‚‰å¿…è¦ãªæƒ…å ±ã‚’æŽ¢ç´¢ã€æŠ½å‡ºã™ã‚‹ã‚»ãƒ¬ã‚¯ã‚¿ãŒã‚ã‚Œã°ã„ã„ã€‚Common Lispã«ã¯ãã‚Œãžã‚Œã«è¤‡æ•°ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªãŒã‚ã‚‹ãŒã€ä»Šå›žã¯HTTPクライアントにDexadorã€HTML/XMLパーサにPlumpã€CSSセレクタにCLSSã‚’ä½¿ã†ã€‚ã“ã‚Œã‚‰ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã¯å…¨ã¦Quicklispã‹ã‚‰å…¥ã‚‹ã€‚

(ql:quickload :dexador)
(ql:quickload :plump)
(ql:quickload :clss)

ä¾‹ã¨ã—ã¦ã“ã®ãƒã‚¤ã‚¿ãƒ¼ã®è¨˜äº‹ 堅調地合い、1万8000円へ戻りを試す展開に＝来週の東京株式市場 ã‚’åˆ†æžã—ã¦ã¿ã‚‹ã€‚

HTTPã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆ: Dexador

ã¾ãšHTTPã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆã§HTMLã‚’å–ã£ã¦ãã‚‹ã€‚ã“ã‚Œã«ã¯dexadorã®geté–¢æ•°ã‚’ä½¿ã†ã€‚

(defparameter article-html (dex:get "http://jp.reuters.com/article/idJPL3N0U325520141219"))

dex:getã¯å–å¾—ã—ãŸHTMLæ–‡å—åˆ—ã€ã‚¹ãƒ†ãƒ¼ã‚¿ã‚¹ã€ãƒ¡ã‚¿æƒ…å ±ã®ãƒãƒƒã‚·ãƒ¥è¡¨ã€URIã€ã‚¹ãƒˆãƒªãƒ¼ãƒ ã‚’å¤šå€¤ã§è¿”ã™ã€‚

"<!doctype html><html><head>
<title>
            å …èª¿åœ°åˆã„ã€1ä¸‡8000å††ã¸æˆ»ã‚Šã‚’è©¦ã™å±•é–‹ã«ï¼æ¥é€±ã®æ±äº¬æ ªå¼å¸‚å ´
|ãƒã‚¤ã‚¿ãƒ¼</title>|
... ä¸ç•¥ ...
</html>
"
200
#<HASH-TABLE :TEST EQUAL :COUNT 14 {1003F285C3}>
#<QURI.URI.URI-HTTP http://jp.reuters.com/article/idJPL3N0U325520141219>
#<SB-SYS:FD-STREAM for "socket 192.168.11.12:43208, peer: 52.222.193.218:80" {1003DD4B13}>

HTMLãƒ‘ãƒ¼ã‚µ: Plump

æ¬¡ã«ã€plumpã®parseé–¢æ•°ã§HTMLæ–‡å—åˆ—ã‚’ãƒ‘ãƒ¼ã‚¹ã™ã‚‹ã€‚ã“ã‚Œã¯æœ¨æ§‹é€ ã®ãƒ«ãƒ¼ãƒˆã«ç›¸å½“ã™ã‚‹CLOSã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã‚’è¿”ã™ã€‚

(defparameter parse-tree (plump:parse article-html))

;; => #<PLUMP-DOM:ROOT {1006E77F53}>

ã“ã®ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®åã‚’è¡¨ç¤ºã—ã¦ã¿ã‚‹ã¨ã€

(plump:children parse-tree)

;; #(#<PLUMP-DOM:COMMENT {1005D8C563}> #<PLUMP-DOM:TEXT-NODE {1005D8C853}>
;;   #<PLUMP-DOM:COMMENT {1005D8CF53}> #<PLUMP-DOM:TEXT-NODE {1005D8D253}>
;;   #<PLUMP-DOM:COMMENT {1005D8DB73}> #<PLUMP-DOM:TEXT-NODE {1005D8DE93}>
;;   #<PLUMP-DOM:COMMENT {1005D8E4A3}> #<PLUMP-DOM:TEXT-NODE {1005D8E773}>
;;   #<PLUMP-DOM:COMMENT {1005D8ECF3}> #<PLUMP-DOM:TEXT-NODE {1005D8F053}>
;;   #<PLUMP-DOM:DOCTYPE html> #<PLUMP-DOM:ELEMENT html {1005D8FDC3}>
;;   #<PLUMP-DOM:TEXT-NODE {1006274133}>)

ã“ã®ã†ã¡text-nodeã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆãŒæ–‡å—åˆ—ã‚’æŒã£ã¦ã„ã‚‹ã€‚æœ¨æ§‹é€ ã‚’èµ°æŸ»ã—ã¦text-nodeã®æŒã¤æ–‡å—åˆ—ã ã‘ã‚’é€£çµã™ã‚‹é–¢æ•°ã‚’å®šç¾©ã—ã¦ã¿ã‚‹ã¨ã“ã†ãªã‚‹ã€‚

(defun node-text (node)
  (let ((text-list nil))
    (plump:traverse node
                    (lambda (node) (push (plump:text node) text-list))
                    :test #'plump:text-node-p)
    (apply #'concatenate 'string (nreverse text-list))))

æ™®é€šã«å†å¸°ã§æ›¸ã„ã¦ã‚‚è¡Œæ•°ã¯ã‚ã¾ã‚Šå¤‰ã‚ã‚‰ãªã„ã¨æ€ã†ãŒã€ã›ã£ã‹ãtraverseé–¢æ•°ãŒç”¨æ„ã•ã‚Œã¦ã„ãŸã®ã§ä½¿ã£ã¦ã¿ãŸã€‚

CSS ã‚»ãƒ¬ã‚¯ã‚¿: CLSS

jQueryã®ã‚ˆã†ã«æœ¨æ§‹é€ ã‹ã‚‰CSSè¦ç´ ã‚’æŒ‡å®šã—ã¦éƒ¨åˆ†æœ¨ã‚’æŠœã„ã¦ãã‚‹ã“ã¨ãŒã§ãã‚‹ã€‚ä¾‹ãˆã°ã€Plumpã§ãƒ‘ãƒ¼ã‚¹ã—ãŸæœ¨ã‹ã‚‰articleTextã¨ã„ã†IDã‚’æŒã¤æœ€åˆã®ãƒŽãƒ¼ãƒ‰ã‚’å–ã‚Šå‡ºã™ã«ã¯ä»¥ä¸‹ã®ã‚ˆã†ã«ã™ã‚‹ã€‚

(defparameter sub-tree (aref (clss:select "#articleText" parse-tree) 0))

(node-text sub-tree)

;; "
;; ï¼»æ±äº¬ã€€ï¼‘ï¼™æ—¥ã€€ãƒã‚¤ã‚¿ãƒ¼ï¼½ - æ¥é€±ã®æ±äº¬æ ªå¼å¸‚å ´ã¯å …èª¿ãªåœ°åˆã„ãŒç¶šãè¦‹é€šã—ã ã€‚ ï¼ˆä»¥ä¸‹ç•¥
;; "

(node-text (aref (clss:select ".article-headline" parse-tree) 0))
; => "å …èª¿åœ°åˆã„ã€1ä¸‡8000å††ã¸æˆ»ã‚Šã‚’è©¦ã™å±•é–‹ã«ï¼æ¥é€±ã®æ±äº¬æ ªå¼å¸‚å ´"

(node-text (aref (clss:select ".article-section" parse-tree) 0))
; => "Markets"

ã¾ã¨ã‚ã¨ã‹

å®Ÿéš›ã®ãƒšãƒ¼ã‚¸ã®ã‚½ãƒ¼ã‚¹ã‚’è¦‹ã¦ã¿ã‚‹ã¨æœ¬æ–‡ã®éƒ¨åˆ†ã¯divã‚„spanãŒå…¥ã‚Šä¹±ã‚Œã¦ã„ã‚‹ã®ã§å˜ç´”ãªæ–‡å—åˆ—ã®ãƒ‘ã‚¿ãƒ¼ãƒ³ãƒžãƒƒãƒã ã¨ã‚ã‚“ã©ãã•ãã†ã«æ€ãˆã‚‹ãŒã€HTMLã‚’ãƒ‘ãƒ¼ã‚¹ã—ã¦æœ¨æ§‹é€ ã¨ã™ã‚‹ã“ã¨ã§ä¸€æ°—ã«æ‰±ã„ã‚„ã™ããªã‚‹ã€‚

ãƒã‚¤ã‚¿ãƒ¼ã®å ´åˆã€サイトマップのXMLファイルãŒã‚ã‚‹ã®ã§ä¸Šã¨åŒæ§˜ã«åˆ†æžã—ã¦URLã®ãƒªã‚¹ãƒˆã‚’å–ã‚Šå‡ºã™ã“ã¨ãŒã§ãã‚‹ã€‚