PDFã‚’è¦—ã„ã¦ã¿ã‚ˆã†(ãƒ„ãƒ¼ãƒ«ç·¨) - ãƒã‚·ã‚¢ãƒ³ãƒ–ãƒ«ãƒ¼é£¼è‚²æ

ã“ã®è¨˜äº‹ã¯Imaizumi Lab Advent Calendarã®9æ—¥ç›®ã§ã™ã€‚

ãªãŠè¨˜äº‹ã®æŠ•ç¨¿ã¯13æ—¥ã®æ¨¡æ§˜ã€‚

æ›´æ–°å±¥æ´

2020/12/13 æŠ•ç¨¿å¾Œã«peepdfã®ãƒžãƒ«ã‚¦ã‚§ã‚¢æ¤œçŸ¥æ©Ÿèƒ½ã«ã¤ã„ã¦æ›¸ãå¿˜ã‚Œã¦ã„ãŸã“ã¨ã«æ°—ã¥ã„ãŸã®ã§è¿½è¨˜

ã¯ã˜ã‚ã«

å‰å›žã«å¼•ãç¶šãã€PDFã®å†…éƒ¨æ§‹é€ ã‚’è¦‹ã¦ã„ãã¾ã™ã€‚

å‰å›žã®è¨˜äº‹ã¯ã“ã¡ã‚‰ã§ã™ã€‚

russianblue25.hatenablog.com

ä»Šå›žã®ãƒˆãƒ”ãƒƒã‚¯ã¯ã€PDFã‚’è§£æžã™ã‚‹ã®ã«ä¾¿åˆ©ãªãƒ„ãƒ¼ãƒ«ã®ç´¹ä»‹ã§ã™ã€‚

å‰å›žã®è¨˜äº‹ã§PDFã®æ§‹é€ ãŒã©ã†ãªã£ã¦ã„ã‚‹ã‹ã‚’ã¿ã¦ã„ãã¾ã—ãŸã€‚æ§‹é€ ã‚’è©³ã—ãè¦‹ã¦ã„ãã¨é¢ç™½ãã†ã§ã™ãŒã€PDFã®ã‚¤ãƒ³ãƒ€ã‚¤ãƒ¬ã‚¯ãƒˆã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®å‚ç…§é–¢ä¿‚ã‚’æ‰‹ä½œæ¥ã§æŽ¢ã£ãŸã‚Šã€å‡ºã¦ãã‚‹ã‚ãƒ¼ãƒ¯ãƒ¼ãƒ‰ã‚’ã‚«ã‚¦ãƒ³ãƒˆã—ã¦ã„ãã®ã¯å¤§å¤‰ã§ã™ã‚ˆãã€‚ãã“ã§ãƒ„ãƒ¼ãƒ«ã®å‡ºç•ªã§ã™ã€‚

ç´¹ä»‹ã™ã‚‹ãƒ„ãƒ¼ãƒ«ã¯å…¨ã¦Pythonè£½ã§é¢å€’ãªã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ãªã©ä¸è¦ãªã®ã§ã€æ˜¯éžãŠæ‰‹å…ƒã®PDFã§è©¦ã—ã¦ã¿ã¦ãã ã•ã„ã€‚

(Pythonã¯2ç³»ã¨3ç³»ã®ä¸¡æ–¹ãŒä½¿ãˆã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚peepdfãŒ2ç³»ã§ã—ã‹å‹•ã‹ãªã„ãŸã‚ã§ã™)

PDFiD

DidierStevensSuite/pdfid.py at master · DidierStevens/DidierStevensSuite · GitHub

PDFã®ç‰¹å®šã®ã‚ãƒ¼ãƒ¯ãƒ¼ãƒ‰ã‚’æŠ½å‡ºã—ã€æ•°ã‚’è¡¨ç¤ºã—ã¦ãã‚Œã‚‹ãƒ„ãƒ¼ãƒ«ã§ã™ã€‚

f:id:RussianBlue25:20201210204011p:plain:w150 — pdfidã®å‡ºåŠ›ä¾‹

PDFã®æ©Ÿèƒ½ã‚’æ‚ªç”¨ã—ãŸãƒžãƒ«ã‚¦ã‚§ã‚¢ã§ã¯ç‰¹å®šã®æ©Ÿèƒ½ãŒä½¿ã‚ã‚Œã‚‹ã“ã¨ãŒå¤šã(/JavaScriptã€/OpenActionãªã©)ã€ã“ã®ãƒ„ãƒ¼ãƒ«ã§èª¿ã¹ã‚‹ã“ã¨ã§ãã‚Œã‚‰ã®æ©Ÿèƒ½ãŒä½¿ã‚ã‚Œã¦ã„ã‚‹ã‹ã‚’ç°¡å˜ã«ãƒã‚§ãƒƒã‚¯ã™ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

pdf-parser

DidierStevensSuite/pdf-parser.py at master · DidierStevens/DidierStevensSuite · GitHub

éžå¸¸ã«é«˜æ©Ÿèƒ½ãªPDFãƒ‘ãƒ¼ã‚µã§ã™ã€‚

å…ˆã»ã©ç´¹ä»‹ã—ãŸPDFiDã¨ä¼¼ãŸã‚ˆã†ãªçµ±è¨ˆå‡ºåŠ›æ©Ÿèƒ½ã‚‚ã‚ã‚Šã¾ã™ã€‚*1

å®Ÿè¡Œã—ã¦ã¿ã‚‹

f:id:RussianBlue25:20201213202829p:plain:w300 — pdf-parserã®å‡ºåŠ›ä¾‹(ä¸€éƒ¨çœç•¥)

ã‚ªãƒ—ã‚·ãƒ§ãƒ³ãªã—ã§å®Ÿè¡Œã™ã‚‹ã¨ã€

ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆç•ªå·ã¨ä¸–ä»£ç•ªå·
ã‚¤ãƒ³ãƒ€ã‚¤ãƒ¬ã‚¯ãƒˆã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ç¨®é¡ž
å‚ç…§é–¢ä¿‚
ãƒ‡ã‚£ã‚¯ã‚·ãƒ§ãƒŠãƒªã®å†…å®¹

ãŒè¡¨ç¤ºã•ã‚Œã¾ã™ã€‚

ãƒ•ã‚¡ã‚¤ãƒ«å…¨éƒ¨ã§ã¯ãªãç‰¹å®šã®ã‚¤ãƒ³ãƒ€ã‚¤ãƒ¬ã‚¯ãƒˆã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã ã‘ã‚’è¦‹ãŸã„å ´åˆã¯ã€ã€Œ-o n (nã¯ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆç•ªå·)ã€ã¨æŒ‡å®šã—ã¾ã™ã€‚

ãã®ä»–ã§ãã‚‹ã“ã¨

-yã‚ªãƒ—ã‚·ãƒ§ãƒ³ã§YARAãƒ«ãƒ¼ãƒ«ã‚’å¼•æ•°ã«å–ã‚‹ã“ã¨ã§ã€ãƒ«ãƒ¼ãƒ«ã«åŸºã¥ãPDFãŒæ‚ªæ€§ã‹ã©ã†ã‹ã‚’æ¤œçŸ¥ã§ãã¾ã™ã€‚*2

-sã‚ªãƒ—ã‚·ãƒ§ãƒ³ã§ã€Œ-s hogehogeã€ã®ã‚ˆã†ã«æŒ‡å®šã™ã‚‹ã¨ã€hogehogeã‚’å«ã‚€ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã‚’æŠ½å‡ºã§ããŸã‚Šã—ã¾ã™ã€‚

ã¡ã‚‡ã£ã¨é¢ç™½ã„ã®ã¯ã€-gã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚’ç”¨ã„ã‚‹ã¨ãƒ‘ãƒ¼ã‚¹å¯¾è±¡ã®PDFãƒ•ã‚¡ã‚¤ãƒ«ã‚’ç”Ÿæˆã™ã‚‹Pythonãƒ—ãƒã‚°ãƒ©ãƒ ã‚’ç”Ÿæˆã—ã¾ã™ã€‚ã©ã“ã§ä½¿ã†ã®ã‹ã¯ã¡ã‚‡ã£ã¨ã‚ã‹ã‚Šã¾ã›ã‚“ãŒ...

peepdf

github.com

Pythonã®ãƒãƒ¼ã‚¸ãƒ§ãƒ³ãŒ2ç³»ã§ã—ã‹å‹•ã‹ãªã„ãŸã‚æ³¨æ„ãŒå¿…è¦ã§ã™ã€‚*3

ç‰¹å®šã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªãŒãªã„ã¨æ€’ã‚‰ã‚Œã‚‹ã‹ã‚‚ã—ã‚Œã¾ã›ã‚“ãŒã€ã“ã“ã«æ›¸ã„ã¦ã‚ã‚‹ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã¯ãã‚Œã‚‰ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªãªã—ã§å®Ÿè¡Œå¯èƒ½ãªã®ã§ã€ç„¡è¦–ã—ã¦ã‚‚å¤§ä¸ˆå¤«ã§ã™ã€‚*4

å®Ÿè¡Œã—ã¦ã¿ã‚‹

f:id:RussianBlue25:20201212174907p:plain — å®Ÿè¡Œä¾‹

ã‚ªãƒ—ã‚·ãƒ§ãƒ³ãªã—ã§å®Ÿè¡Œã™ã‚‹ã¨ã€çµ±è¨ˆæƒ…å ±ãŒè¡¨ç¤ºã•ã‚Œã¾ã™ã€‚

treeè¡¨ç¤º

python peepdf.py hoge.pdf -f -C tree

ä¸Šè¨˜ã®ã‚³ãƒžãƒ³ãƒ‰*5ã§ã€å‚ç…§é–¢ä¿‚ã‚’è¡¨ã—ãŸæœ¨æ§‹é€ ã‚’è¡¨ç¤ºã•ã›ã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚ã‚«ãƒƒã‚³ã®ä¸ã¯ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆç•ªå·ã§ã™ã€‚è©¦ã—ã«ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆç•ªå·ãŒ2ã®ã‚¤ãƒ³ãƒ€ã‚¤ãƒ¬ã‚¯ãƒˆã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã‚’ã€å‡ºåŠ›ã—ãŸtreeã¨ãƒ•ã‚¡ã‚¤ãƒ«ãƒ‡ãƒ¼ã‚¿ã®ä¸¡æ–¹ã§è¦‹ã¦ã¿ã¾ã—ã‚‡ã†ã€‚

f:id:RussianBlue25:20201212170607p:plain:w500 — treeè¡¨ç¤º

f:id:RussianBlue25:20201212174100p:plain — ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆç•ªå·ãŒ2ã®ã‚¤ãƒ³ãƒ€ã‚¤ãƒ¬ã‚¯ãƒˆã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆ

treeè¡¨ç¤ºã®æ–¹ã‚’è¦‹ã¦ã¿ã‚‹ã¨ã€Page(2)ã¯Pages(3)ã€stream(4)ã€dictionary(6)ã‚’å‚ç…§ã—ã¦ã„ã‚‹ã‚ˆã†ã§ã™ã€‚ãƒ†ã‚ã‚¹ãƒˆã‚¨ãƒ‡ã‚£ã‚¿ã§é–‹ã„ãŸæ–¹ã‚’è¦‹ã¦ã¿ã‚‹ã¨ã€ã€Œ3 0 R 6 0 R 4 0 Rã€ã¨å‚ç…§é–¢ä¿‚ãŒæ›¸ã„ã¦ã‚ã‚Šã¾ã™ã€‚treeè¡¨ç¤ºã¨ä¸€è‡´ã—ã¦ã„ã¾ã™ã€‚

treeè¡¨ç¤ºã®å‡ºåŠ›ã‚’å¤‰æ›´ã™ã‚‹

PDFã®éšŽå±¤æ§‹é€ ã‚’æ‰±ã†éš›ã«peepdfã¯éžå¸¸ã«å¼·åŠ›ãªãƒ„ãƒ¼ãƒ«ã§ã™ãŒã€å‡ºåŠ›è¡Œæ•°ãŒå¤§ãã„æ™‚ã«é€”ä¸ã§å‡ºåŠ›ãŒæ¢ã¾ã‚‹(ã‚ãƒ¼å…¥åŠ›å¾…ã¡çŠ¶æ…‹ã«ãªã‚‹)ã¨ã„ã£ãŸå•é¡ŒãŒã‚ã‚Šã¾ã™ã€‚

ãƒ†ã‚ã‚¹ãƒˆãƒ•ã‚¡ã‚¤ãƒ«ã«å‡ºåŠ›ã—ãŸã„æ™‚ã«ä¸ä¾¿ãªã®ã§ä¿®æ£ã—ã¾ã™ã€‚å°‘ã€…é›‘ã§ã™ãŒã€ä»¥ä¸‹ã®ä¿®æ£ã‚’è¡Œã†ã¨è§£æ¶ˆã§ãã¾ã™ã€‚

peepdf/PDFConsole.py 4293è¡Œç›®

- limit = int(self.variables['output_limit'][0])
+ limit = 10000000 #ã¨ã«ã‹ãå¤§ããªæ•°å—

ã“ã‚Œã§å¤šå°‘æ‰±ã„ã‚„ã™ããªã‚Šã¾ã™ã€‚

ç–‘ã‚ã—ã„ãƒ•ã‚¡ã‚¤ãƒ«ã®æ¤œçŸ¥

peepdfã§ã¯é¢å€’ãªè¨å®šãªã—ã§ç–‘ã‚ã—ã„ãƒ•ã‚¡ã‚¤ãƒ«ã‚’æ¤œçŸ¥ã™ã‚‹æ©Ÿèƒ½ãŒã‚ã‚Šã¾ã™ã€‚ã‚ªãƒ—ã‚·ãƒ§ãƒ³ãªã—ã§å®Ÿè¡Œã—ãŸéš›ã®çµ±è¨ˆæƒ…å ±ã«ã€ç–‘ã‚ã—ã„ã‚¤ãƒ³ãƒ€ã‚¤ãƒ¬ã‚¯ãƒˆã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆãŒã‚ã£ãŸæ—¨ãŒæ›¸ã‹ã‚Œã¾ã™ã€‚

f:id:RussianBlue25:20201213212816p:plain:w500 — æ‚ªæ€§PDFã®æ¤œçŸ¥ä¾‹

ãŠã‚ã‚Šã«

ãƒ„ãƒ¼ãƒ«ã‚’ä½¿ã†ã“ã¨ã§ã€ã‚ˆã‚Šæ·±ãPDFã‚’è§£æžã™ã‚‹ã“ã¨ãŒã§ããã†ã§ã™ã€‚

ä»Šå›žç´¹ä»‹ã—ãŸãƒ„ãƒ¼ãƒ«ã«ã¯ã¾ã ç´¹ä»‹ã—ãã‚Œã¦ã„ãªã„ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚‚ã‚ã£ãŸã‚Šã™ã‚‹ã®ã§ã€ã©ã“ã‹ã§è¨˜äº‹ã‚’ã‹ã‘ãŸã‚‰ã„ã„ãªã¨æ€ã„ã¾ã™ã€‚

æ¬¡ã®PDFã«ã¾ã¤ã‚ã‚‹è¨˜äº‹ã¯ã¾ã æœªå®šã§ã™ãŒã€pdf-parserã®å‡ºåŠ›ã‚’èªã¿è¾¼ã‚“ã§è‡ªä½œãƒ—ãƒã‚°ãƒ©ãƒ ã§æ‰±ã„ã‚„ã™ãã™ã‚‹è©±ãªã‚“ã‹ã‚’æ›¸ã“ã†ã¨æ€ã„ã¾ã™ã€‚éœ€è¦ãŒã©ã“ã«ã‚ã‚‹ã®ã‹ã¯ã‚ã‹ã‚Šã¾ã›ã‚“ãŒã€‚

å‚è€ƒæ–‡çŒ®

マルウェア解析者向け: 疑わしい PDF を解析する Python ツール - 拡張頭蓋 | Extended Cranium

*1:-aã‚ªãƒ—ã‚·ãƒ§ãƒ³ã§ã™

*3:3ç³»ã«å¯¾å¿œã•ã›ã‚‹ãƒ—ãƒ«ãƒªã‚¯ãŒå‡ºã¦ã„ã‚‹ã‚ˆã†ã§ã™ãŒã€ãƒžãƒ¼ã‚¸ã•ã‚Œã¦ã„ã¾ã›ã‚“

*4:PyV8ã‚’å…¥ã‚Œã‚‹ã®ã«è‹¦åŠ´ã—ãŸè¦šãˆãŒã‚ã‚Šã¾ã™ã€‚https://github.com/brokenseal/PyV8-OS-X ã‚’å‚è€ƒã«å…¥ã‚Œã¾ã—ãŸã€‚

*5:-fã‚ªãƒ—ã‚·ãƒ§ãƒ³ã¯ã€ãƒ‘ãƒ¼ã‚¹æ™‚ã®ã‚¨ãƒ©ãƒ¼ã‚’ç„¡è¦–ã™ã‚‹ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã§ã™ã€‚æ‚ªæ„ã®ã‚ã‚‹PDFã ã¨ã“ã®ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚’ã¤ã‘ãªã„ã¨ã‚¨ãƒ©ãƒ¼ãŒå‡ºã‚‹ã“ã¨ãŒã‚ã‚Šã¾ã™ã€‚ä»Šå›žã¯å¿…è¦ãªã„ã‹ã¨æ€ã„ã¾ã™ãŒ

æ›´æ–°å±¥æ­´

ã¯ã˜ã‚ã«

PDFiD

pdf-parser

å®Ÿè¡Œã—ã¦ã¿ã‚‹

ãã®ä»–ã§ãã‚‹ã“ã¨

peepdf

å®Ÿè¡Œã—ã¦ã¿ã‚‹

treeè¡¨ç¤º

treeè¡¨ç¤ºã®å‡ºåŠ›ã‚’å¤‰æ›´ã™ã‚‹

ç–‘ã‚ã—ã„ãƒ•ã‚¡ã‚¤ãƒ«ã®æ¤œçŸ¥

ãŠã‚ã‚Šã«

å‚è€ƒæ–‡çŒ®

æ›´æ–°å±¥æ´

ã¯ã˜ã‚ã«

å®Ÿè¡Œã—ã¦ã¿ã‚‹

ãã®ä»–ã§ãã‚‹ã“ã¨

å®Ÿè¡Œã—ã¦ã¿ã‚‹

treeè¡¨ç¤ºã®å‡ºåŠ›ã‚’å¤‰æ›´ã™ã‚‹

ç–‘ã‚ã—ã„ãƒ•ã‚¡ã‚¤ãƒ«ã®æ¤œçŸ¥

ãŠã‚ã‚Šã«

å‚è€ƒæ–‡çŒ®