WSL+Dockerã§SAM3ã®ç’°å¢ƒæ§‹ç¯‰ã‚’ã—ã¦ãŠè©¦ã—å®Ÿè¡Œ

ãŠç–²ã‚Œæ§˜ã§ã™ã€‚

SAM3ã®å®Ÿè¡Œç’°å¢ƒã‚’WSL+Dockerã§ä½œæˆã—ã€å®Ÿéš›ã«å®Ÿè¡Œã—ã¦è©¦ã—ã¦ã¿ãŸè¨˜éŒ²ã§ã™ã€‚

SAM3ã«ã¤ã„ã¦
ai.meta.com

2025å¹´11æœˆã«ãƒªãƒªãƒ¼ã‚¹ã•ã‚ŒãŸSAMï¼ˆSegment Anything Modelï¼‰ã‚·ãƒªãƒ¼ã‚ºã®æœ€æ–°ãƒ¢ãƒ‡ãƒ«ã§ã™ã€‚ SAM3ã§ã¯ã€ãƒ—ãƒãƒ³ãƒ—ãƒˆã§ç”»åƒå†…ã®æ¤œå‡ºã—ãŸã„ç‰©ä½“ã‚’æŒ‡ç¤ºã™ã‚‹ã“ã¨ã§ç›®çš„ã®ç‰©ä½“ã®ã‚»ã‚°ãƒ¡ãƒ³ãƒ†ãƒ¼ã‚·ãƒ§ãƒ³ã¨BBoxã®å‡ºåŠ›ãŒã§ãã¾ã™ã€‚

ï¼ˆä»–ã«ã‚‚3Dã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã«å¯¾å¿œã—ãŸSAM3Dã‚‚ã‚ã‚Šã¾ã™ãŒä»Šå›žã¯æ‰±ã„ã¾ã›ã‚“ã€‚ï¼‰

ç’°å¢ƒæ§‹ç¯‰

å®Ÿè¡Œç’°å¢ƒ

OS: Windows 11 Pro
CPU: Intel Core i7-13700
ãƒ¡ãƒ¢ãƒª: 32GB
GPU: NVIDIA GeForce RTX 4060 Ti (VRAM: 16GB)

ç’°å¢ƒã¯ä¸Šè¿°ã®é€šã‚ŠWSL+Dockerã‚’ä½¿ç”¨ã—ã¾ã—ãŸã€‚ã¾ãŸã€Pythonç’°å¢ƒã¯uvã‚’ä½¿ç”¨ã—ã¦ã„ã¾ã™ã€‚
ãƒ™ãƒ¼ã‚¹ã®ç’°å¢ƒã®ä½œæˆã«ã¤ã„ã¦ã¯éŽåŽ»è¨˜äº‹ã‚’ã”å‚è€ƒãã ã•ã„ã€‚

fallpoke-tech.hatenadiary.jp

Windowsç’°å¢ƒã®å ´åˆã€ä¸€éƒ¨ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªãŒLinuxã§ã—ã‹ä½¿ãˆãšè‡ªå‰ã§ãƒ“ãƒ«ãƒ‰ã™ã‚‹å¿…è¦ãŒã‚ã‚‹ã®ã§WSLã‚’ä½¿ã†æ–¹ãŒè‰¯ã„ã¨æ€ã„ã¾ã™ã€‚

ä»Šå›žä½¿ç”¨ã—ãŸç’°å¢ƒè¨å®šã‚’å«ã‚ãŸãƒªãƒã‚¸ãƒˆãƒªã‚’GitHubã«æ®‹ã—ã¦ã„ã¾ã™ã€‚ SAM3ã®å…¬å¼ãƒªãƒã‚¸ãƒˆãƒªã‚’forkã—ã¦ç’°å¢ƒè¨å®šãƒ•ã‚¡ã‚¤ãƒ«ã‚’è¿½åŠ ã—ãŸã®ã¿ã§ã™ãŒâ€¦ã€‚

github.com

å®Ÿè¡Œ

å…¬å¼ãŒã‚ã’ã¦ã„ã‚‹ãƒ‡ãƒ¢ç”¨ã®ã‚³ãƒ¼ãƒ‰ã‚’å‚è€ƒã«ä½œæˆã—ãŸä¸‹è¨˜ã®ã‚½ãƒ¼ã‚¹ã‚³ãƒ¼ãƒ‰ã‚’å®Ÿè¡Œã—ã¾ã—ãŸã€‚

import os

from PIL import Image
import matplotlib.pyplot as plt
from sam3.model_builder import build_sam3_image_model
from sam3.model.sam3_image_processor import Sam3Processor
from sam3.visualization_utils import plot_results
from huggingface_hub import login
from dotenv import load_dotenv

load_dotenv()

login(token=os.getenv("HF_TOKEN"))

# ãƒ¢ãƒ‡ãƒ«ã®æº–å‚™
model = build_sam3_image_model()
processor = Sam3Processor(model)
# ç”»åƒã®èªã¿è¾¼ã¿
image = Image.open("data/1624777685449_985774_photo1.jpeg")
inference_state = processor.set_image(image)
# ãƒ†ã‚ã‚¹ãƒˆãƒ—ãƒãƒ³ãƒ—ãƒˆã‚’è¨å®šã—ã¦æŽ¨è«–ã‚’å®Ÿè¡Œ
output = processor.set_text_prompt(state=inference_state, prompt="tomato")

plot_results(image, output)
plt.show()
plt.close()

ä¸Šè¨˜ã‚’å®Ÿè¡Œã™ã‚‹ã¨ã“ã‚“ãªæ„Ÿã˜ã§å‡ºåŠ›ã•ã‚Œã¾ã™ã€‚
tomato

ãƒ—ãƒãƒ³ãƒ—ãƒˆã®æŒ‡ç¤ºã§ã‚ã‚‹ç¨‹åº¦æ¤œå‡ºã—ãŸã„ç‰©ä½“ã‚’çµžã‚‹ã“ã¨ã‚‚å¯èƒ½ã§ã™ã€‚ä¾‹ãˆã°prompt="red tomato"ã¨å¤‰æ›´ã™ã‚‹ã¨å‡ºåŠ›ãŒå¤‰ã‚ã‚Šã¾ã™ã€‚

ç§ã®ç’°å¢ƒã§ã®è©±ã«ã¯ãªã‚Šã¾ã™ãŒã€VRAMã‚’å¤§ä½“5GBãã‚‰ã„ä½¿ç”¨ã—ã¦ã„ã‚‹ã®ã§æ¯”è¼ƒçš„è»½ãã†ã§ã™ã€‚
ã¾ãŸã€ç”»åƒ1æžšã‚ãŸã‚Šã®æŽ¨è«–æ™‚é–“ã¯0.20sã»ã©ã ã£ãŸã®ã§ã“ã¡ã‚‰ã‚‚ãªã‹ãªã‹é€Ÿã„ã§ã™ã€‚
gpu state