å¤šå¤‰é‡è§£æžæ‰‹æ³•ã®ç°¡æ˜“ãƒ¡ãƒ¢ãªã©

Rã«ã‚ˆã‚‹ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚¨ãƒ³ã‚¹ã£ã¦æœ¬ã®ãƒ‡ãƒ¼ã‚¿è§£æžãƒ¡ãƒ¢ã§ã™ã.
ã“ã®æœ¬ã¯ã‚ã‚Šã‹ã—ä¸€èˆ¬çš„ãªæ‰‹æ³•ã®ç¶²ç¾…çš„ãªè§£èª¬ + å‚è€ƒæ–‡çŒ®è±Šå¯Œã§è‰¯ã„æ„Ÿã˜.

ä¸»æˆåˆ†åˆ†æž(Principal Component Analysis)

ç›®çš„
- å¤šå¤‰é‡ãƒ‡ãƒ¼ã‚¿ã‚’å°‘ãªã„å¤‰æ•°ã§è¡¨ç¾ã§ãã‚‹ã‚ˆã†ã«ã™ã‚‹
- é€šå¸¸ã¯2~3å¤‰æ•°ã«ç¸®ç´„ã™ã‚‹å ´åˆãŒå¤šã„ã€‚
- åˆ†æ•£ã‚’æœ€å¤§åŒ–ã™ã‚‹æ‰‹æ³•

å¤šå¤‰é‡è§£æžã¨ã—ã¦ã¯æœ€ã‚‚æœ‰åãªæ‰‹æ³•ã®ä¸€ã¤

åˆ†æ•£å…±åˆ†æ•£è¡Œåˆ—ã®å›ºæœ‰å€¤å•é¡Œã¨ã¿ãªã™
- æœ€ã‚‚å›ºæœ‰å€¤ãŒå¤§ãã„ã®ãŒç¬¬ä¸€ä¸»æˆåˆ†ã€æ¬¡ã«å›ºæœ‰å€¤ãŒå¤§ãã„ã®ãŒç¬¬ãƒ‹ä¸»æˆåˆ†... ã¨æ±‚ã‚ã‚‹
- ä¸»æˆåˆ†ã®è§£æžã«ã¯å¯„ä¸ŽçŽ‡ã€ç´¯ç©å¯„ä¸ŽçŽ‡ã«é–¢ã™ã‚‹æƒ…å ±ã‚’åˆ©ç”¨.

ä¸»æˆåˆ†å¾—ç‚¹ã€äºˆæ¸¬ã€biplot...

é–¢ä¿‚ã®å¼·ã„æ‰‹æ³•ã¨ã—ã¦ã€ã‚«ãƒ¼ãƒãƒ«ä¸»æˆåˆ†åˆ†æž(kpca, éžç·šå½¢ä¸»æˆåˆ†åˆ†æž)ã€ç‹¬ç«‹æˆåˆ†åˆ†æžãªã©ã‚‚ã‚ã‚‹ã€‚

R
- princompã‚„prcompãªã©ãŒåˆ©ç”¨å¯èƒ½
- princompã‚’æ™®é€šåˆ©ç”¨ã™ã‚‹
- prcompã¯ãƒ‡ãƒ¼ã‚¿ã®ã‚¹ã‚±ãƒ¼ãƒ«ãªã©åˆ©ç”¨å¯èƒ½

ã‚µãƒ³ãƒ—ãƒ«

require(graphics)

## The variances of the variables in the
## USArrests data vary by orders of magnitude, so scaling is appropriate
(pc.cr <- princomp(USArrests))  # inappropriate
princomp(USArrests, cor = TRUE) # =^= prcomp(USArrests, scale=TRUE)
## Similar, but different:
## The standard deviations differ by a factor of sqrt(49/50)

summary(pc.cr <- princomp(USArrests, cor = TRUE))
loadings(pc.cr)  ## note that blank entries are small but not zero
plot(pc.cr) # shows a screeplot.
biplot(pc.cr)

## Formula interface
princomp(~ ., data = USArrests, cor = TRUE)
# NA-handling
USArrests[1, 2] <- NA
pc.cr <- princomp(~ Murder + Assault + UrbanPop,
                  data = USArrests, na.action=na.exclude, cor = TRUE)
pc.cr$scores

å› ååˆ†æž

ç›®çš„
- ä¸»ã«å¿ƒç†å¦ã€ç¤¾ä¼šå¦ãªã©ã§å¤–çš„åŸºæº–ãŒãªã„é‡çš„ãƒ‡ãƒ¼ã‚¿ã‹ã‚‰å…±é€šå› åã‚’è¦‹ã¤ã‘å‡ºã™æŽ¢ç´¢çš„ãƒ‡ãƒ¼ã‚¿è§£æžæ™‚ã«åˆ©ç”¨
- å¤‰æ•°é–“ã®ç›¸é–¢é–¢ä¿‚ã‹ã‚‰å…±é€šå› åã‚’æ±‚ã‚ã‚‹

æ´å²
- 1904 Spearmanã«ã‚ˆã£ã¦æå”±ã•ã‚ŒãŸ

åˆ©ç”¨ã®éš›ã®æ³¨æ„ç‚¹
- å¤šç¾©çš„è§£é‡ˆãŒå¯èƒ½ãªã®ã§ã€è‡ªåˆ†ã«éƒ½åˆã®è‰¯ã„è§£é‡ˆãŒå¯èƒ½ãªã®ã§æ³¨æ„ãŒå¿…è¦
- å®¢è¦³çš„æ„å‘³ä»˜ã‘ã‚’ã§ãã‚‹ã‚ˆã†ã«ä½¿ã†äº‹ãŒé‡è¦
- å¤šç¾©æ€§ãŒå°‘ãªã„ä¸»æˆåˆ†åˆ†æžã€å¯¾å¿œåˆ†æžãªã©ã‚’å…¼ç”¨ã™ã‚‹ã¨å‰

ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ
- ä¸»å› åæ³•ã€æœ€å°¤æ³•ãªã©ãªã©
  - ä¸»å› åæ³•: å®‰å®šã—ãŸçµæžœãŒå¾—ã‚‰ã‚Œã‚‹
  - æœ€å°¤æ³•ã€€: ãƒ‡ãƒ¼ã‚¿ãŒæ£è¦åˆ†å¸ƒã«å¾“ã†ã¨ãã«åˆ©ç”¨ã™ã‚‹ã¨å‰ã€‚ä½†ã—åˆå¿ƒè€…å‘ãã§ã¯ãªã„

å› åã®å›žè»¢
- è§£é‡ˆã®ä¾¿å®œã®ãŸã‚,é«˜ã„ç›¸é–¢ã‚’ã‚‚ã¤é …ç›®ã‚’å…±é€šå› åã¨ã—ã¦ç©ºé–“ä¸Šã®è»¸ã‚’æ±ºã‚ã‚‹æ“ä½œã‚’è¡Œã†ã€‚ã“ã‚ŒãŒå› åã®å›žè»¢ã§ã‚ã‚‹ã€‚
- ç¨®é¡ž
  - ç›´è¡Œå›žè»¢ã€æ–œäº¤å›žè»¢
  - ç›´è¡Œå›žè»¢: ãƒãƒªãƒžãƒƒã‚¯ã‚¹(ã‚ˆãä½¿ã‚ã‚Œã‚‹)ã€ãƒã‚¤ã‚³ãƒ¼ãƒ†ã‚£ãƒžãƒƒã‚¯ã‚¹ã€ã‚³ãƒ¼ãƒ†ã‚£ãƒžãƒƒã‚¯ã‚¹ã€ã‚¨ã‚¯ã‚£ãƒžãƒƒã‚¯ã‚¹
  - æ–œäº¤å›žè»¢: ãƒ—ãƒãƒžãƒƒã‚¯ã‚¹(ã‚ˆãä½¿ã‚ã‚Œã‚‹)ã€ã‚³ãƒãƒªãƒŸãƒ³ã€ãƒã‚¤ã‚³ãƒ¼ãƒ†ã‚£ãƒŸãƒ³ã€ã‚³ãƒ¼ãƒ†ã‚£ãƒŸãƒ³

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: stats
- é–¢æ•°: factanal

ã‚µãƒ³ãƒ—ãƒ«

# A little demonstration, v2 is just v1 with noise,
# and same for v4 vs. v3 and v6 vs. v5
# Last four cases are there to add noise
# and introduce a positive manifold (g factor)
v1 <- c(1,1,1,1,1,1,1,1,1,1,3,3,3,3,3,4,5,6)
v2 <- c(1,2,1,1,1,1,2,1,2,1,3,4,3,3,3,4,6,5)
v3 <- c(3,3,3,3,3,1,1,1,1,1,1,1,1,1,1,5,4,6)
v4 <- c(3,3,4,3,3,1,1,2,1,1,1,1,2,1,1,5,6,4)
v5 <- c(1,1,1,1,1,3,3,3,3,3,1,1,1,1,1,6,4,5)
v6 <- c(1,1,1,2,1,3,3,3,4,3,1,1,1,2,1,6,5,4)
m1 <- cbind(v1,v2,v3,v4,v5,v6)
cor(m1)
factanal(m1, factors=3) # varimax is the default
factanal(m1, factors=3, rotation="promax")
# The following shows the g factor as PC1
prcomp(m1)

## formula interface
factanal(~v1+v2+v3+v4+v5+v6, factors = 3,
         scores = "Bartlett")$scores

## a realistic example from Bartholomew (1987, pp. 61-65)
utils::example(ability.cov)

å¯¾å¿œåˆ†æž

å¯¾å¿œåˆ†æžã¨ã¯
- é »åº¦ãƒ‡ãƒ¼ã‚¿ã€è³ªçš„ãƒ‡ãƒ¼ã‚¿ã®å€‹ä½“ã¨å¤‰æ•°ã¨ã®é–¢é€£æ€§ã€ãƒ‘ã‚¿ãƒ¼ãƒ³åˆ†æžã‚’è¡Œã†æ‰‹æ³•
- ã‚³ãƒ¬ã‚¹ãƒãƒ³ãƒ‡ãƒ³ã‚¹åˆ†æžã¨ã‚‚å‘¼ã°ã‚Œã‚‹
- æ•°é‡åŒ–IIIé¡žã¨ä¼¼ã¦ã„ã‚‹

ä¸»ã«ãƒ•ãƒ©ãƒ³ã‚¹ã§ã‚ˆãä½¿ã‚ã‚Œã¦ã„ã‚‹ã¨ã®ã“ã¨ã€‚ãƒ•ãƒ©ãƒ³ã‚¹ãƒ•ãƒ©ãƒ³ã‚¹

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: MASS
- é–¢æ•°: mca

ã‚µãƒ³ãƒ—ãƒ«

farms.mca <- mca(farms, abbrev=TRUE)
farms.mca
plot(farms.mca)

å¤šæ¬¡å…ƒå°ºåº¦æ³•(MDS: Multi-Dimensional Scaling)

ç›®æ¨™
- ãƒ‡ãƒ¼ã‚¿ã®å€‹ä½“é–“ã®é¡žä¼¼åº¦ã‚„è·é›¢ã‚’æ±‚ã‚ã¦ãã‚Œã‚’2~3æ¬¡å…ƒã«ãƒ—ãƒãƒƒãƒˆã—ã¦ãƒ‡ãƒ¼ã‚¿ã®æ§‹é€ ã‚„ãƒ‘ã‚¿ãƒ¼ãƒ³å½¢æˆãªã©ã‚’æŠŠæ¡ã™ã‚‹æ‰‹æ³•

åˆ†é¡ž
- è¨ˆé‡ã€éžè¨ˆé‡ã®äºŒç¨®é¡ž

è¨ˆé‡çš„MDS
- è§£æžã®æµã‚Œ
  - è·é›¢ã‚’æ±‚ã‚ã‚‹
  - åº§æ¨™å€¤ã‚’æ±‚ã‚ã‚‹
  - 2~3æ¬¡å…ƒä¸Šã§å€‹ä½“ã‚’é…ç½®ã™ã‚‹(æ•£å¸ƒå›³ä½œæˆ)
  - ä¿¡é ¼æ€§ãªã©ã®è€ƒå¯Ÿ

Rã§ã®æ±‚ã‚æ–¹
- cmdscaleã‚’åˆ©ç”¨

ã‚µãƒ³ãƒ—ãƒ«(ãƒ¨ãƒ¼ãƒãƒƒãƒ‘ã®éƒ½å¸‚ã®è·é›¢ãƒ‡ãƒ¼ã‚¿)

require(graphics)

loc <- cmdscale(eurodist)
x <- loc[,1]
y <- -loc[,2]
plot(x, y, type="n", xlab="", ylab="", main="cmdscale(eurodist)")
text(x, y, rownames(loc), cex=0.8)

cmdsE <- cmdscale(eurodist, k=20, add = TRUE, eig = TRUE, x.ret = TRUE)
utils::str(cmdsE)

éžè¨ˆé‡çš„MDS
- è¨ˆé‡çš„MDSã¯ç›´æŽ¥è·é›¢ãªã©ã‚’æ±‚ã‚ã‚‰ã‚Œã‚‹äº‹ã‚’å‰æã¦ã—ã¦ã„ã‚‹ãŒã€å¿ƒç†ãƒ‡ãƒ¼ã‚¿ãªã©ã®è¦ªè¿‘æ€§ãƒ‡ãƒ¼ã‚¿ã¯è·é›¢ã®æ€§è³ªã‚’æº€ãŸã•ãªã„
- è·é›¢ã®æ€§è³ªã‚’æº€ãŸã•ãªã„é¡žä¼¼æ€§ãƒ‡ãƒ¼ã‚¿ã‚‚åˆ©ç”¨å¯èƒ½ã«ã—ãŸã®ãŒéžè¨ˆé‡çš„MDS

ã‚ãƒ¼ãƒ¯ãƒ¼ãƒ‰
- ã‚«ãƒ«ã‚¹ã‚«ã‚¹ã®ã‚¹ãƒˆãƒ¬ã‚¹
  - ã‚¹ãƒˆãƒ¬ã‚¹ã‚’æœ€å°ã«ã™ã‚‹æ‰‹æ³•

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: MASS, mlbench, e1071, vegenãªã©
- é–¢æ•°: isoMDS, sammon, metaMDS

isoMDS

swiss.x <- as.matrix(swiss[, -1])
swiss.dist <- dist(swiss.x)
swiss.mds <- isoMDS(swiss.dist)
plot(swiss.mds$points, type = "n")
text(swiss.mds$points, labels = as.character(1:nrow(swiss.x)))
swiss.sh <- Shepard(swiss.dist, swiss.mds$points)
plot(swiss.sh, pch = ".")
lines(swiss.sh$x, swiss.sh$yf, type = "S")

ã‚¯ãƒ©ã‚¹ã‚¿åˆ†æž

å¤§ããåˆ†ã‘ã¦å¤§ããä¸‰ç¨®é¡žã‚ã‚‹
- éšŽå±¤ã€éžéšŽå±¤(ã‚°ãƒ«ãƒ¼ãƒ—æ•°æŒ‡å®š)ã€ãƒ¢ãƒ‡ãƒ«ã«åŸºã¥ãæ‰‹æ³•

éšŽå±¤çš„ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°

æ³¨æ„äº‹é …
- å€‹ä½“æ•°ãŒå¤§ãã„ã¨è¨ˆç®—é‡ãŒè†¨å¤§ã«ãªã‚‹ã®ã§å¤§è¦æ¨¡ãƒ‡ãƒ¼ã‚¿ã«ã¯ä¸å‘ã
- å°è¦æ¨¡ãƒ‡ãƒ¼ã‚¿ã§ã‚‚é©ç”¨ã¯è¨ˆç”»çš„ã«

è§£æžã®æµã‚Œ
- ãƒ‡ãƒ¼ã‚¿ã‹ã‚‰è·é›¢(or é¡žä¼¼åº¦)ã‚’æ±‚ã‚ã‚‹
- ã‚¯ãƒ©ã‚¹ã‚¿åˆ†æžæ‰‹æ³•ã®é©ç”¨
- ã‚³ãƒ¼ãƒ•ã‚§ãƒ³è¡Œåˆ—ã‚’æ±‚ã‚ã‚‹
- ã‚³ãƒ¼ãƒ•ã‚§ãƒ³è¡Œåˆ—ã‹ã‚‰æ¨¹å½¢å›³ã‚’ä½œã‚‹
- çµæžœã«ã¤ã„ã¦ã®æ¤œè¨Žã‚’è¡Œã†

æ‰‹æ³•
- æœ€è¿‘éš£æ³•, æœ€é éš£æ³•, ç¾¤å¹³å‡æ³•, ãƒ¡ãƒ‡ã‚£ã‚¢ãƒ³æ³•, é‡å¿ƒæ³•, ã‚¦ã‚©ãƒ¼ãƒ‰æ³•

R
- é–¢æ•°: hclust

ã‚µãƒ³ãƒ—ãƒ«

require(graphics)

hc <- hclust(dist(USArrests), "ave")
plot(hc)
plot(hc, hang = -1)

## Do the same with centroid clustering and squared Euclidean distance,
## cut the tree into ten clusters and reconstruct the upper part of the
## tree from the cluster centers.
hc <- hclust(dist(USArrests)^2, "cen")
memb <- cutree(hc, k = 10)
cent <- NULL
for(k in 1:10){
  cent <- rbind(cent, colMeans(USArrests[memb == k, , drop = FALSE]))
}
hc1 <- hclust(dist(cent)^2, method = "cen", members = table(memb))
opar <- par(mfrow = c(1, 2))
plot(hc,  labels = FALSE, hang = -1, main = "Original Tree")
plot(hc1, labels = FALSE, hang = -1, main = "Re-start from 10 clusters")
par(opar)

éžéšŽå±¤çš„ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°

è§£æžã®æµã‚Œ
- 1.Kå€‹ã®ã‚¯ãƒ©ã‚¹ã‚¿ä¸å¿ƒã‚’é©å½“ã«æ±ºã‚ã‚‹
- 2.å…¨ã¦ã®ãƒ‡ãƒ¼ã‚¿ã®Kå€‹ã®ã‚¯ãƒ©ã‚¹ã‚¿ä¸å¿ƒã¨ã®è·é›¢ã‚’æ±‚ã‚æœ€ã‚‚è¿‘ã„ã‚¯ãƒ©ã‚¹ã‚¿ã®åˆ†é¡ž
- 3.å½¢æˆã•ã‚ŒãŸã‚¯ãƒ©ã‚¹ã‚¿ã®ä¸å¿ƒã‚’æ±‚ã‚ã‚‹
- 2,3ã®ç¹°ã‚Šè¿”ã—

R
- é–¢æ•°: kmeans

ã‚µãƒ³ãƒ—ãƒ«

require(graphics)

# a 2-dimensional example
x <- rbind(matrix(rnorm(100, sd = 0.3), ncol = 2),
           matrix(rnorm(100, mean = 1, sd = 0.3), ncol = 2))
colnames(x) <- c("x", "y")
(cl <- kmeans(x, 2))
plot(x, col = cl$cluster)
points(cl$centers, col = 1:2, pch = 8, cex=2)

## random starts do help here with too many clusters
(cl <- kmeans(x, 5, nstart = 25))
plot(x, col = cl$cluster)
points(cl$centers, col = 1:5, pch = 8)

ãƒ¢ãƒ‡ãƒ«ã«åŸºã¥ãæ‰‹æ³•

model-based clustering
- æ··åˆåˆ†å¸ƒã«ã‚ˆã‚‹ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã€æ½œåœ¨ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã¨ã‚‚å‘¼ã°ã‚Œã‚‹
- ç¢ºçŽ‡åˆ†å¸ƒã®åˆ©ç”¨
- æœ€å¤§å°¤åº¦æŽ¨æ¸¬æ³•ã‚’ç”¨ã„ãŸEMã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ãªã©

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: mclust
- é–¢æ•°: EMclust, mclustBICãªã©

ã‚µãƒ³ãƒ—ãƒ«

irisBIC <- mclustBIC(iris[,-5])
irisBIC
plot(irisBIC)

subset <- sample(1:nrow(iris), 100)
irisBIC <- mclustBIC(iris[,-5], initialization=list(subset =subset))
irisBIC
plot(irisBIC)

irisBIC1 <- mclustBIC(iris[,-5], G=seq(from=1,to=9,by=2), 
                    modelNames=c("EII", "EEI", "EEE"))
irisBIC1
plot(irisBIC1)
irisBIC2  <- mclustBIC(iris[,-5], G=seq(from=2,to=8,by=2), 
                       modelNames=c("VII", "VVI", "VVV"), x= irisBIC1)
irisBIC2
plot(irisBIC2)

nNoise <- 450
set.seed(0)
poissonNoise <- apply(apply( iris[,-5], 2, range), 2, function(x, n) 
                      runif(n, min = x[1]-.1, max = x[2]+.1), n = nNoise)
set.seed(0)
noiseInit <- sample(c(TRUE,FALSE),size=nrow(iris)+nNoise,replace=TRUE,
                    prob=c(3,1))
irisNdata <- rbind(iris[,-5], poissonNoise)
irisNbic <- mclustBIC(data = irisNdata,
                      initialization = list(noise = noiseInit))
irisNbic
plot(irisNbic)

è‡ªå·±çµ„ç¹”åŒ–ãƒžãƒƒãƒ—(SOM)

æ¦‚è¦
- æ•™å¸«ãƒ‡ãƒ¼ã‚¿ã‚’ã‚‚ãŸãªã„ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯ã‚’åˆ©ç”¨ã—ãŸãƒ‘ã‚¿ãƒ¼ãƒ³åˆ†é¡žæ‰‹æ³•ã€‚
- é«˜æ¬¡å…ƒãƒ‡ãƒ¼ã‚¿ã‚’äºŒæ¬¡å…ƒå¹³é¢ã¸éžç·šå½¢å°„å½±ã™ã‚‹
- å…¥åŠ›å±¤ã¨å‡ºåŠ›å±¤ã«ã‚ˆã‚Šæ§‹æˆã•ã‚ŒãŸäºŒå±¤ã®ãƒ‹ãƒ¥ãƒ¼ãƒ©ãƒ«ãƒãƒƒãƒˆãƒ¯ãƒ¼ã‚¯

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: kohonen, som
- é–¢æ•°: som, somgrid, plot.kohonenãªã©ãªã©

ã‚µãƒ³ãƒ—ãƒ«

data(wines)
set.seed(7)

training <- sample(nrow(wines), 120)
Xtraining <- scale(wines[training, ])
Xtest <- scale(wines[-training, ],
               center = attr(Xtraining, "scaled:center"),
               scale = attr(Xtraining, "scaled:scale"))

som.wines <- som(Xtraining, grid = somgrid(5, 5, "hexagonal"))

som.prediction <- predict(som.wines, newdata = Xtest,
          trainX = Xtraining,
          trainY = factor(wine.classes[training]))
table(wine.classes[-training], som.prediction$prediction)

ç·šå½¢å›žå¸°åˆ†æž

å›žå¸°åˆ†æžã¯æœ€ã‚‚ä¸€èˆ¬çš„ãªæ‰‹æ³•ä¸”ã¤è©±é¡ŒãŒè±Šå¯Œãªæ‰‹æ³•

ç·šå½¢å›žå¸°åˆ†æžã¨ã¯
- é‡çš„ãƒ‡ãƒ¼ã‚¿ã‚’ç›®çš„å¤‰æ•°ã¨ã—ãŸæœ€ã‚‚åŸºæœ¬çš„ãªè§£æžæ‰‹æ³•(ã£ã¦)
- ä¸€ã¤ã®èª¬æ˜Žå¤‰æ•°ã®å ´åˆ: å˜å›žå¸°åˆ†æž
- è¤‡æ•°ã®èª¬æ˜Žå¤‰æ•°ã®å ´åˆ: é‡å›žå¸°åˆ†æž

R
- é–¢æ•°: lm

ã‚µãƒ³ãƒ—ãƒ«

require(graphics)

## Annette Dobson (1990) "An Introduction to Generalized Linear Models".
## Page 9: Plant Weight Data.
ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14)
trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69)
group <- gl(2,10,20, labels=c("Ctl","Trt"))
weight <- c(ctl, trt)
anova(lm.D9 <- lm(weight ~ group))
summary(lm.D90 <- lm(weight ~ group - 1))# omitting intercept
summary(resid(lm.D9) - resid(lm.D90)) #- residuals almost identical

opar <- par(mfrow = c(2,2), oma = c(0, 0, 1.1, 0))
plot(lm.D9, las = 1)      # Residuals, Fitted, ...
par(opar)

## model frame :
stopifnot(identical(lm(weight ~ group, method = "model.frame"),
                    model.frame(lm.D9)))

### less simple examples in "See Also" above

éžç·šå½¢å›žå¸°åˆ†æž

ç·šå½¢å›žå¸°åˆ†æžã¨ã¯
- é‡çš„ãƒ‡ãƒ¼ã‚¿ã‚’ç›®çš„å¤‰æ•°ã¨ã—ãŸè§£æžæ‰‹æ³•. éžç·šå½¢

æ‰‹æ³•
- ãƒã‚¸ã‚¹ãƒ†ã‚£ã‚¯ã‚¹å›žå¸°ã€å¤šé …å¼å›žå¸°ã€ä¸€èˆ¬åŒ–ç·šå½¢ãƒ¢ãƒ‡ãƒ«, å¹³æ»‘åŒ–å›žå¸°ã¨åŠ æ³•ãƒ¢ãƒ‡ãƒ« ãªã©ãªã©

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: stats, mgcv
- é–¢æ•°: nls, glm(ä¸€èˆ¬åŒ–ç·šå½¢ãƒ¢ãƒ‡ãƒ«), gam(å¹³æ»‘åŒ–å›žå¸°)

ç·šå½¢åˆ¤åˆ¥åˆ†æž

å›žå¸°åˆ†æžã¨ã®æ¯”è¼ƒ
- å›žå¸°åˆ†æž: å¤–çš„åŸºæº–ãŒé‡çš„ãƒ‡ãƒ¼ã‚¿
- åˆ¤åˆ¥åˆ†æž: å¤–çš„åŸºæº–ãŒè³ªçš„ãƒ‡ãƒ¼ã‚¿

ãƒ•ã‚£ãƒƒã‚·ãƒ£ãƒ¼ã®ç·šå½¢åˆ¤åˆ¥é–¢æ•°
- irisã®åˆ¤åˆ¥ãªã©ãªã©
- å¤å…¸çš„æ‰‹æ³•

ç·šå½¢åˆ¤åˆ¥ã®æ³¨æ„äº‹é …
- ç‰åˆ†æ•£ã®åˆ¶ç´„æ¡ä»¶ãŒå¿…è¦
- å¤§é‡ã®å¤‰æ•°ã«ã¯å‘ã‹ãªã„

R
- é–¢æ•°:lda
- predict, cross-validationãªã©ä½µç”¨ã™ã‚‹

ã‚µãƒ³ãƒ—ãƒ«

Iris <- data.frame(rbind(iris3[,,1], iris3[,,2], iris3[,,3]),
                   Sp = rep(c("s","c","v"), rep(50,3)))
train <- sample(1:150, 75)
table(Iris$Sp[train])
## your answer may differ
##  c  s  v
## 22 23 30
z <- lda(Sp ~ ., Iris, prior = c(1,1,1)/3, subset = train)
predict(z, Iris[-train, ])$class
##  [1] s s s s s s s s s s s s s s s s s s s s s s s s s s s c c c
## [31] c c c c c c c v c c c c v c c c c c c c c c c c c v v v v v
## [61] v v v v v v v v v v v v v v v
(z1 <- update(z, . ~ . - Petal.W.))

éžç·šå½¢ã¨æ¯”ã¹ã‚‹ã¨ã‚ã¾ã‚Šä½¿ã‚ã‚Œãªã„

éžç·šå½¢åˆ¤åˆ¥åˆ†æž

éžç·šå½¢åˆ¤åˆ¥åˆ†æžã¨ã¯
- ç·šå½¢åˆ¤åˆ¥ä»¥å¤–ã®å…¨éƒ¨(ã‰)ã®æ‰‹æ³•
- ãªã®ã§ã€éžç·šå½¢çš„æ‰‹æ³•ä»¥å¤–ã«ã‚‚è·é›¢ã«åŸºã¥ã„ãŸåˆ¤åˆ¥æ‰‹æ³•ã€å¤šæ•°æ±ºã®åˆ¤åˆ¥æ–¹æ³•ã€ãƒ™ã‚¤ã‚ºåˆ¤åˆ¥æ–¹æ³•ã€æ©Ÿæ¢°å¦ç¿’ã«ã‚ˆã‚‹åˆ¤åˆ¥æ–¹æ³•ã‚‚å«ã‚€ã€‚

åˆ¤åˆ¥é–¢æ•°ã«ã‚ˆã‚‹åˆ¤åˆ¥åˆ†æž
- äºŒæ¬¡å¼ã«ä¾ã‚‹åˆ¤åˆ¥é–¢æ•°ã¨ã—ã¦Rã ã¨qdaãŒã‚ã‚‹

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: MASS
- é–¢æ•°: qda

ã‚µãƒ³ãƒ—ãƒ«

tr <- sample(1:50, 25)
train <- rbind(iris3[tr,,1], iris3[tr,,2], iris3[tr,,3])
test <- rbind(iris3[-tr,,1], iris3[-tr,,2], iris3[-tr,,3])
cl <- factor(c(rep("s",25), rep("c",25), rep("v",25)))
z <- qda(train, cl)
predict(z,test)$class

è·é›¢ã«ã‚ˆã‚‹åˆ¤åˆ¥åˆ†æž
- ãƒžãƒãƒ©ãƒŽãƒ“ã‚¹è·é›¢ãªã©åˆ©ç”¨

R
- é–¢æ•°: mahalanobis

ã‚µãƒ³ãƒ—ãƒ«

require(graphics)

ma <- cbind(1:6, 1:3)
(S <-  var(ma))
mahalanobis(c(0,0), 1:2, S)

x <- matrix(rnorm(100*3), ncol = 3)
stopifnot(mahalanobis(x, 0, diag(ncol(x))) == rowSums(x*x))
        ##- Here, D^2 = usual squared Euclidean distances

Sx <- cov(x)
D2 <- mahalanobis(x, colMeans(x), Sx)
plot(density(D2, bw=.5),
     main="Squared Mahalanobis distances, n=100, p=3") ; rug(D2)
qqplot(qchisq(ppoints(100), df=3), D2,
       main = expression("Q-Q plot of Mahalanobis" * ~D^2 *
                         " vs. quantiles of" * ~ chi[3]^2))
abline(0, 1, col = 'gray')

å¤šæ•°æ±ºã«ã‚ˆã‚‹åˆ¤åˆ¥åˆ†æž
- k-NNãªã©ãŒã‚ã‚‹

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: class
- é–¢æ•°: knn

ã‚µãƒ³ãƒ—ãƒ«

train <- rbind(iris3[1:25,,1], iris3[1:25,,2], iris3[1:25,,3])
test <- rbind(iris3[26:50,,1], iris3[26:50,,2], iris3[26:50,,3])
cl <- factor(c(rep("s",25), rep("c",25), rep("v",25)))
knn(train, test, cl, k = 3, prob=TRUE)
attributes(.Last.value)

ãƒ™ã‚¤ã‚ºã«ã‚ˆã‚‹åˆ¤åˆ¥æ‰‹æ³•
- ãƒ™ã‚¤ã‚ºãƒ¢ãƒ‡ãƒ«åˆ©ç”¨

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: e1071, klaRãªã©
- é–¢æ•°: NaiveBayes

ã‚µãƒ³ãƒ—ãƒ«

data(iris)
mN <- NaiveBayes(Species ~ ., data = iris)
plot(mN)

mK <- NaiveBayes(Species ~ ., data = iris, usekernel = TRUE)
plot(mK)

ç”Ÿå˜åˆ†æž

ç”Ÿå˜åˆ†æžã¨ã¯
- ã‚¤ãƒ™ãƒ³ãƒˆãŒèµ·ãã‚‹ã¾ã§ã®æ™‚é–“ã¨ã‚¤ãƒ™ãƒ³ãƒˆã¨ã®ã‚ã„ã ã®é–¢ä¿‚ã®é–¢ä¿‚ã«ç€ç›®ã—ãŸæ‰‹æ³•

é©ç”¨ç¯„å›²
- å·¥å¦: æ©Ÿæ¢°ã‚·ã‚¹ãƒ†ãƒ ã‚„è£½å“ã®æ•…éšœ
- åŒ»å¦åˆ†é‡Ž: ç–¾æ‚£ã®ç—…æ°—ã®å†ç™ºã‚„æ»äº¡ãªã©
- ç”Ÿå˜åˆ†æžã§ã¯æ•…éšœã€ç ´å£Šã€å€’ç”£ã€æ»äº¡ãªã©ã®ã‚¤ãƒ™ãƒ³ãƒˆã‚’åºƒç¾©ã§æ»äº¡ã¨ã¿ãªã™

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: survival
- é–¢æ•°: survfitãªã©

ã‚µãƒ³ãƒ—ãƒ«

leukemia.surv <- survfit(Surv(time, status) ~ x, data = aml) 
plot(leukemia.surv, lty = 2:3) 
legend(100, .9, c("Maintenance", "No Maintenance"), lty = 2:3) 
title("Kaplan-Meier Curves\nfor AML Maintenance Study") 
lsurv2 <- survfit(Surv(time, status) ~ x, aml, type='fleming') 
plot(lsurv2, lty=2:3, fun="cumhaz", 
        xlab="Months", ylab="Cumulative Hazard")

æ™‚ç³»åˆ—

ç›®çš„
- æ™‚ç³»åˆ—ãƒ‡ãƒ¼ã‚¿ã®å¤‰å‹•ã®ç‰¹å¾´ã‚’æ‰ãˆã€ç¾è±¡ã®è§£æ˜Žã¨å°†æ¥ã®äºˆæ¸¬ã€åˆ¶å¾¡ã‚’ã™ã‚‹ãŸã‚ã«åˆ©ç”¨

ãƒ¢ãƒ‡ãƒ«
- AR, ARMA, ARIMA, ARFIMA, GARCH, VARãªã©ãªã©

äºˆæ¸¬ãƒ¢ãƒ‡ãƒ«ã‚’ä½œã‚‹éš›ã«ã¯acf, pacf, AIC, ã‚¹ãƒšã‚¯ãƒˆãƒ«åˆ†æž, å ´åˆã«ã‚ˆã£ã¦ã¯(è¤‡æ•°æ™‚ç³»åˆ—ãƒ¢ãƒ‡ãƒ«ãªã©)ccfã‚’äº‹å‰ã«ç¢ºèªã™ã‚‹å¿…è¦ã‚ã‚Š
å¾Œã¯å˜ä½æ ¹æ¤œå®š

AR
- è‡ªå·±å›žå¸°ãƒ¢ãƒ‡ãƒ«
ARMA
- ç§»å‹•å¹³å‡è‡ªå·±å›žå¸°ãƒ¢ãƒ‡ãƒ«
ARIMA
- ç§»å‹•å¹³å‡è‡ªå·±å›žå¸°ãƒ¢ãƒ‡ãƒ«(å·®åˆ†)
ARFIMA
- è‡ªå·±å›žå¸°å®Ÿæ•°å’Œåˆ†ç§»å‹•å¹³å‡ãƒ¢ãƒ‡ãƒ«
GARCH
- è‡ªå·±å›žå¸°æ¡ä»¶ä»˜ãåˆ†æ•£ä¸å‡ä¸€ãƒ¢ãƒ‡ãƒ«, ãƒŽãƒ¼ãƒ™ãƒ«çµŒæ¸ˆå¦è³ž
- æ´¾ç”Ÿã—ãŸã‚‚ã®ã«TGARCH, APARCHãªã©ã‚’ã‚ã‚Š
VAR
- å¤šå¤‰é‡è‡ªå·±å›žå¸°ãƒ¢ãƒ‡ãƒ«
- arã§æ±‚ã‚ã‚‰ã‚Œã‚‹

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: tseries, fracdiff, fseries
- ar, arma, arima, fracdiff, garch ãªã©ãªã©

ã‚µãƒ³ãƒ—ãƒ«

arima(lh, order = c(1,0,0))
arima(lh, order = c(3,0,0))
arima(lh, order = c(1,0,1))

arima(lh, order = c(3,0,0), method = "CSS")

arima(USAccDeaths, order = c(0,1,1), seasonal = list(order=c(0,1,1)))
arima(USAccDeaths, order = c(0,1,1), seasonal = list(order=c(0,1,1)),
      method = "CSS") # drops first 13 observations.
# for a model with as few years as this, we want full ML

arima(LakeHuron, order = c(2,0,0), xreg = time(LakeHuron)-1920)

## presidents contains NAs
## graphs in example(acf) suggest order 1 or 3
require(graphics)
(fit1 <- arima(presidents, c(1, 0, 0)))
tsdiag(fit1)
(fit3 <- arima(presidents, c(3, 0, 0)))  # smaller AIC
tsdiag(fit3)

ã‚«ã‚ªã‚¹æ™‚ç³»åˆ—
- ä¸è¦å‰‡ã«å¤‰å‹•ã™ã‚‹æ™‚ç³»åˆ—ãƒ‡ãƒ¼ã‚¿ã‚’éžç·šå½¢çš„ã«è§£æžã™ã‚‹æ‰‹æ³•

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: tseriesChaos
- é–¢æ•°: embedd

ã‚µãƒ³ãƒ—ãƒ«

library(scatterplot3d)
x <- window(rossler.ts, start=90)
xyz <- embedd(x, m=3, d=8)
scatterplot3d(xyz, type="l")

æ±ºå®šæœ¨

IF-THENã§åˆ†å²ã™ã‚‹treeã‚’ä½œã‚Šæç”»
- ã‚ã‚Šã‹ã—ã‚ˆãä½¿ã‚ã‚Œã‚‹

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: mvpart
- é–¢æ•°: rpart

ã‚µãƒ³ãƒ—ãƒ«

data(car.test.frame)
z.auto <- rpart(Mileage ~ Weight, car.test.frame)
summary(z.auto)
plot(z.auto); text(z.auto)

data(spider)
fit1 <- rpart(data.matrix(spider[,1:12])~water+twigs+reft+herbs+moss+sand,spider,method="mrt")
plot(fit1); text(fit1)
fit2 <- rpart(data.matrix(spider[,1:12])~water+twigs+reft+herbs+moss+sand,spider,method="mrt",dissim="man")
plot(fit2); text(fit2)
fit3 <- rpart(gdist(spider[,1:12],meth="bray",full=TRUE,sq=TRUE)~water+twigs+reft+herbs+moss+sand,spider,method="dist")
plot(fit3); text(fit3)

éžç·šå½¢å›žå¸°åˆ†æžã€éžç·šå½¢åˆ¤åˆ¥åˆ†æž(ãƒ‘ã‚¿ãƒ¼ãƒ³èªè˜)ã®æœ‰åŠ›ãªæ‰‹æ³•

èª¤å·®é€†ä¼æ’æ³•ãŒæœ‰åã§ã‚¢ãƒ¬
äººé–“ã«ã¯140å„„å€‹ã®ãƒ‹ãƒ¥ãƒ¼ãƒãƒ³ãŒã‚ã‚‹

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: nnet

ã‚µãƒ³ãƒ—ãƒ«

# use half the iris data
ir <- rbind(iris3[,,1],iris3[,,2],iris3[,,3])
targets <- class.ind( c(rep("s", 50), rep("c", 50), rep("v", 50)) )
samp <- c(sample(1:50,25), sample(51:100,25), sample(101:150,25))
ir1 <- nnet(ir[samp,], targets[samp,], size = 2, rang = 0.1,
            decay = 5e-4, maxit = 200)
test.cl <- function(true, pred) {
    true <- max.col(true)
    cres <- max.col(pred)
    table(true, cres)
}
test.cl(targets[-samp,], predict(ir1, ir[-samp,]))


# or
ird <- data.frame(rbind(iris3[,,1], iris3[,,2], iris3[,,3]),
        species = factor(c(rep("s",50), rep("c", 50), rep("v", 50))))
ir.nn2 <- nnet(species ~ ., data = ird, subset = samp, size = 2, rang = 0.1,
               decay = 5e-4, maxit = 200)
table(ird$species[-samp], predict(ir.nn2, ird[-samp,], type = "class"))

ã‚«ãƒ¼ãƒãƒ«æ³•ã¨ã‚µãƒãƒ¼ãƒˆãƒ™ã‚¯ã‚¿ãƒ¼ãƒžã‚·ãƒ³

ã‚«ãƒ¼ãƒãƒ«ã¨ã¯
- éžç·šå½¢æ§‹é€ ã‚’ç·šå½¢æ§‹é€ ã«å‡ºæ¥ã‚‹ã¨ä¾¿åˆ©ãªã®ã§ã‚«ãƒ¼ãƒãƒ«é–¢æ•°ã§ãã†ã—ãŸã„
- K(x,x)çš„ãªæ„Ÿã˜ã®é–¢æ•°

ã‚«ãƒ¼ãƒãƒ«ä¸»æˆåˆ†åˆ†æž
- KPCA(Kernel Principal COmponent Analysis)

è§£æžã®æµã‚Œ
- ã‚«ãƒ¼ãƒãƒ«é–¢æ•°ã‚’K(x,z)ã‚’æ±‚ã‚ã‚‹
- ãƒ‡ãƒ¼ã‚¿ã‹ã‚‰å†™åƒè¡Œåˆ—KnÃ—nã‚’æ±‚ã‚ã‚‹
- KnÃ—nã®å›ºæœ‰å€¤ã¨å›ºæœ‰ãƒ™ã‚¯ãƒˆãƒ«ã‚’æ±‚ã‚ã‚‹
- å›ºæœ‰å€¤ã¨å›ºæœ‰ãƒ™ã‚¯ãƒˆãƒ«ã®æ£è¦åŒ–

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: kernlab
- é–¢æ•°: kpca

ã‚µãƒ³ãƒ—ãƒ«

# another example using the iris
data(iris)
test <- sample(1:150,20)

kpc <- kpca(~.,data=iris[-test,-5],kernel="rbfdot",kpar=list(sigma=0.2),features=2)

#print the principal component vectors
pcv(kpc)

#plot the data projection on the components
plot(rotated(kpc),col=as.integer(iris[-test,5]),xlab="1st Principal Component",ylab="2nd Principal Component")

#embed remaining points 
emb <- predict(kpc,iris[test,-5])
points(emb,col=as.integer(iris[test,5]))

ã‚µãƒãƒ¼ãƒˆãƒ™ã‚¯ã‚¿ãƒ¼ãƒžã‚·ãƒ³
- åˆ†é¡žã¨å›žå¸°å•é¡Œã‚’ä¸»ã¨ã—ãŸãƒ‡ãƒ¼ã‚¿è§£æžæ‰‹æ³•
- ãƒžãƒ¼ã‚¸ãƒ³æœ€å¤§åŒ–å•é¡Œã«å¸°ç€

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: kernlab
- é–¢æ•°: ksvm (ä»–ã«ã‚‚è‰²ã€…ã‚ã‚‹)

ã‚µãƒ³ãƒ—ãƒ«

## simple example using the spam data set
data(spam)

## create test and training set
index <- sample(1:dim(spam)[1])
spamtrain <- spam[index[1:floor(2 * dim(spam)[1]/3)], ]
spamtest <- spam[index[((2 * ceiling(dim(spam)[1]/3)) + 1):dim(spam)[1]], ]

## train a support vector machine
filter <- ksvm(type~.,data=spamtrain,kernel="rbfdot",kpar=list(sigma=0.05),C=5,cross=3)
filter

## predict mail type on the test set
mailtype <- predict(filter,spamtest[,-58])

## Check results
table(mailtype,spamtest[,58])


## Another example with the famous iris data
data(iris)

## Create a kernel function using the build in rbfdot function
rbf <- rbfdot(sigma=0.1)
rbf

## train a bound constraint support vector machine
irismodel <- ksvm(Species~.,data=iris,type="C-bsvc",kernel=rbf,C=10,prob.model=TRUE)

irismodel

## get fitted values
fitted(irismodel)

## Test on the training set with probabilities as output
predict(irismodel, iris[,-5], type="probabilities")


## Demo of the plot function
x <- rbind(matrix(rnorm(120),,2),matrix(rnorm(120,mean=3),,2))
y <- matrix(c(rep(1,60),rep(-1,60)))

svp <- ksvm(x,y,type="C-svc")
plot(svp,data=x)


### Use kernelMatrix
K <- as.kernelMatrix(crossprod(t(x)))

svp2 <- ksvm(K, y, type="C-svc")

svp2


#### Use custom kernel 

k <- function(x,y) {(sum(x*y) +1)*exp(-0.001*sum((x-y)^2))}
class(k) <- "kernel"

data(promotergene)

## train svm using custom kernel
gene <- ksvm(Class~.,data=promotergene,kernel=k,C=10,cross=5)

gene


#### Use text with string kernels
data(reuters)
is(reuters)
tsv <- ksvm(reuters,rlabels,kernel="stringdot",kpar=list(length=5),cross=3,C=10)
tsv


## regression
# create data
x <- seq(-20,20,0.1)
y <- sin(x)/x + rnorm(401,sd=0.03)

# train support vector machine
regm <- ksvm(x,y,epsilon=0.01,kpar=list(sigma=16),cross=3)
plot(x,y,type="l")
lines(x,predict(regm,x),col="red")

é›†å›£å¦ç¿’

é›†å›£å¦ç¿’ã¨ã¯
- ã‚¢ãƒ³ã‚µãƒ³ãƒ–ãƒ«å¦ç¿’ã¨ã‚‚è¨€ã‚ã‚Œã‚‹
- æ±ºã—ã¦ç²¾åº¦ãŒé«˜ã„ã¨ã¯è¨€ãˆãªã„åˆ†é¡žå™¨ã®çµæžœã‹ã‚‰å¦ç¿’ã‚’è¡Œãªã„åˆ¶åº¦ãŒé«˜ã„åˆ†é¡žå™¨ã®æ§‹ç¯‰ã‚’è¡Œã†

ãƒã‚®ãƒ³ã‚°
- bagging(bootstrap aggregating), 1996å¹´ãƒ–ãƒ©ã‚¤ãƒžãƒ³ã«ã‚ˆã£ã¦ææ¡ˆ(L.Breiman)
- ä¸Žãˆã‚‰ã‚ŒãŸãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ãƒ–ãƒ¼ãƒˆã‚¹ãƒˆãƒ©ãƒƒãƒ—ã¨ã„ã†ãƒªã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°æ³•ã«ã‚ˆã£ã¦è¤‡æ•°ã®å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã‚’ä½œæˆ
- ä½œæˆã—ãŸãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã«å›žå¸°ãƒ»åˆ†æžçµæžœã‚’çµ±åˆã€çµ„ã¿åˆã‚ã›ã‚‹ã“ã¨ã§ç²¾åº¦ã‚’ã‚ã’ã‚‹
- ãƒ–ãƒ¼ãƒˆã‚¹ãƒˆãƒ©ãƒƒãƒ—ã€ã‚µãƒ³ãƒ—ãƒ«ã¯ãã‚Œãžã‚Œç‹¬ç«‹ã€å¦ç¿’ã¯ä¸¦åˆ—å®Ÿè¡Œå¯èƒ½.

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: adabag
- é–¢æ•°: bagging

ã‚µãƒ³ãƒ—ãƒ«

## rpart library should be loaded
library(rpart)
data(iris)
names(iris)<-c("LS","AS","LP","AP","Especies")
lirios.bagging <- bagging(Especies~LS +AS +LP+ AP, data=iris, mfinal=10)

## rpart and mlbench libraries should be loaded
library(rpart)
library(mlbench)
data(BreastCancer)
l <- length(BreastCancer[,1])
sub <- sample(1:l,2*l/3)
BC.bagging <- bagging(Class ~.,data=BreastCancer[,-1],mfinal=25, maxdepth=3)
BC.bagging.pred <- predict.bagging(BC.bagging,newdata=BreastCancer[-sub,-1])
BC.bagging.pred[-1]

# Data Vehicle (four classes)
library(rpart)
library(mlbench)
data(Vehicle)
l <- length(Vehicle[,1])
sub <- sample(1:l,2*l/3)
Vehicle.bagging <- bagging(Class ~.,data=Vehicle[sub, ],mfinal=50, maxdepth=5)
Vehicle.bagging.pred <- predict.bagging(Vehicle.bagging,newdata=Vehicle[-sub, ])
Vehicle.bagging.pred[-1]

ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°
- æ•™å¸«ä»˜ããƒ‡ãƒ¼ã‚¿ã‚’ç”¨ã„ã¦å¦ç¿’ã‚’è¡Œãªã„ã€å¦ç¿’çµæžœã‚’è¸ã¾ãˆé‡ã¿ã®èª¿æ•´ã‚’ç¹°ã‚Šè¿”ã™
- è¤‡æ•°ã®å¦ç¿’çµæžœã‚’æ±‚ã‚ã€çµæžœã‚’çµ±åˆãƒ»çµ„ã¿åˆã‚ã›ã‚’ã™ã‚‹ã“ã¨ã§ç²¾åº¦ã‚’ã‚ã’ã‚‹
- AdaBoost(1996)ãŒæœ‰å

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: adabag
- é–¢æ•°: adaboost.M1

ã‚µãƒ³ãƒ—ãƒ«

## rpart library should be loaded
library(rpart)
data(iris)
names(iris)<-c("LS","AS","LP","AP","Especies")
iris.adaboost <- adaboost.M1(Especies~LS +AS +LP+ AP, data=iris, boos=TRUE, 
        mfinal=10)

## rpart and mlbench libraries should be loaded
## Comparing the test error of rpart and adaboost.M1
library(rpart)
library(mlbench)
data(BreastCancer)
l <- length(BreastCancer[,1])
sub <- sample(1:l,2*l/3)

BC.rpart <- rpart(Class~.,data=BreastCancer[sub,-1], maxdepth=3)
BC.rpart.pred <- predict(BC.rpart,newdata=BreastCancer[-sub,-1],type="class")
tb <-table(BC.rpart.pred,BreastCancer$Class[-sub])
error.rpart <- 1-(sum(diag(tb))/sum(tb))
tb
error.rpart

BC.adaboost <- adaboost.M1(Class ~.,data=BreastCancer[,-1],mfinal=25, maxdepth=3)
BC.adaboost.pred <- predict.boosting(BC.adaboost,newdata=BreastCancer[-sub,-1])
BC.adaboost.pred[-1]

## Data Vehicle (four classes) 
library(rpart)
library(mlbench)
data(Vehicle)
l <- length(Vehicle[,1])
sub <- sample(1:l,2*l/3)
mfinal <- 25
maxdepth <- 5

Vehicle.rpart <- rpart(Class~.,data=Vehicle[sub,],maxdepth=maxdepth)
Vehicle.rpart.pred <- predict(Vehicle.rpart,newdata=Vehicle[-sub, ],type="class")
tb <- table(Vehicle.rpart.pred,Vehicle$Class[-sub])
error.rpart <- 1-(sum(diag(tb))/sum(tb))
tb
error.rpart

Vehicle.adaboost <- adaboost.M1(Class ~.,data=Vehicle[sub, ],mfinal=mfinal, 
        maxdepth=maxdepth)
Vehicle.adaboost.pred <- predict.boosting(Vehicle.adaboost,newdata=Vehicle[-sub, ])
Vehicle.adaboost.pred[-1]

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆ
- Random Forest(RF)ã¯ãƒã‚®ãƒ³ã‚°ã®æå”±è€…Breimalã«ã‚ˆã£ã¦ææ¡ˆã•ã‚ŒãŸæ–°ã—ã„æ‰‹æ³•
- ç²¾åº¦ã€PCã®è³‡æºç¯€ç´„ã®é¢ã§ãƒã‚®ãƒ³ã‚°ã€ãƒ–ãƒ¼ã‚¹ãƒ†ã‚£ãƒ³ã‚°ã‚ˆã‚Šå„ªç§€

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: randomForest
- é–¢æ•°: randomForest

ã‚µãƒ³ãƒ—ãƒ«

## Classification:
##data(iris)
set.seed(71)
iris.rf <- randomForest(Species ~ ., data=iris, importance=TRUE,
                        proximity=TRUE)
print(iris.rf)
## Look at variable importance:
round(importance(iris.rf), 2)
## Do MDS on 1 - proximity:
iris.mds <- cmdscale(1 - iris.rf$proximity, eig=TRUE)
op <- par(pty="s")
pairs(cbind(iris[,1:4], iris.mds$points), cex=0.6, gap=0,
      col=c("red", "green", "blue")[as.numeric(iris$Species)],
      main="Iris Data: Predictors and MDS of Proximity Based on RandomForest")
par(op)
print(iris.mds$GOF)

## The `unsupervised' case:
set.seed(17)
iris.urf <- randomForest(iris[, -5])
MDSplot(iris.urf, iris$Species)

## Regression:
## data(airquality)
set.seed(131)
ozone.rf <- randomForest(Ozone ~ ., data=airquality, mtry=3,
                         importance=TRUE, na.action=na.omit)
print(ozone.rf)
## Show "importance" of variables: higher value mean more important:
round(importance(ozone.rf), 2)

## "x" can be a matrix instead of a data frame:
set.seed(17)
x <- matrix(runif(5e2), 100)
y <- gl(2, 50)
(myrf <- randomForest(x, y))
(predict(myrf, x))

## "complicated" formula:
(swiss.rf <- randomForest(sqrt(Fertility) ~ . - Catholic + I(Catholic < 50),
                          data=swiss))
(predict(swiss.rf, swiss))
## Test use of 32-level factor as a predictor:
set.seed(1)
x <- data.frame(x1=gl(32, 5), x2=runif(160), y=rnorm(160))
(rf1 <- randomForest(x[-3], x[[3]], ntree=10))

## Grow no more than 4 nodes per tree:
(treesize(randomForest(Species ~ ., data=iris, maxnodes=4, ntree=30)))

ã‚¢ã‚½ã‚·ã‚¨ãƒ¼ã‚·ãƒ§ãƒ³åˆ†æž

ç´™ãŠã‚€ã¤ã¨ãƒ“ãƒ¼ãƒ«ã®ã‚¢ãƒ¬

ã‚¢ã‚½ã‚·ã‚¨ãƒ¼ã‚·ãƒ§ãƒ³åˆ†æžã¨ã¯
- POSãƒ‡ãƒ¼ã‚¿ç‰ã‹ã‚‰æœ‰ç›Šãªæƒ…å ±ã‚’è¦‹ã¤ã‘ã‚‹éš›ã«æ´»ç”¨ã•ã‚Œã‚‹
  - POSãƒ‡ãƒ¼ã‚¿ã¯ãƒˆãƒ©ãƒ³ã‚¶ã‚¯ã‚·ãƒ§ãƒ³ã€ãƒã‚¹ã‚±ãƒƒãƒˆã¨å‘¼ã°ã‚Œã‚‹(æ‰‹æ³•ã‚’ç”¨ã„ã‚‹éš›)
- ä»£è¡¨çš„ãªæ‰‹æ³•ã«ç›¸é–¢ãƒ«ãƒ¼ãƒ«ã€é »å‡ºã‚¢ã‚¤ãƒ†ãƒ ãªã©ã®æ‰‹æ³•ãŒã‚ã‚‹

ç›¸é–¢ãƒ«ãƒ¼ãƒ«
- ãƒˆãƒ©ãƒ³ã‚¶ã‚¯ã‚·ãƒ§ãƒ³ãƒ‡ãƒ¼ã‚¿ãƒ™ãƒ¼ã‚¹ã«é »ç¹ã«å‡ºã¦ãã‚‹ã‚¢ã‚¤ãƒ†ãƒ é–“ã®å›åˆã‚ã›ã®è¦å‰‡ã®äº‹
- IBMã§é–‹ç™ºã•ã‚ŒãŸAprioriãŒæœ‰å

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: arules
- é–¢æ•°: apriori

ã‚µãƒ³ãƒ—ãƒ«

data("Adult")
## Mine association rules.
rules <- apriori(Adult, 
                 parameter = list(supp = 0.5, conf = 0.9,
                                  target = "rules"))
summary(rules)

é »å‡ºã‚¢ã‚¤ãƒ†ãƒ
- æœ¨æ§‹é€ ã®è§£æž
- EclatãŒæœ‰å

R
- ãƒ‘ãƒƒã‚±ãƒ¼ã‚¸: arules
- é–¢æ•°: eclat

ã‚µãƒ³ãƒ—ãƒ«

data("Adult")
## Mine itemsets with minimum support of 0.1.
itemsets <- eclat(Adult,
                  parameter = list(supp = 0.1, maxlen = 15))