ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆï¼Ÿ

å®Ÿè£…ã—ã¦ã¿ãŸæ„Ÿã˜ã€æ•™å¸«ã‚ã‚Šãƒ‡ãƒ¼ã‚¿ã‹ã‚‰åˆ†é¡žãƒ»å¦ç¿’ã—ã€ãã®å¾Œã«ä¸Žãˆã‚‰ã‚ŒãŸæœªçŸ¥ã®ãƒ‡ãƒ¼ã‚¿ã«å¯¾ã—ã¦ã€è˜åˆ¥ãƒ»åˆ†é¡žã‚’è¡Œã†ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã€‚

æ£ç”çŽ‡ã¯ 7-8 å‰²ä½ãŒç›®å®‰ã€‚ä½™ã‚Šè¤‡é›‘ãªå¦ç¿’ã¯ã§ããªã„ã€‚ä»–ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¨çµ„ã¿åˆã‚ã›ã¦ä½¿ã†ã¨ã„ã„æ„Ÿã˜ã«ãªã‚‹ã‚‰ã—ã„ã€‚

è¡¨é¢çš„ãªç‰¹å¾´ã§è¨€ãˆã°ã€æ£ç”çŽ‡ã¯7-8å‰²ç¨‹åº¦ã§ã¯ã‚ã‚‹ãŒã€æ¯”è¼ƒçš„å‡¦ç†ãŒè»½ã„ã®ã¨ã€ãŸã¾ã«ã‚ã‚‹ä¾‹å¤–çš„ãªãƒ‡ãƒ¼ã‚¿ãƒŽã‚¤ã‚ºã«å¼·ã„ã¨ã“ã‚ã ã€‚

ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ

æ•°å¼ã‚„ã‚‰ãªã«ã‚„ã‚‰ã¯ä»¥ä¸‹ã®ã‚¹ãƒ©ã‚¤ãƒ‰ã«ä»»ã›ã‚‹ã€‚

æ©Ÿä¼šå¦ç¿’ãƒãƒƒã‚«ã‚½ãƒ³ï¼šãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆ from Teppei Baba

機会学習ハッカソン：ランダムフォレスト

è¤‡æ•°ã®å¦ç¿’å™¨ã«ãƒ©ãƒ³ãƒ€ãƒ æŠ½å‡ºã®ãƒ‡ãƒ¼ã‚¿ã‚’é£Ÿã‚ã›ã¦å¦ç¿’ã•ã›ã€ãƒ‡ãƒ¼ã‚¿ã‚’ä¸Žãˆã‚‰ã‚ŒãŸéš›ã«ã¯ãã®å¦ç¿’å™¨ã®æŠ•ç¥¨ã«ã‚ˆã£ã¦ãã®çµæžœã‚’è˜åˆ¥ã™ã‚‹ã€‚

ãã®ãŸã‚ã€éŽåŠæ•°æœªæº€ã®å¦ç¿’å™¨ãŒã€å¦ç¿’ãƒ‡ãƒ¼ã‚¿ã®ãƒ‡ãƒ¼ã‚¿ãƒŽã‚¤ã‚ºã§å¦™ãªå¦ç¿’ã‚’ã—ã¦ã—ã¾ã£ã¦ã‚‚ã€ã‚ã‚‹ç¨‹åº¦è£œæ£ãŒåŠ¹ãã¨ã„ã†ã®ãŒåˆ©ç‚¹ã€‚

å‹‰å¼·ä¼šã®é›°å›²æ°—

å‹‰å¼·ä¼šã§å®Ÿè£…å‡ºæ¥ãŸã®ã¯ã€å‹•ç‰©ã®è˜åˆ¥ã ã‘ã ã£ãŸã€‚å‹•ç‰©ã®è˜åˆ¥ãƒ‘ã‚¿ãƒ¼ãƒ³ã¯å…¨ã¦äºŒå€¤ã ã£ãŸã®ã§ã‚„ã‚Šã‚„ã™ã‹ã£ãŸã¨ã‚‚è¨€ãˆã‚‹ã€‚

ï¼’æ™‚é–“ã§ç†è§£ã—ã¦çµ„ã‚€ã£ã¦çµæ§‹é¬¼ä»•æ§˜ã ã£ãŸã¨ã ã‘è¨€ã£ã¦ãŠãã€‚å®Ÿè£…å‡ºæ¥ãŸäººã®æ–¹ãŒå°‘ãªã„é›°å›²æ°—ã ã£ãŸã€‚

ä¾‹ã«é…”ã£ã¦ Scala å®Ÿè£…ã ãŒã€ã“ã‚“ãªæ„Ÿã˜ã ã€‚

å®Ÿè£…(å‹•ç‰©ã®è˜åˆ¥)

package animals

import scala.io.Source

case class Line(field: List[String], result: String)

object Resource {
  def read() = {
    val file = Source.fromFile("/path/to/animals.dat", "utf-8")
    file.getLines().filterNot(_.isEmpty).map(s => {
      val splits = s.split("\t")
      Line(
        List(
          splits(0),
          splits(1),
          splits(2)
        ),
        splits(3)
      )
    }).toList
  }

  /**
   * 2/3 ã‚’ãƒ©ãƒ³ãƒ€ãƒ ã«è¿”ã™
   * @param data
   * @return
   */
  def dataSets(data: List[Line]):List[Line] = {
    import scala.util.Random
    Random.shuffle(data).take(3 /* (data.size / 3) * 2 */) // ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆãŒä»Šå›žå°ã•ã™ãŽã‚‹ã®ã§
  }

  /**
   * åˆæœŸã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼è¨ˆç®—ç”¨
   * @param data
   */
  def defaultEnt(data: List[Line]): Double = {
    val allSize = data.size
    val groups  = data.groupBy(_.result)

    def groupEnt(set: Int) = {
      val aq = set.toDouble / allSize.toDouble
      aq * Math.log(aq)
    }

    groups.map { case (n, l) => {
      - groupEnt(l.size)
    } } sum
  }
}

/**
 * è¦ªã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ã¨ç¾åœ¨ã®ã‚»ãƒƒãƒˆã‚’é£Ÿã‚ã›ã‚‹
 */
case class Node(parent: Double, fields:List[Int], dataSet: List[Line]) {

  val currentSize = dataSet.size

  /**
   * æœ€å¤§ã®ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ã‚’æŒã¤è³ªå•IDã¨ãã®æ™‚ã®ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼
   */
  val maxEntField = {
    // æŒ‡å®šãƒ•ã‚£ãƒ¼ãƒ«ãƒ‰ã¨æ£è§£ã‚’ä¸Žãˆã¦æœ€ã‚‚åˆ†é¡žå‡ºæ¥ã¦ã„ã‚‹ã§ã‚ã‚ã†æ•°å€¤ã‚’è¿”ã™ã€‚
    val allEnt = fields.map(i => {
      // ã“ã®ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã§åˆ†é¡žã—ãŸæ™‚ã®ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ã¯ï¼Ÿ
      // ã‚ãƒ¼ã§ï¼’ã‚»ãƒƒãƒˆä½œã‚‹
      val group = dataSet.groupBy(_.field(i)).map(_._2.size).toSeq
      (i, {
        parent + {
          group.map(_.toDouble / currentSize /* P */).map(p => p * Math.log(p) /* I */).sum
        }
      })
    })
    // æ¯”è¼ƒã—ãŸå†…å®¹ã‚’ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ã§ã‚½ãƒ¼ãƒˆã—ã¦æœ€å¾Œã®ã‚„ã¤ãŒ max
    allEnt.sortBy(_._2).last
  }

  val question = maxEntField._1
  val currentEnt = maxEntField._2

  val childNodes:Option[List[Node]] = {
    val usableNext = fields.filterNot(_ == question)
    val group = dataSet.groupBy(_.field(question)).map(_._2).toList.filterNot(_.isEmpty)
    if (usableNext.isEmpty) None else {
      Some(
        group.map(l => Node(currentEnt, usableNext, l))
      )
    }
  }

  /**
   * ã“ã®è§£æžãƒ„ãƒªãƒ¼ã«ãƒ‡ãƒ¼ã‚¿ã‚’æŠ•ã’ã¦åˆ†é¡žã‚’é ¼ã‚€
   * @param check
   */
  def whats(check: List[String]):String = {
    // ãƒªãƒ¼ãƒ•ãªã‚‰çµæžœã‚’è¿”ã™
    if (fields.isEmpty || childNodes.isEmpty) dataSet.head.result
    else {
      // ãƒŽãƒ¼ãƒ‰ãªã‚‰è‡ªåˆ†ã®åˆ¤å®šåŸºæº–ã«åˆã‚ã›ã¦åã®ãƒªãƒ¼ãƒ•ã«æŠ•ã’ã‚‹
      val grp = check(question)
      def testHead = childNodes.get.head.whats(check)
      if (grp == childNodes.get.head.dataSet.head.field(question)) testHead
      else {
        if (childNodes.get.size == 1) testHead
        else childNodes.get.apply(1).whats(check)
      }
    }
  }

  /**
   * è¡¨ç¤ºã—ã¦ã¿ã‚ˆã†ã‹
   */
  override def toString() = s"Node($parent, $dataSet, $question, $currentEnt, $childNodes)"
}

object RandomForest extends App {
  // ãƒ‡ãƒ¼ã‚¿ã‚½ãƒ¼ã‚¹
  val all = Resource.read()

  // åˆæœŸã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼
  val I = Resource.defaultEnt(all)

  // è³ªå•ã«ä½¿ãˆã‚‹ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹
  val indexes = 0 to (all.head.field.size - 1)

  // è§£æžå™¨(é©å½“ã« 15 å€‹ã§ã‚‚ä½œã‚‹ï¼Ÿ)
  val roots = (1 to 15).map(i => Node(I, indexes.toList, Resource.dataSets(all)))

  // é©å½“ã«ã»ä¹³é¡žã§ã‚‚æŠ•ã’ã¦ã¿ã¾ã—ã‚‡ã†ã‹ï¼Ÿ
  val test = List("è‰é£Ÿ", "èƒŽç”Ÿ", "æ’æ¸©")
  val results = roots.map(n => n.whats(test))

  println(s"Animal: $test : $results")
}

èªã¿ã¥ã‚‰ã„ã€‚

ãƒªãƒ•ã‚¡ã‚¯ã‚¿ãªã‚“ãžã—ã¦ã„ã‚‹æš‡ãŒãªã‹ã£ãŸã®ã ã‹ã‚‰ä»•æ–¹ç„¡ã„ã€‚

ã‚¢ãƒ¤ãƒ¡ã®ç¨®é¡žè˜åˆ¥

ãƒ‡ãƒ¼ã‚¿

ãƒ†ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã¯ã‚¢ãƒ¤ãƒ¡ã®è‘‰ã£ã±ã®ã‚µã‚¤ã‚ºã€‚ ã“ã‚Œã¯ 第三回機械学習アルゴリズム実装会 - connpassã§ç´¹ä»‹ã•ã‚ŒãŸãƒ‡ãƒ¼ã‚¿ã ã€‚

https://github.com/watanabetanaka/randomForest/

ã‚¢ãƒ¤ãƒ¡ã®ç¨®é¡žã¯ã€è‘‰ã‚„èŒŽã€èŠ±ã®ã‚µã‚¤ã‚ºã§è˜åˆ¥å‡ºæ¥ã‚‹ã¨ã„ã†ç†å±ˆã‚‰ã—ã„ã€‚

package iris

import scala.io.Source

case class Line(id: Long, field: List[Double], result: String)

object Resource {

  /**
   * ãƒ•ã‚¡ã‚¤ãƒ«ã‚’é–‹ã
   * @return
   */
  def read() = {
    val resource = this.getClass.getResource("../iris.dat")
    val file = Source.fromFile(resource.getPath, "utf-8")

    file.getLines().filterNot(_.isEmpty).map(s => {
      val splits = s.split("\t")
      Line(
        splits(0).toInt,
        List(
          splits(1).toDouble,
          splits(2).toDouble,
          splits(3).toDouble,
          splits(4).toDouble
        ),
        splits(5)
      )
    }).toList
  }
}

object RandomForest {

  /**
   * 2/3 ã‚’ãƒ©ãƒ³ãƒ€ãƒ ã«è¿”ã™
   * @param data
   * @return
   */
  def dataSets(data: List[Line]):List[Line] = {
    import scala.util.Random
    Random.shuffle(data).take((data.size / 3) * 2)
  }

  /**
   * åˆæœŸã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼è¨ˆç®—ç”¨
   * @param data
   */
  def defaultEnt(data: List[Line]): Double = {
    val allSize = data.size
    val groups  = data.groupBy(_.result)

    def groupEnt(set: Int) = {
      val aq = set.toDouble / allSize.toDouble
      aq * Math.log(aq)
    }

    groups.map { case (n, l) => {
      - groupEnt(l.size)
    } } sum
  }

  trait Node {
    val result: String
    val isLeaf: Boolean
    def dispTree(s: String): Unit
    def test(dataSet: List[Double]): String = result
  }

  case class Branch(index:Int, entropy:Double, threshHold:Double, left: Option[Node], right:Option[Node], result: String) extends Node {
    val isLeaf:Boolean = false

    def dispTree(s: String) {
      println(s"$s ${this.toString}")
      val next = s"$s  "
      left.foreach(_.dispTree(next))
      right.foreach(_.dispTree(next))
    }

    override def test(dataSet: List[Double]) = {
      val border = dataSet(index) < threshHold
      if (border) right.map(_.test(dataSet)).getOrElse(left.map(_.test(dataSet)).getOrElse("ERROR"))
      else left.map(_.test(dataSet)).getOrElse("ERROR")
    }
  }

  case class Leaf(result: String) extends Node {
    val isLeaf:Boolean = true

    def dispTree(s: String) {
      println(s"$s ${this.toString}")
    }
  }

  def createNode(i: Double, indexes: List[Int], dataSets: List[Line]):Node = {
    /**
     * çµ‚äº†æ¡ä»¶ï¼šæœ«ç«¯ã¾ã§åˆ°é”ã—ãŸ
     * - æ¯”è¼ƒå‡ºæ¥ã‚‹è³ªå•ãŒãªããªã£ãŸ
     * - å…¨ãƒ‡ãƒ¼ã‚¿ãŒåŒã˜ç‰©ã ã¨æ–è¨€å‡ºæ¥ã‚‹
     * @return
     */
    def isLeaf() = indexes.isEmpty || dataSets.groupBy(_.result).size == 1

    /**
     * ç¾åœ¨ã®ãƒ‡ãƒ¼ã‚¿ã‚µã‚¤ã‚º
     * @return
     */
    def dataSize() = dataSets.size

    /**
     * ç¾åœ¨ã®ãƒŽãƒ¼ãƒ‰ã®å¤šæ•°æ´¾çµè«–
     * @return
     */
    def result() = dataSets.map(s => s.result -> s.result).groupBy(_._1).map(s => s._1 -> s._2.size).toList.sortBy(_._2).last._1

    /**
     * P(x) ã®è¨ˆç®—
     * @param size
     * @return
     */
    def P(size: Double) = size / dataSize.toDouble

    /**
     * å€‹ã€…ã®ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼è¨ˆç®—
     * @param size
     * @return
     */
    def I(size: Double) = P(size) * Math.log(P(size))

    // ã“ã“ãŒçµ‚ç«¯ãªã‚‰ã€ã•ã£ã•ã¨çµæžœã ã‘è¿”ã™ã€‚
    if (isLeaf) {
      Leaf(result())
    } else {
      // ã“ã“ã¯æžãªã®ã§ã€å°è¦ç´ ã‚’ä½œã‚‹
      // ã©ã®ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã§åˆ†é›¢ã™ã‚‹ã®ãŒä¸€ç•ªã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ãŒå¤§ãã„ï¼Ÿ
      val ents = indexes.map(index => {
        // ã‚ªãƒ¼ãƒ€ãƒ¼
        val pair = dataSets.map(s => s.field(index) -> s)

        // ã—ãã„å€¤
        val threshHold = pair.map(_._1).sum / dataSize.toDouble

        // ã—ãã„å€¤ã§ãƒ‡ãƒ¼ã‚¿ã‚’åˆ†å‰²
        val data  = dataSets.map(l => (l.field(index) < threshHold) -> l)
        val left  = data.filter(_._1 == false).map(_._2)
        val right = data.filter(_._1).map(_._2)

        // ã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ã®è¨ˆç®—
        val entropy = i + (I(right.size) + I(left.size))

        if (left.isEmpty || right.isEmpty) {
          println("====================================")
          println("WARNING: Left or Right is Empty")
          println(s"DataSet: $dataSets")
          println(s"Index: $index, ThreshHold: $threshHold")
          println(s"Left: ${left.isEmpty}, ${right.isEmpty}")
          println("====================================")
        }

        (index, threshHold, entropy, left, right)
      }).sortBy(_._3).last

      val left  = ents._4
      val right = ents._5

      def makeNode(subset: List[Line]):Option[Node] = {
        val subIndexes = indexes.filterNot(_ == ents._1)
        if (subset.isEmpty) None
        else Some(createNode(ents._3, subIndexes, subset))
      }

      Branch(ents._1, ents._3, ents._2, makeNode(left), makeNode(right), result())
    }
  }
}

object IrisForest extends App {
  // ãƒ‡ãƒ¼ã‚¿ã‚½ãƒ¼ã‚¹
  val all = Resource.read()

  // åˆæœŸã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼
  val I = RandomForest.defaultEnt(all)
  println(s"åˆæœŸã‚¨ãƒ³ãƒˆãƒãƒ”ãƒ¼ : $I")

  // è³ªå•ã«ä½¿ãˆã‚‹ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹
  val indexes = (0 to (all.head.field.size - 1)).toList

  // å¦ç¿’å™¨ã®ä½œæˆ
  val mls = (1 to 20).map(_ => RandomForest.createNode(I, indexes, RandomForest.dataSets(all))).toList

  mls.foreach(_.dispTree(""))

  // å‹•ã‹ã—ã¦ã¿ã‚‹
  // 87    6.7 3.1 4.7 1.5 versicolor
  val data = List(6.7, 3.1, 4.7, 1.5)
  println(s"TEST: 87, 6.7, 3.1, 4.7, 1.5 versicolor, Results: ${mls.map(_.test(data))}")
}

æŠ€è¡“ã‚’ã‹ã˜ã‚‹çŒ«

é©å½“ã«æ°—ã«ãªã£ãŸæŠ€è¡“ã‚„è¨€èªžã€æ€ã£ãŸã“ã¨è€ƒãˆãŸäº‹ãªã©ã€‚

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆã‚’å®Ÿè£…ã™ã‚‹

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆï¼Ÿ

ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ

å‹‰å¼·ä¼šã®é›°å›²æ°—

å®Ÿè£…(å‹•ç‰©ã®è˜åˆ¥)

ã‚¢ãƒ¤ãƒ¡ã®ç¨®é¡žè˜åˆ¥

ãƒ©ãƒ³ãƒ€ãƒ ãƒ•ã‚©ãƒ¬ã‚¹ãƒˆï¼Ÿ

ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ

å‹‰å¼·ä¼šã®é›°å›²æ°—

å®Ÿè£…(å‹•ç‰©ã®è­˜åˆ¥)

ã‚¢ãƒ¤ãƒ¡ã®ç¨®é¡žè­˜åˆ¥

å‹‰å¼·ä¼šã®é›°å›²æ°—

å®Ÿè£…(å‹•ç‰©ã®è˜åˆ¥)

ã‚¢ãƒ¤ãƒ¡ã®ç¨®é¡žè˜åˆ¥