注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
ちゃお・・・† まいおり・・・† 不均衡データとは? 不均衡データとはクラスに属するサンプルサイズに偏... ちゃお・・・† まいおり・・・† 不均衡データとは? 不均衡データとはクラスに属するサンプルサイズに偏りがある不均衡なデータのことです。 例えば、ネット広告のCTR (Click Through Rate; クリック率) のデータは正例 (クリックした数) が少なく、負例 (クリックしなかったケース) がほとんどです。 そこでなんとか不均衡データを均衡にしていこうという試みがあります。対処法は大きく分けて2つあります。algorithm-level approaches (正例を誤答したときにペナルティを重くする方法) とdata-level approaches (正例と負例のサンプル数を調整する方法) です。この記事では後者について扱います。 以前に不均衡データに強いと謳っていたNegationNaiveBayesやその仲間について紹介しましたが、今回はimblanced-learnで
2018/03/19 リンク