概率模型及评判

概率模型既可以判断某个事项是否在给定的类别中,也可以范湖该事项在这个类中的概率估计值。

  • 决策树
  • 逻辑斯蒂回归

评判

  • ROC

    發源于信号检测理论。https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF#.E6.9B.B2.E7.B7.9A.E4.B8.8B.E9.9D.A2.E7.A9.8D.EF.BC.88AUC.EF.BC.89 Receiver Operator Characteristic Curve(ROC Curve)。

    TPR:y轴。TPR = TP / (TP + FN)。在所有实际为阳性的样本中,被正确地判断为阳性之比率。FP:诊断为有,实际却没有。

    FPR:x轴。FPR = FP / (FP + TN)。在所有实际为阴性的样本中,被错误地判断为阳性之比率。FN:诊断为没有,实际却有

    画曲线:

    曲线解释:越接近Y轴越好。理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,Sensitivity、Specificity越大效果越好。

# Code of previous exercise
set.seed(1)
tree <- rpart(income ~ ., train, method = "class")
probs <- predict(tree, test, type = "prob")[,2]

# Load the ROCR library
library(ROCR)

# Make a prediction object: pred
pred <- prediction(probs,labels=test$income)

# Make a performance object: perf
perf <-  performance(pred,"tpr","fpr")

# Plot this curve
plot(perf)

  • AUC

    Area Under Curve。

    ROC线下的面积。

> perf@y.values[[1]]
[1] 0.00000000 0.06634657 0.10257529 0.52204278 0.89436927 1.00000000
  • 对数似然估计
  • 偏离值
  • AIC

results matching ""

    No results matching ""