Logistic回归

来自集智百科
跳转到: 导航搜索

你在拉斯维加斯(也许只是单机PC版)玩着一系列“公平”赌博——如果“公平”真的存在!

有的赌博胜面小,你用1元押注就可以获得额外1024元的回报;而有的赌博胜面大,要押注2元;于是还有4元,8元的押注……

你想用一个“风险值”(Risk Score)描述公平赌博的胜面,需要押注每大一倍,说明胜面多一些,这个赌博的“风险值”就下降1分。

用线性变化的得分描述倍增/倍减的押注额,或者解决类似问题,你需要的是Logistic回归。

目录

定义

先从公平赌博开始讲:如果一场赌博,支付x元之后获胜能够超额得到A元,否则输掉这x元,那么你的胜率是多少?

令胜率为P,收益随机变量为X,可知

0=E(X)=AP-x(1-P); P=\frac{x}{A+x}

如果我们加倍赌注,胜率就变成了P^*=\frac{2x}{A+2x}

胜率不是在翻倍的,此时胜率/输率在翻倍(胜面对负面按比例扩张)

\frac{p}{1-p}=\frac{x}{A}, \frac{p^*}{1-p^*}=\frac{2x}{A},...

使用之前的等差线性风险记分来描述胜负面比例的等比大小,在不知道胜负面大小的时候,我们使用一系列观测变量的线性组合\beta_0+\sum_{i=1}^k{\beta_kX_k}来估计出胜负面比例,可以构建模型如下:

\mbox{Logit}(P)=log(\frac{p}{1-p}) = f(X) = \beta_0+\sum_{i=1}^k{\beta_kX_k} + \epsilon

其中联合正态分布的变量集\{X_k\}与正态分布的误差项\epsilon互相独立。

与线性回归的比较

如果在实际问题中,我们观测到的是一批偏向于“实验设计出”的数据,往往会得到如下形式的数据:

\bar{P}\backslash X 观测数 X1 X2
0.8 N_1 0 0
0.65 N_2 1 0
0.7 N_3 0 1
0.55 N_4 1 1

\mbox{Logit}(P)=log(\frac{p}{1-p}) = f(X) = \beta_0+\beta_1X_1+\beta_2X_2 + \epsilon

在数据点N的数目较大的情况下,先估计Logit(\hat{p})的方差,并给每一条观测加上适当的权重\sqrt{Np(1-p)},可以把问题简化为一般线性模型并使用最小二乘法迭代求解。

这样求解的问题在于,十分依赖变量需要离散化成为水平数有限的列名型或者序数型变量,考察变量间相互作用时往往带来大量待估参数。


Logistic回归求解

Logistic回归的目标在于如何更准确的建立泛用性的Logistic线性模型,允许变量集\{X_1,X_2,...X_k\}是连续型变量,如下图所示:

Y \backslash X 观测数 X1 X2
1 1 x_{1,1} x_{1,2}
0 1 x_{2,1} x_{2,2}
0 1 x_{3,1} x_{2,3}
1 1 x_{4,1} x_{2,4}

可以得到“事件发生/未发生”的单条观测,x_{i,j}可以取到连续值,但因为观测量只有一条,此时的目标变量变成了二值变量,无法再使用“先估计合理p再调整权重”的思路了。

为了解决这个问题,我们把Logistic回归放在“寻找参数的最大似然估计(MLE)”框架下求解。


求解最优问题:Newton-Raphson迭代

简化版问题:信用风险评分卡

相关wiki

个人工具
名字空间
操作
导航
工具箱