广告点击率预估系列

特征

Posted by Ming Tong on February 29, 2016

这广告点击率预估中,大部分情况是增加特征不会把模型的效果变差,最差的结果是增加特征模型效果不明显。当然这和模型的capacity有关,多数情况下,我们采用LR做点击率预估,模型的capacity较小,因此需要扩展特征数目来增加模型的capacity。用LR预估点击率时,采用的特征多为categorical feature,比如广告id,页面id,这些特征泛化性能较差,所幸的是大多数情况,在点击率预估时不需要考虑泛化性能,模型做的是记住某个类型的页面,某些广告的点击率。但总有时候,我们会遇见展现较少的广告,希望能估计这些广告在某个特定场景下的点击率。一些解决方案是引入层级特征,在数据稀疏的时候,借助高层聚集的数据。

在以往的ctr预估模型优化中,人工特征优化占了主流的地位。近年来非线性模型的大力发展,技术人员也慢慢的由挖掘人工特征转向构建高度非线性模型的方向。在特征信息充足的条件下,线性模型加大规模特征构建与复杂非线性模型加简单特征可以看作是互相对偶的,很多时候能够起相同的作用。近年来DNN,FFM,GBDT在ctr预估中的应用显现了非线性模型的巨大威力