这是Greg大神的一篇Blog,读完顺便翻译了一下,原文地址在此。(blogspot需翻墙)
Web-Scale User Modeling for Targeting是一份论述详尽,很值得关注的论文,将在2012 www大会上发表(插一句,前两天autoben刚看到www 2012上mobile web的一篇很好玩的文章,Stanford几个人做的,将web页面对电池性能的消耗问题,很有意思),为我们提供了许多得以知晓yahoo是如何搞的个性化广告。
总的来说,论文研究并阐述了用于yahoo产品中的,用来构建海量用户资料(profile)的系统。复杂的用户资料则包括数以万计的特性,用于从用户访问的页面、进行的搜索、看过、点击过、购买过的广告等方面概括表征用户的兴趣。
研究员表达了通过训练系统来提高转换率而不是仅仅点击的重要性,他们量化用户最近行为的重要性(用户最近几天的行为轨迹)、使用良好粒度的数据(分类细致)、使用海量资料以及广告方面的数据(这个数据量很大但是质量很低,因为同一个页面上有太多广告),然后发现这些数据起到了显著的帮助作用。
以下是一些原文引用:
我们介绍我们在建设用于优化yahoo定向广告“web-scale user modeling”平台的经验….(通过)理解不同用户活动的作用来预测,(洞悉)用户行为的临时特征(近期 vs 长期趋势),探索不同的变量(用户表现和定向标签),通过大量在线与离线的实践,我们把平台部署到了产品中,和之前相比,获得了大量量化能力的提升,例如eCPA。
我们的目标是提炼使用用户过去行为来定向的的约束条件,这样,我们可以提高广告的转化率而不是一味地提高曝光量。
通过聚合不同系统/产品的日志而得到用户的资料,例如来自yahoo news和yahoo财经的日志,基于目前有的广告分类体系,我们考虑了几个不同的事件,包括:PV,页面分类,搜索,搜索结果的点击,搜索广告链的点击,以及搜索查询的种类,广告的观看,广告的种类等等。
我们的结果表明:如果更关注长期行为而不是短期行为的话,会导致系统的性能的降低。很明显,近期的行为与用户当前的兴趣有着清晰、直接的关系,但,尽管最近的行为比早期的行为更重要,我们仍然需要纳入长期历史数据来获得完整的用户特征。
结果表明:我们系统原来的不少特性完全没有鉴别力,但是有很少一部分特性的确牛逼,如果我们干掉所有原来的功能,只保留分类类别的话,。。。。。。(后面的术语没有明确解释,主要是说保留分类之后的数据变化)
十分有趣,我还好奇:
- 他们发现近期数据十分有效,但却仍然只是按日更新用户profile,那如果按小时、甚至实时更新应该有更大价值,这样的话,系统就可以对外界立刻做出反应。例如,有人正开始浏览Hawaii渡假的信息,则可立刻为他展示相关的广告,而不是等到明天,那太晚了,但是不幸的是,我怀疑如果不能试试更新精确的兴趣的profile的话,我们也就无法真的在提供相关有用的广告信息中获益。结果表明:按日的效果好于按周更新,但是和按秒更新(实时更新)相比,只是浮云。
- 他们发现原始特性(例如孤立的搜索和pv)没什么价值,但是如果包括一些信息的时候会变的很有意义。为什么不考虑把PV、搜索分类方式/架构弄的更精细一些呢?例如,不只是有pant这样的类别,还有men’s boot cut jean这样更细粒度的分类,或者更好的方案是提供更精确的关联性,例:对men’s boot cut jeans的推荐而言,不只是在对所有pants有较弱的兴趣中展示,也应该在那些确认对men’s flannel shirt有强烈兴趣的用户中展示。
如果你也对这篇论文有兴趣,可能会想读另外一篇来自yahoo的最近的文章——“Learning to Target: What works for Behavioral Advertising”(ACM), 这是一篇被本文多次引用的论文,主要阐述的是在用户profile模型中使用到的特性,讲的比较细致,也有一些其他的试验结果。
或者也可以看我2007年的blog——“what to advertise when there is no commercial intent ”
–eof–