Ad Targeting at Yahoo

这是Greg大神的一篇Blog,读完顺便翻译了一下,原文地址在此。(blogspot需翻墙)

Web-Scale User Modeling for Targeting是一份论述详尽,很值得关注的论文,将在2012 www大会上发表(插一句,前两天autoben刚看到www 2012上mobile web的一篇很好玩的文章,Stanford几个人做的,将web页面对电池性能的消耗问题,很有意思),为我们提供了许多得以知晓yahoo是如何搞的个性化广告。

总的来说,论文研究并阐述了用于yahoo产品中的,用来构建海量用户资料(profile)的系统。复杂的用户资料则包括数以万计的特性,用于从用户访问的页面、进行的搜索、看过、点击过、购买过的广告等方面概括表征用户的兴趣。

研究员表达了通过训练系统来提高转换率而不是仅仅点击的重要性,他们量化用户最近行为的重要性(用户最近几天的行为轨迹)、使用良好粒度的数据(分类细致)、使用海量资料以及广告方面的数据(这个数据量很大但是质量很低,因为同一个页面上有太多广告),然后发现这些数据起到了显著的帮助作用。

以下是一些原文引用:

我们介绍我们在建设用于优化yahoo定向广告“web-scale user modeling”平台的经验….(通过)理解不同用户活动的作用来预测,(洞悉)用户行为的临时特征(近期 vs 长期趋势),探索不同的变量(用户表现和定向标签),通过大量在线与离线的实践,我们把平台部署到了产品中,和之前相比,获得了大量量化能力的提升,例如eCPA。

我们的目标是提炼使用用户过去行为来定向的的约束条件,这样,我们可以提高广告的转化率而不是一味地提高曝光量。

通过聚合不同系统/产品的日志而得到用户的资料,例如来自yahoo news和yahoo财经的日志,基于目前有的广告分类体系,我们考虑了几个不同的事件,包括:PV,页面分类,搜索,搜索结果的点击,搜索广告链的点击,以及搜索查询的种类,广告的观看,广告的种类等等。

我们的结果表明:如果更关注长期行为而不是短期行为的话,会导致系统的性能的降低。很明显,近期的行为与用户当前的兴趣有着清晰、直接的关系,但,尽管最近的行为比早期的行为更重要,我们仍然需要纳入长期历史数据来获得完整的用户特征。

结果表明:我们系统原来的不少特性完全没有鉴别力,但是有很少一部分特性的确牛逼,如果我们干掉所有原来的功能,只保留分类类别的话,。。。。。。(后面的术语没有明确解释,主要是说保留分类之后的数据变化)

十分有趣,我还好奇:

  1. 他们发现近期数据十分有效,但却仍然只是按日更新用户profile,那如果按小时、甚至实时更新应该有更大价值,这样的话,系统就可以对外界立刻做出反应。例如,有人正开始浏览Hawaii渡假的信息,则可立刻为他展示相关的广告,而不是等到明天,那太晚了,但是不幸的是,我怀疑如果不能试试更新精确的兴趣的profile的话,我们也就无法真的在提供相关有用的广告信息中获益。结果表明:按日的效果好于按周更新,但是和按秒更新(实时更新)相比,只是浮云。
  2. 他们发现原始特性(例如孤立的搜索和pv)没什么价值,但是如果包括一些信息的时候会变的很有意义。为什么不考虑把PV、搜索分类方式/架构弄的更精细一些呢?例如,不只是有pant这样的类别,还有men’s boot cut jean这样更细粒度的分类,或者更好的方案是提供更精确的关联性,例:对men’s boot cut jeans的推荐而言,不只是在对所有pants有较弱的兴趣中展示,也应该在那些确认对men’s flannel shirt有强烈兴趣的用户中展示。

如果你也对这篇论文有兴趣,可能会想读另外一篇来自yahoo的最近的文章——“Learning to Target: What works for Behavioral Advertising”(ACM), 这是一篇被本文多次引用的论文,主要阐述的是在用户profile模型中使用到的特性,讲的比较细致,也有一些其他的试验结果。

或者也可以看我2007年的blog——“what to advertise when there is no commercial intent ”

–eof–

 

Posted in Targeting&recommendation | Tagged , , | Leave a comment

那些牛逼到逆天的创业点子(九)——执行策略

踢踢踏踏地到今天才想起还有最后一部分没有收尾:(

请允许我用一些策略上的忠告来收尾吧。如果你有意着手之前我提到的idea之image一,别直愣愣地搞。例如,别一上来就说你要革了email的命,这样你会背负太多压力,员工和投资人就会不停地问:“啥时候能搞定email”?并且会广泛树敌,他们很乐意看到你失败。你只需要淡定地说你随便搞一个todo的应用就好了,不会让人觉得威胁,直到你搞定了一切以后,人们才意识到你已经革了email的命。

从经验上而言,应该大处着眼,而从那些不引人注意的小处着手。如果想支配整个PC的软件业,那么就需要先为只有几千用户的机器开发一个Basic的解释器看看。想搞一个全球都使用的网站?那就先为哈佛的本科生做一个泡妞用的网站,让他们先用起来吧。

经验之谈,从小处入手不一定只是为了其他人的需求,你应该从满足自身的需求出发,盖茨和zuckerberg一开始都不知道能搞出这么大一摊子来。这样看来,一开始就有很大的野心可能不是什么好主意,毕竟野心越大,耗时越长,而且项目周期也就越长,出错概率也就越大。

在着手那些big idea的时候,我建议不要试图去设置精确的里程碑和时间点,然后问自己怎么去搞定,就像空想家设计的蓝图那样。你最好先开始,像哥伦布那样先动手,然后朝西走;不要试图像盖房子那样规划未来,因为你现在的蓝图有可能都是错的,从你熟知的入手,然后一路朝西吧!

空想家的设计蓝图会对未来有十分清晰的规划和展示,但根据经验,最好是设定一个模糊的未来方向就可以了。

–EOF–

Posted in product everything | Tagged , , | Leave a comment

那些牛逼到逆天的创业点子(八)——不间断体检服务

听起来是一个新方向?不过先别激动,另外一项相关业务会遇到很大阻力的——不间断的自动化医学体检。

我思索创业idea的技巧之一就是以未来的眼光向后看来打量现在,站在未来的角度上考虑问题。如果以50或者100年以后的人的眼光来看,他们一定会觉得“直到检查出心脏病或癌症的症状”才去治是意见很野蛮很原始的事儿。

我举个例子吧,2004年时,克林顿感觉到有一些呼吸急促,结果医生发现他的部分动脉产生了90%的阻塞,经过3天治疗,状况好转了四倍。基本上可以认为克林顿拥有这个世界上最好的医疗条件,但他也只能在血管已经被阻塞了90%之后才知道。在未来,这些健康指标我们会很容易知晓,就像体重一样,即使癌症也一样。

在后人看来,知道病人被查处癌症引起的身体症状反映才去检查是一件很荒谬的事情,今后,和癌症有关的指标会在某种仪器的屏幕上很方便地显示出来(当然,仪器上显示的数据可能与我们现在认识的癌症有所区别,我相信在任何时间内我们都有很多很多微小的癌细胞,不过都不碍事)

真正阻碍这样不间断体检发展的原因是这样会影响到医学专家的收益。医生工作的方式是病人来找他,然后医生指出哪儿有问题。许多医生并不喜欢在医学上的非医检查,这事儿就像律师嘴里的非法审查一样——当你都不知道需要检查什么的时候就做检查,那些医生管这样检查到的问题称为“意外癌症”,这的确是让人讨厌的东西。

例如,作为研究,我的一位朋友曾经做过脑部扫描。当医生研究发现脑部出现大的肿瘤时,她吓坏了,但进一步检查后得知,那只是良性囊肿而已,但这也让她好几天睡不着了。医生担心在没有症状表现的情况下进行检查,会面临很多这样的问题:大量的错误信号让人恐慌,而且会促使人们采用昂贵甚至有害/危险的办法来解决这些错误的信号,但我觉得这些只不过是人为限制罢了。

如果人们一直进行检查,我们会在确认是否真的出现问题的时候做的更好,对我的那个朋友而言,他就会知道囊肿而且知道这东西没什么害处,就像一块儿胎记那样。

对很多创业的idea都是有疑问的,除了技术上的难题以外,所有医疗类创业项目都会遇到官僚体系的阻力,这些创业者需要挑战数千年形成的医疗传统,这可不是件容易的事儿。但即使如此,也会有人冲破束缚取得成功,而且会成为人类史上的大好事,好到会让未来的人为今天的我们感到歉意和难过,就如同我们为麻醉、抗生素发明之前的人们所受的痛苦感到难过一样。

Posted in product everything | Tagged , , | Leave a comment

那些牛逼到逆天的创业点子(七)——重拾摩尔律

过去10年的发展提醒我们不要忘记摩尔定律的真实含义。直到2002年,image你都可以错误地认为摩尔律保证每18个月处理器的时钟频率会倍增,但事实上,摩尔定律说的是每过18个月,单位面积电子管/晶体管的数目会翻一倍。以前区别这两者会被认为是学究的做法,但现在不会了,intel也无法再搞出更快的CPU了,只是提供更多的核心而已。

这个关于晶体管的摩尔律远不如时钟频率的摩尔律给力,之前的摩尔律意味着,如果你的软件运行缓慢,等一等就OK了,硬件发展的浪潮会解决你的问题。而现在,如果软件运行缓慢,就得考虑重新编码,在并行计算上做一些工作,这可比等待辛苦太多。

如果有创业团队能继续带给我们之前摩尔定律的红利该是多么美妙,让开发者可以简单处理多核心编程,就像是处理一个更快的单核CPU那样。对此,有几个可能的思路,最牛逼的想法就是完成这一过程的自动化:搞一个能并行处理代码的编译器——也就是足够智能的编译器,你脚的这事儿靠谱么?

现代计算机内存的位数能不能被智能编译器配置?(这一句不太确定)如果你也这样想的话,就证明吧,会是一个很有趣的答案,即使困难,但是只要不是完全不可能,也值得去尝试,可以预期的价值很大,即使成功率不高。

Webservice是高价值的预期原因,如果你的软件能够像过去那样为开发者提供便利,就可以以Webservice的方式来提供服务,这就在事实上就获取了所有用户。

如果有另外的cpu厂商能把增加的元器件密度转换为增加的运算速度,他们就能接管几乎所有intel的生意,如果你搞出一个足够智能的编译器,那你的公司就能把计算核心转化为计算速度,这是一件足够牛逼的事儿,至少在服务器市场上,因为Webservice就意味着不用看到具体的CPU。

最保守的解决办法是从问题的另外一端入手——帮助开发者完成并行开发,就像Hadoop和MapReduce那样,只是这样的话,开发者依然要为程序优化耗费不少精力。

还有一种有趣的折中方案,就是做一个半自动的、需要人肉介入的东西,对用户而言,就是一个智能编译器,但是后台有人参与,通过高效高性能工具帮助用户消除程序中的瓶颈,这些人可能就是你的员工,这样你就开创了一个优化的市场空间。而这个代码优化市场将会一步一步、逐块地搞出智能编译器,因为市场参与人很快就会开发自动化机器人来帮助人肉完成工作。如果你能掌握机器人搞定所有工作的要点,局面就会变得奇怪起来,因为你能搞出“智能编译器”,但没有人能获得完整的编译器copy。(大笑,想起联想的语音助理call center)

我知道这一切听起来就像是天方夜谭,事实上,真正让我喜欢这种idea的原因就是因为这些路都行不通。专注于优化的生意在过去几十年都是软件开发的主流趋势,而开发更智能的编译器则被认为是错误路线。即使不这么着,编译器基本都来源于开源项目而不是商业公司,此外,这样的编译器还会让傻逼程序员下岗,他们可是觉得在现在令人发笑的复杂度下开发多线程应用是一件愉悦的事儿lol~我参加的那些论坛和社区甚至不知道该怎么来反驳这个项目(智能编译器)。这也就是我看好的创业点子。

Posted in product everything | Tagged , , | Leave a comment

那些牛逼到逆天的创业点子(六)——下一个乔布斯

image最近我和一些“果粉”聊天,当问到可不可能会有企业像乔布斯的苹果那样维持旺盛的创新力,他们的答案很简单——“绝壁不可能”。我问了更多的人,我注意观察他们证明他们观点的方式,但是事实上,他们压根不证明——不,不会有比现在更好的东西了。我相信,苹果的收益会在很长的时间内继续上涨,但收益对于科技公司而言,就是落后(哥读到这里也被震惊了!)、缓慢的代表,看看微软的过去和现在,你就全明白了。

那这样的话,如果苹果不去开发下一个iPad,谁会去干?我觉得现在这些公司都不可能,这些现存的企业都不是由产品梦想家运作,根据经验,你不可能雇佣到一个真正的产品梦想家。通常让一个狂热、偏执的产品梦想家作为CEO只可能是由他亲自来创办公司而且不会被搞下台。这样的话,带动下一波设备潮流极有可能是创业公司。

当然,我明白,对创业者而言,让他们做出像苹果那样的航母型公司听起来就像是一个不切实际的梦。但是话又说回来了,对于过去的苹果,何曾想到会有今日风光,还有比这更有野心的么?但评估做到了,而且对今日创业者而言,还可以学习苹果这个榜样和经验。要知道,早期的苹果可没有这样的学习材料,乔布斯已经告诉我们什么是可能的,这对下一位可能的“乔帮主”鼓励很大,就像Roger Bannister那样,证明你可以比前人做的好得多。而另一方面,如同奥古斯塔那样,把你的想法注入用户的心中,那么你个人就能为他们描绘未来的样子。

乔布斯已经仙去,留下了一个真空地带,如果有公司大胆地引领设备发展方向,用户也会跟随他们的,而这家公司的CEO,就会是下一个乔布斯,可能比不上真乔布斯,但他也不必一定成为乔布斯,他只需要比HP、三星、NOKIA做得更好就行,而这是完全可行的。

Posted in product everything | Tagged , , | Leave a comment

那些牛逼到逆天的创业点子(五)——互联网影视

在拥抱image互联网这事儿上,好莱坞就像个老太婆一样不给力,这是件很傻逼的事儿,因为无论是付费订阅还是内容分发,现在已经分出胜负了,是互联网而不是电视网络。

电视网络的槽点实在数不胜数,其实不只是电视网,电视机本身也是这傻逼操行。拿我自己来说,我家已经等不及apple TV上市了,就在几个月之前,我们用螺丝把一台iMac固定在墙上,用来取代家里最后一台电视。虽然用无线鼠标来操控有那么点儿不方便,但整体上体验比以前那崩溃的电视界面而言,实在好太多了。

现在看起来,人们在观看电视和电影这事儿上常常会被一些完全不相干的事情所影响,例如社交类应用,而那些稍微有些关系的东西就更容易影响到更多人,比如游戏。就现在的情况来看,社交网络虽然和观看电视电影没什么关系,但是的的确确占用了时间,游戏占据的更多。

饶是如此,仍然会有一些传统观看行为的需求,例如坐在沙发上等着一幕剧情。

那如果这样的话,如果通过互联网来分发影视节目?但是不管你怎么做,也不管你做什么,一定要比youtube Clip要详细一些,要知道人们坐下来欣赏节目的时候,他们想知道他们会看到什么,要么是他们熟悉的演员角色,要么就是他们提前预知基本信息的电影。

分发和支付有两种解决方案,要么通过娱乐版的appstore,比如netflix或者apple,通过他们来获得观众,如果这些所谓的appstore管的太宽或者运作太不灵活,弹性扩展性都不足的话,那你可以直接向制作人提供支付和流媒体服务,帮助制作人和用户之间搭建桥梁通路,如果这条路能搞定,那么提供这样基础服务的公司就会有市场。

Posted in product everything | Tagged , , | Leave a comment

那些牛逼到逆天的创业点子(四)——弄死大学

关于大学,近些时间来,到处都有人在关注这个idea,可能有人已经想到了一image些好点子?

我很不情愿指出这一点,但是由于过去几十年内的错误,存在有千年之久的研究机构基本走到末日了,美国的大学在过去几十年看上去朝向一条错误的道路,这一切,本来可以用更少的成本代价达到更好的效果。

我知道,大学并不会彻底消失,但他们会丧失在教学领域的垄断地位,会出现很多种不同的 学习方式,和传统的大学大相径庭,而爷的YC就是其中之一。

改变人们的学习方式是一个大问题,以至于会引起一连串的链式反应。例如,大学的名头会被很多人(不管是否正确)认为是这个人能力的凭证,如果学习被分割成散户,那么文凭也就会随之分离,大学校园的生活也就不应该继续存在(十分奇怪,YC也有些校园的味道)。当然,你也可以想办法干掉高中,但是会遇到很多官僚体系的阻力,会让创业变慢,相比而言,大学会是一个更好的起点。

Posted in product everything | Tagged , , | Leave a comment

那些牛逼到逆天的创业点子(三)——干掉该死的Email

现在电子邮件的使用方式已经大大背离了设计的初衷,已经不是通信工具而成image了一个To-Do List,至少,我的收件箱就是一个To-Do List,而那些邮件就是待办事项,但是这个To-Do List是十分操蛋的。

我尝试过几种办法试图来搞定这个问题,但是这些都是基于inbox的小调整,远远不够解决问题,必须要用完全不同的思维来代替电子邮件。新的模式应该瞄准To-Do List的特点而不是通信工具的特性,虽然说有些最原始最基本的任务就是发件人希望你阅读邮件即可。

如果按照To-Do List的思维,新模式应该比现在的email更多强调收件人的权限,必须对那些能在你list上添加待办事项的人要做出一些限制。如果有人希望添加事项,那么他应该把他的目的表达的足够清晰,除了我阅读邮件之外是否还希望我做些其他工作?这样的工作是重要的么?(朋友,真的是时候防止人们把所有事儿都加上“重要”的标签了!)另外,这些待办事项有时间要求么?

时代在发展,那些顽固不化的事物迟早会被不可抵抗的时代前进力量钉在耻辱柱上。而To-Do List只是其中之一。一方面,那些根深蒂固的协议模式难以撼动,但另外一方面,人们在今后100年都继续忍受现在这些的“邮件焦油坑”也不大可能。这样的话,既然有朝一日email会被干掉,为什么不是现在呢?(这是一个极其牛逼的思路,注意体会

如果你干的好,就会避免新事物面对的“先有鸡还是先有蛋”的问题,因为这个世界上那些最有权势最有power的人会成为你的第一批用户,因为他们太离不开邮件了。

无论你做的是啥玩意,务必让它运行速度快一些,在快一些,gmail已经变得慢起来了,那么即使你的产品并不比gmail更好,但是很快,仅凭这一点,就能把客户从gmail上吸引过来。另外,gmail变慢的原因是google不再投入,但用户愿意为速度付费,我个人至少愿意付50美刀/月,考虑到我在email上投入的时间,50美刀的价格似乎有些保守了,至少1000美刀/月。听起来很贵是么?但是要知道每天我都在邮件这事儿上花上好几个小时,那么这仍然是一种让我生活变得更好的便宜办法。

Posted in product everything | Tagged , , | Leave a comment

那些牛逼到逆天的创业点子(二)——更好的搜索引擎

image

那些最好的点子通常都恰巧出现在人们觉得不可能的地方。搞一个新的搜索引擎这样的点子我不能很确定是不是靠谱,但是的确有一些积极的迹象正在出现。搞一个新的搜索引擎就意味着和google开火,最近我已经发现有这样的迹象——有人已经渗入了google搜索的堡垒。

当微软决定(09年发布bing)进军搜索领域的时候,我就知道他们乱了阵脚。这样的变化对于微软而言是生硬的,他们之所以干这样又傻逼又二逼的事儿是因为他们害怕google,考虑到google的主要业务都在搜索领域,那微软的这样的行为只有两种可能:

1、微软的发展策略来自google的动向;

2、微软的发展规划做的都是他们不擅长的事情。

这一切,就像google进入社交网络领域一般。

虽然这并不是证明新的搜索引擎会拥有生存空间的好理由,但是近来我使用google的时候,总是怀念过去的时光。那时候,google很好地展现了他们的信仰,总是为我快速、简洁地提供正确的答案。但是现在,搜索结果就像被那些科学狂热爱好者爆菊一般——呈现出一种“对你正确的就是客观的”的气质,页目也不再像过去那样整洁,过去google返回的结果看上去就像是Unix Utility输出一样实用而高效,而现在,一旦我不小心把鼠标移到一个错误的地方,后果不堪设想。

一个可能的思路是搞一个黑客专用搜索引擎,当最顶尖的10000名黑客都是你的用户的时候,不管你的产品有多小,也不会再有人能搞死你,就像曾经的google那样。由于能把这样的idea实现的人极有可能就是那最顶尖的10000名黑客之一,那么发展路线就更加清晰直接了——做一个你自己喜欢的搜索引擎就好。让你的搜索引擎充满黑客精神,在code搜索方面要表现的十分好,例如,你会希望你的产品是图灵完备的么?因为只有确实好的东西才会吸引这最群最顶尖的人儿。

不要担心你喜欢的、想做的东西会把你拖入持久战的焦油坑中去,因为如果你没有获得种子核心用户,就不会有这样的可能性,如果你和你的好朋友更喜欢你的作品而不是google的话,那么你已经完成IPO10%的工作了,就像facebook那样(这一点,甚至连他们自己都没有意识到),当哈佛所有本科生都是他们的用户的时候,整个世界都是他们的了。

Posted in product everything | Tagged , , | Leave a comment

那些牛逼到逆天的创业点子——引子

这实际上是Paul Graham在3月份的演讲内容,原文image题目叫做《Frighteningly Ambitious Startup Ideas》,可以在PG大神的网站上找到,抽空翻译了一下,分章节放出来吧,加引子的话应该8个部分,今天是引子。

那些无比牛逼创业计划

Paul Graham · March 2012

在YC工作的时候,那些可以说能撬动世界的创业计划让我惊奇不已。我今天会通过实例来介绍这样的YC现象。这些点子中的任何一个都能让你成为亿万富翁,听起来前景十分诱人,但是别急,等我说完,你会觉得你会像个屌丝一样变得畏缩不前。
不过别担心,别讨厌你自己,虽然会想退缩,但是并不意味这你软弱,甚至可以说你这样的表现是明智的,那些最有野心的idea之所以能让人觉得害怕让世界为之颤抖,并非因为这些idea需要付出很多工作,而是会让你怀疑对自身的认识:你并不确定你是否有足够强大的内心去搞定这些牛逼点子。
对我们而言,那些牛逼的idea,就像《Being John Malkovich》中那样,当书呆子邂逅那个阅人无数、令人着迷的女人时,女人对他说:“如果你之前曾经拥有过我,那么你现在不会知道和我在一起能做些什么”(这句话我理解的意思要有好奇心,之前的经历经验甚至会对现在你的思路造成局限,大意就是放开思路)。
这就是那些牛逼点子给我们的启示。
关于创业,首先你需要明白最重要的一点。(注释:这一点也是那些傻逼VC无法理解的,他们希望对未来有清晰的计划,然后通过这些傻逼计划来判断。只有少数有觉悟的VC明白,那些最牛逼的点子,最初的计划和最后事实上的发展结果之间几乎没什么关系)。通常你会觉得那些有着雄心壮志的idea是很吸引人的,但是事实上,会让你很不爽,而且还会引起一串连锁反应。正因为如此,那些成天琢磨创业点子的人,也会对这些牛逼到逆天的idea选择性失明。即使是那些最有野心的人,也只是在不断迂回之后才会真的认识到这些点子。

Posted in product everything | Tagged , | Leave a comment