从聪明机器的杀手锏说到全自动智能DSP原理

    |     2016年3月17日   |   DSP   |     0 条评论   |    496

从大狗“被虐”谈起

在讲原理前,让我们先转移一下注意力, 从“无人驾驶汽车”转到”字母表”旗下的Boston Dynamics公司(http://www.bostondynamics.com/),看一段去年“网红”视频的多帧截图。

图1 Spot被侧踢后踉跄回稳

http://thenextweb.com/insider/2015/02/09/boston-dynamics-shows-off-new-robot-dog-dooms-us-kicking/

视频中可怜的四足机器人名叫Spot,是名噪一时的“大狗 (BigDog)“ 的小型升级版。受DARPA资助, Boston Dynamics公司从2005年就开始研制此类四足机器人。 在人的引导下,“大狗”能自主适应崎岖复杂的地形;也能如图1显示的那样,受到突发外力干扰时,能迅速恢复到平稳运行状态。 美国军方希望未来能在传统车辆不能行进的地形上,用这种“机器骡子”替士兵载送物资。 从已发布的宣传视频上看,它的行为实在太像真实的狗狗了,以至于这种无端被踹的“惨剧”引来了许多网民的同情和抗议。

我们可以从“大狗”联想到正题:全自动智能DSP。两者在某种意义上颇为类似。“大狗”自主应对的是复杂的物理地形, 而全自动智能DSP面向的是变化多端的数字环境;“大狗”必须主动协调四肢,保持平稳运行; 而全自动智能DSP也得自主优化竞价策略,保证广告主的收益能“最大化”(用有限的预算,获得最多的点击、订单或者收入)。“大狗”明显已经做得很好了,RTB中的DSP如何才能做到类似的“全自动“呢? 我们先得讲讲竞价策略的关键元素,它们是自动化工作针对的主要对象。

竞价策略的三剑客

图2 竞价策略核心

通俗地讲,竞价策略是DSP开展竞价时采用一套方法。图2中的黄色框描述了竞价策略的核心部分,包含了三个关键的子策略:

1.曝光机会(Impression Opportunity)估值

DSP竞价购买到的是曝光机会(广告展示机会),RTB交易市场中可供选购的曝光机会数以百亿计。曝光机会估值策略会分析每次曝光机会携带的信息,计算它对广告的价值。此策略的重头戏是在“人群挑选和估值”, 也就是,该选什么样的人群?如何评估人群中每个人(实质上是设备或者浏览器)的价值? 只有价值评估准了,定价才能有的放矢。

2.消耗节奏控制 (Budget Pacing)

解决在总预算有限的条件下,如何在时间维度上,合理地分配预算,尽可能地获得高价值的曝光机会。粗暴点的说法就是,哪个时间段好鱼多了(高价值曝光机会聚集),就开始多撒网(加大预算)。

3.定价

确定每个曝光机会的价格。影响定价的因素很多,包括,当前消耗节奏控制窗口内的预算额度、曝光机会的价值和其他相关条件。定价子策略要解决在当前预算条件下,如何从价格角度,尽可能地捕获高价值的曝光机会。

如果DSP优化师借助算法和工具, 在上述三个核心子策略上都做好了,就能形成一个高效的竞价策略。正如第一篇文章提到的,DSP优化师实际上不可能做得很好。手忙脚乱地凑出一个差不多的竞价策略,是优化师的家常便饭。在“风云多变”RTB市场上,如果自动化机器要战胜DSP优化师,除了拥有“神一般”的计算速度,还必须变得足够聪明。为此,它要获得什么样的杀手锏呢?

聪明机器的“杀手锏”

图3 竞价“机器人”

我们先把全自动智能DSP想象成一个像“大狗”一样的机器人,如图3的结构。它的前肢就是定价算法,后肢是消耗节奏控制算法,它的“火眼金睛”便是曝光机会估值算法。作为需求管理方的广告主就是机器人的引导员,他通过某种设备界面引导DSP达成业务目标。RTB市场则是一个崎岖复杂的地形。这个机器人DSP只有具备了以下三个杀手锏,才能有资格单挑DSP优化师。

自主协调

三个核心算法必须能协调一致地工作,不会出现相互冲击和干扰的情况。曝光机会估值相对独立,估值变得准确就万事大吉了。它可以自个儿埋头更新和优化价值预测模型,不用考虑其他算法。而消耗节奏控制和定价算法则不然,它们均有控制收益最大化的能力,需要特定的协调规则和方法。这就像前肢和后肢的关系,弄不好,就会相互“打架”。

常见协调方案有如下两种:

  1. 由消耗节奏控制算法主导收益“最大化”行动, 直接领导定价算法。优点是控制简单,调整快速;缺点是定价算法不能太复杂,要适合在线计算。
  2. 消耗节奏控制和定价独立行动,依赖某种沟通机制相互协调。优点是可以设计复杂的定价算法,优化能力更强;缺点是沟通机制不当,就会产生相互冲击,效果反而变差。

良性循环

DSP系统要自主行动,必须建立起竞价数据的反馈闭环。简单点讲,竞价和曝光结果要持续反馈到三个核心算法,让它们有机会能及时更新模型,改进策略。单单有反馈闭环是不够的,它必须产生一种“良性循环”,而不是“恶性循环”。

这是为什么呢?

这是因为DSP系统的竞价策略会直接影响竞价和曝光数据的分布,而DSP又会参考反馈回来的这些数据,再更新竞价策略。竞价策略必须要控制好“开矿”和“探测”之间的平衡。打个比方,竞价就像作风险投资,不能把钱全部砸在一二个眼前来钱的项目,需要扩大投资面,保证未来有持续的收益。当然,投资面也不能扩得太大,否则短期收益就会变差。

如图4显示,一个过度关注短期利益的竞价策略会造成“恶性循环”。它总是偏向当前的某些价值热区。反馈来的数据,只会反映这些热点区域。当市场发生变化时,就无法探测到新的价值热区了,投放效果就逐步下降。右边的“良性循环”对应的则是一个“开矿”和“探测”两者平衡的竞价策略,能及时探测到价值热点的变化,调整竞价重心。

图 4 数据循环

反应灵敏

DSP系统必须要面对能快速应对各种波动和变化,最大程度减少人为干预。这些变化包括:

  1. 内部变化:比如,广告需求发生调整。
  2. 外部变化:主要是来自市场的波动和冲击。
  3. 极端情况: 例如,系统故障。

图 5 DSP面临的变化和冲击

人类无法接受一个迟钝的自动化过程。DSP必须要具备敏捷的身手, 能快速协调四肢和眼睛 (定价,消耗节奏控制和曝光机会估值),迅速恢复和保持平稳运行的状态,而不是踉踉跄跄,经常要人来扶一把。就如前面的“大狗”,如果不能快速适应地形,估计一开始项目就会被枪毙。

DSP系统是如何有效提升反应能力的呢?基于传统的批量学习方法,肯定是不够的。一方面是训练期代价太大,不适合大部分中小型营销活动;另外一方面,批量更新方式计算代价偏高。当系统需要维护的模型愈来愈多时,计算量也会飞速提升, 模型的更新速度也会下降。因此,DSP往往会采用更有效率的学习算法,能迅速捕获市场趋势的变化。另外DSP也会配备强大的模型监控和管理机制,应对意外冲击和极端情况。

DSP优化师的转型

如果机器比DSP优化师聪明,执行效率更高,DSP优化师是否就走上了失业的道路呢?答案是否定的。全自动智能DSP的诞生后,RTB广告只是不再依赖大量的优化师了。精明能干的DSP优化师将把工作重心转移到机器不擅长的领域,填补自动化流程中的缺失环节。具体工作内容包括:

  1. 成为广告主和机器之间的桥梁:协助广告主制定、管理和优化业务需求;
  2. 成为数据分析师,基于投放数据,帮助广告主分析投放效果和发现相关问题;
  3. 配合系统提示和要求,处理相关问题。比如输入机器不能确定的信息、帮助系统处理异常情况等。

总之,全自动智能DSP将推动DSP优化师从“操作优化”向“需求优化”转型。

转载请注明来源:从聪明机器的杀手锏说到全自动智能DSP原理
回复 取消