Booking.com: Innovación en Reservas
Booking.com: Innovación en Reservas
com
Nuestra empresa ha pensado mucho en cómo hacer que la reserva de alojamientos sea informativa e
intuitiva para los clientes. Nunca dejamos de mejorar las experiencias de los usuarios. Todo es una prueba.
Gillian Tans, director ejecutivo de Booking.com, y David Vismans, director de producto, se rascaron la
cabeza por un experimento que uno de los directores de la empresa estaba realizando con millones de
clientes. La prueba involucró una nueva interfaz de cliente que tenía poco parecido con la página de destino
enormemente popular de la empresa, que la había impulsado a la plataforma de reserva de alojamiento
más grande del mundo (ver Anexo 1). Fue justo antes de Navidad y uno de los períodos de viaje más
concurridos de la empresa. La interfaz web del experimento constaba de un fondo azul, un cuadro de
búsqueda simple similar a Google en el centro y opciones de reserva que incluían alojamiento, vuelos y
coches de alquiler. Ni Tans ni Vismans creían que este experimento mejoraría la conversión de clientes
(visitantes del sitio web que realizarían una reserva), que era la métrica de rendimiento más importante de
la empresa. En todo caso, podría generar una confusión masiva y deserciones entre su base de clientes
leales, ya que no reconocerían la interfaz. Por mucho que Tans y Vismans estuvieran orgullosos del espíritu
de "probar todo" de la empresa, que permitía a los empleados lanzar experimentos sin la aprobación de la
gerencia, ahora se preguntaban si este experimento iría demasiado lejos.
Booking.com (en lo sucesivo Booking) había pasado de ser una pequeña empresa holandesa a convertirse
en una de las empresas de viajes online más grandes del mundo. Con sede en Ámsterdam, su sede se
distribuyó en 10 edificios para alojar a empleados de más de 100 nacionalidades. Su cultura orientada al
equipo enfatizaba la autonomía y el empoderamiento; Los nuevos reclutas fueron seleccionados por su
mentalidad de experimentación, que incluía pensamiento innovador, toma de decisiones rápida, valentía y la
voluntad de compartir abiertamente los fracasos. Booking se enorgullecía de conectar a los viajeros con la
mayor selección de hoteles y lugares para hospedarse del mundo. Cada día, se reservaron más de 1,5
millones de noches de habitación en su plataforma y ofreció más de 1,6 millones de propiedades en 227
países. Para cumplir con su misión de "capacitar a las personas para que experimenten el mundo", realizó
una fuerte inversión en tecnología digital para "eliminar la fricción de los viajes". Booking era conocido por
su implacable enfoque en el desarrollo de productos centrados en el cliente a través de experimentos en
línea, en particular las pruebas A / B, y por la forma en que había democratizado la experimentación en toda
su organización. En cualquier día, su personal realizó más de 1,000 pruebas rigurosas en su sitio web,
servidores y aplicaciones para optimizar las experiencias de los clientes. Con billones (millones de miles de
millones) de permutaciones de páginas de destino ejecutándose en vivo, los clientes que reservan una
habitación en su sitio web eran parte del ecosistema de experimentación de Booking.
La industria de viajes en línea comprende principalmente sitios de reseñas y comercio electrónico de viajes.
Los sitios de comercio electrónico de viajes permitían a los clientes comprar productos de viaje como
hoteles, vuelos y coches de alquiler, ya sea directamente a través del sitio web de una empresa de viajes
(por ejemplo, la aerolínea Lufthansa) o mediante una agencia de viajes en línea (OTA) que actúa como
intermediario.1 OTA tenía acuerdos con hoteles y otros proveedores de productos de viaje para comprar
parte de su inventario y luego permitía a los clientes reservar esos productos en su sitio web o mediante
aplicaciones móviles. Los sitios web de reseñas de viajes, como TripAdvisor, permitían a los clientes
compartir su experiencia con productos de viajes, por ejemplo, al calificar una estadía en un hotel, y a
menudo generaban ingresos a través de anuncios en su sitio web. Los viajeros de todo el mundo confiaban
cada vez más en los sitios de reseñas de viajes al reservar.
En 2017, las ventas globales de viajes en línea generaron 630.000 millones de dólares (un 11,5% más que
en 2016) y se esperaba que alcanzaran los 818.000 millones en 2020.3 Expedia Inc., The Priceline Group
(propietario de Booking), 4 y Ctrip de China se habían convertido en las mayores agencias de viajes del
mundo en reservas y ventas.5 TripAdvisor ocupó el primer lugar en número de usuarios.6 Las cuatro
empresas habían impulsado la consolidación de OTA para expandir la participación de mercado y ahora
competían con proveedores directos como hoteles.7 Las propias OTA se enfrentaban al desafío de nuevos
participantes, como el par -to-peer site AirBnB, y el gigante de los motores de búsqueda Google.8 Google
había lanzado una herramienta Hotel Finder en 2011, que en 2016 se había convertido en un servicio de
búsqueda de hoteles en toda regla. También había agregado la búsqueda de vuelos con enlaces a los sitios
web de las aerolíneas, lo que permite a los viajeros comparar y reservar vuelos y hoteles sin tener que
pasar por las OTA. Las OTA, que dependían en gran medida de Google para el tráfico de clientes, se
defendieron aumentando el gasto en publicidad. Priceline y Expedia gastaron más de $ 6 millones en
2016,9 y aumentaron el gasto en publicidad en 2017. Para 2017, se esperaba que Google generara $ 14 mil
millones en ingresos de su negocio de viajes. Los analistas especularon que Amazon podría estar entre las
empresas que ingresarán al sector de viajes.
Escala de construcción
Cuando me uní a Booking en 2002, mi familia pensó que estaba loca. La empresa todavía era pequeña; Yo
era el séptimo empleado. Tuvimos que arreglar tantas cosas. Muchas empresas comienzan con un buen
producto y lo comercializan en todo el mundo. Booking hizo lo contrario. Teníamos un producto básico y
luego trabajamos duro para hacerlo bien para los clientes. Pero descubrir qué les gusta es difícil. Nos
equivocamos tantas veces. Por ejemplo, pensamos que les gustaría ver videos de hoteles y luego nos
dimos cuenta de que no los miraban. O les creímos a los clientes cuando dijeron que irían solo por el precio
y luego los vieron actuar de manera diferente. A partir de 2004, realizamos pruebas simples para saber qué
opciones prefieren, inicialmente solo unas pocas veces al día sin ninguna gran tecnología detrás, y luego
construimos el producto según sus preferencias. Crecimos así, sin marketing ni relaciones públicas, solo
probando lo que les gustaba a nuestros clientes.
Vismans agregó: “Creo que Booking fue uno de los primeros en la industria de viajes en convertirse en
pruebas y basadas en datos. Es porque aprendimos que la intuición es incorrecta la mayor parte del tiempo,
especialmente en línea, donde no tiene experiencia con el comportamiento del cliente y la oferta y la
demanda coincidentes ".
Tans pensó que los orígenes holandeses habían sido beneficiosos: “Cuando comencé, solo operamos en
Holanda. Nuestro país es muy pequeño, pero los holandeses viajan mucho al extranjero. Para seguir la
demanda, construimos una plataforma internacional, mientras que nuestros competidores en países más
grandes se enfocaron en sus mercados locales ”. Una de las primeras decisiones de expansión de Booking
fue la selección de una oficina en Alemania. Vismans explicó: “La sabiduría convencional sugirió comenzar
en Berlín, donde se espera la mayoría de los turistas holandeses. Pero decidimos comprobar qué ciudad
aparece primero en las búsquedas de clientes. Resultó ser un pueblo llamado Winterberg, un paraíso de
esquí para los holandeses. Así que seguimos los datos y abrimos nuestra primera oficina allí ". Para
expandirse de manera eficiente, Booking se centró en construir un producto universal pero simple. Vismans
resumió los factores de éxito de la empresa: “Crecer a través de facilitadores clave, construir su producto a
través de la experimentación y seguir la demanda, junto con los conocimientos que esto genera para la
administración, hizo que la empresa se diera cuenta de que acertaron en algo grande; que si se ejecutaban
realmente bien, iban a estar en un lugar realmente bueno ".
Booking operaba con un “modelo de agencia”, en el que los clientes reservaban habitaciones en su sitio
web y pagaban directamente al hotel. Tans señaló: "Con este modelo puede escalar muy rápido, no
necesita una infraestructura de pago y los hoteles administran el inventario. Y es lo que prefieren los
clientes europeos. No están acostumbrados a pagar por adelantado y quieren flexibilidad ". Los ingresos
principales de Booking provinieron de las comisiones (con un promedio del 15% a nivel mundial) para las
habitaciones no canceladas, recaudadas una vez al mes mediante el envío de una lista de sus reservas a
los respectivos hoteles. A principios de la década de 2000, competidores como Expedia, con sede en EE.
UU. (Lanzado en 1996) ingresaron al mercado europeo, pero tuvieron problemas. Los nuevos participantes
operaban con un "modelo de comerciante", en el que compraban contingentes de habitaciones en hoteles y
cobraban los pagos en el momento de la reserva, lo que dificultaba la cancelación de los clientes. Tans dijo:
“Nuestros competidores eran más como agentes de viajes, con vuelos y otras opciones para las que ese
modelo comercial tiene más sentido. Y sus márgenes y flujo de caja se benefician de la recaudación
anticipada de dinero ".
En 2005, Booking estaba en camino de convertirse en líder del mercado europeo. Su éxito llamó la atención
de The Priceline Group, con sede en EE. UU., Que compró Booking por tan solo 133 millones de dólares en
efectivo y le dio a la gerencia el presupuesto y el mandato para escalar aún más.12 Casi al mismo tiempo,
Booking completó el desarrollo de una plataforma de experimentación que le permitió escalar las pruebas
también. Adrienne Enggist, directora de mensajería de productos, recordó: “Vengo de pequeñas empresas
donde los directores ejecutivos lanzaban un gran rediseño de productos cada seis meses y, cuando lo
implementaste, era difícil averiguar qué funcionaba y qué no. Aquí el equipo era pequeño, estaba instalado
en un piso, y fue emocionante ver a todos correr riesgos, impulsar pequeños cambios muy rápidamente y
usar experimentos para medir el impacto. La idea era que cuantas más líneas en el agua, más peces se
podían pescar. Y aunque la gente era menos conocedora de la experimentación que en la actualidad, era
fácil hacer las cosas ".
En los años siguientes, Booking aumentó las reservas y los ingresos rápidamente y se mantuvo centrado en
el alojamiento. Tans señaló: “Siempre sentimos que el alojamiento es lo fundamental para un viaje. Así que
es mejor que hagas bien el proceso de reserva y, durante mucho tiempo, sentimos que había mucho trabajo
por hacer. Muchos competidores se diversificaron demasiado pronto. Pero a veces es tan importante lo que
no haces. Siempre sentimos que si hacemos el mejor producto y construimos la máquina de ejecución más
rápida, ganaremos ”. A medida que el personal de Booking creció, la empresa también amplió su inventario
global de hoteles. Para diferenciar su experiencia de usuario, la empresa invirtió en una “Agencia de
Contenidos” escalable para idiomas, inicialmente utilizando traductores y cada vez más aprendizaje
automático, para presentar sus contenidos en un número creciente de idiomas. En 2014, el rápido
crecimiento de los experimentos provocó una revisión de su plataforma de pruebas y la estandarización de
sus métodos.
Para aumentar el inventario en su plataforma, Booking había construido una red global de hoteles y
proveedores de alojamiento, los llamados socios. Enggist explicó: “Somos una plataforma de dos lados.
Uno de nuestros desafíos interesantes es nuestra posición como una forma para que ambas partes se
conecten; para que un huésped encuentre el proveedor de hotelería y para que nuestro socio proveedor
muestre las ofertas de manera óptima ”. Desde el principio, Booking facilitó que los nuevos socios se
unieran y mostraran sus habitaciones a través de su extranet, aplicación o conexión de datos, en lugar de
tener que pasar por largas negociaciones y esperar a que las OTA pusieran las habitaciones en línea. Los
socios podían conectarse a la plataforma y administrar su inventario, cargando la cantidad de habitaciones
que querían poner a disposición, al precio establecido por ellos. Para reclutar y apoyar a los socios, Booking
tenía 200 oficinas en todo el mundo, con 4.000 gerentes de cuentas que actuaban como embajadores
locales y soporte de ventas para nuevos socios. Si bien la mayoría de los nuevos registros se realizaron a
través de un enlace web automatizado, los socios más grandes aún valoraban la interacción personal.
Booking fue uno de los varios canales de venta de sus socios. El valor agregado de la empresa consistió en
ofrecer a los hoteles una plataforma popular en la que pudieran comercializar el exceso de inventario en
todo el mundo. La reserva también ayudó a los propietarios a administrar su negocio de manera más eficaz
a través de análisis (información a pedido, precios, estadísticas agregadas de la competencia, reseñas de
huéspedes, etc.). A diferencia de TripAdvisor, Booking tenía un sistema de reseñas “cerrado”, en el que solo
los antiguos huéspedes de una propiedad podían dejar una reseña. Los buenos puntajes de revisión
ayudaron a las propiedades a subir en las clasificaciones de búsqueda predeterminadas y los puntajes de
ocho o más les dieron la opción de acceder a un programa de socios preferenciales.
Los resultados de fin de año de 2017 de Priceline Group habían mostrado un crecimiento significativo en
todos los sectores. A través de sus seis marcas —Booking.com, Priceline.com, Kayak, Agoda.com,
Rentalcars.com y OpenTable — había generado ingresos de $ 12,7 mil millones (un 18% más que en
2016). Los observadores de la industria estimaron que alrededor del 70% al 80% de esos ingresos fueron
generados solo por Booking. Las reservas de viajes brutas de Priceline Group habían sido de $ 81,2 mil
millones (un 19% más) y una ganancia bruta de $ 12,4 mil millones (un 21% más) .15 En diciembre de
2017, la capitalización de mercado de Priceline Group se acercaba a los $ 90 mil millones. Una vez más, los
analistas atribuyeron la mayor parte de su éxito financiero a Booking. (Consulte los Anexos 2 y 3 para
obtener cifras clave y datos financieros).
Pruebas A / B
El enfoque de la empresa en optimizar las experiencias de los clientes no había cambiado desde sus
inicios. Vismans explicó: “Si desea tener éxito, debe ofrecer una excelente experiencia al cliente. Este debe
ser su único enfoque al desarrollar productos. Cada vez que entran en contacto con su sitio web, debe ser
más satisfactorio que con la competencia, para que regresen ". Para descubrir lo que los clientes
encontraron satisfactorio, sus desarrolladores probaron continuamente ideas para mejorar la experiencia del
producto a través de experimentos controlados en línea, complementados con investigación cualitativa. El
fracaso se aceptó como un subproducto normal, siempre que acelerara el proceso de mejora. Lukas
Vermeer, propietario sénior de productos de experimentación, señaló: “A esto lo llamamos desarrollo de
producto centrado en el cliente y basado en la evidencia. Todas nuestras decisiones sobre productos se
basan en pruebas fiables sobre el comportamiento y las preferencias del cliente. Creemos que la
experimentación controlada es el enfoque más exitoso para crear los productos que los clientes desean ".
El tipo más simple de un experimento controlado fue una prueba A / B (consulte el Anexo 4 para ver
ejemplos). En esta prueba, el experimentador establece dos experiencias: "A", el control, suele ser el
sistema actual y se considera el "campeón", y "B", el tratamiento, es una modificación que intenta mejorar
algo: el "retador . " Los clientes se asignan aleatoriamente a las dos experiencias y las métricas clave se
calculan y comparan. En línea, la modificación podría ser una nueva característica, un cambio en la interfaz
de usuario (como un nuevo diseño), un cambio de fondo (como una mejora en un algoritmo) o un modelo de
negocio diferente (como una oferta de descuento). ). Independientemente de los aspectos del rendimiento
que más les importaran a los equipos, ya sean las ventas, el uso repetido, las tasas de clics, la conversión o
el tiempo que los usuarios pasan en un sitio, Booking podría usar las pruebas A / B para aprender a
optimizarlas16. Vismans explicó: “Si necesitamos crear un botón de 'libro', queremos entender cuál debe ser
el color del botón. Así que creamos dos versiones del sitio web, una con un botón amarillo y la otra con uno
azul, para probarlas en vivo en millones de clientes. Usaremos el color que atraiga más reservas. Nuestros
clientes deciden dónde llevar el sitio web, no nuestros gerentes ”. 17
Decidir si un "retador" estaba ganando contra el "campeón" no siempre fue fácil. Los gerentes tenían que
ponerse de acuerdo sobre los indicadores clave de desempeño (KPI), o métricas, que observarían para
juzgar el desempeño. La métrica principal de Booking fue la conversión de usuarios, medida como bpd
(reservas por día). Pero con un negocio en crecimiento y un producto en proceso de maduración, también
era importante medir el comportamiento posterior a la reserva. Tans señaló: “El problema con bpd es que es
a corto plazo y no detecta los problemas que puedan surgir más adelante. Supongamos que nuestra política
de cancelación se vuelve menos clara; los clientes pagan sin darse cuenta y luego se quejan con el servicio
de atención al cliente. Esas señales a largo plazo son más difíciles de captar en los experimentos, pero
tratamos de tenerlas en cuenta, incluso si eso significa pequeños aciertos en bpd ". Si bien
aproximadamente el 80% de su personal se centró en la conversión, los equipos tenían la libertad de incluir
otras métricas en sus experimentos.
Booking había aprendido desde el principio que no podía confiar en la intuición y las suposiciones. “Vemos
evidencia todos los días de que la gente es terrible adivinando. Nuestras predicciones sobre cómo se
comportarán los clientes son incorrectas nueve de cada diez veces ”, dijo Vermeer. La intuición ha
demostrado ser poco confiable en todas las áreas, ya sea para adivinar qué botones de colores prefieren
los usuarios o qué funcionalidades valoran. Tans recordó: “Por ejemplo, creímos erróneamente que a los
clientes les gustaría que las ofertas de hoteles estuvieran empaquetadas con otros productos, ya que los
folletos de viajes están llenos de ellos. O pensamos que los clientes querrían una línea de chat que los
ayudara en el proceso de reserva. Ninguna idea funcionó durante nuestras pruebas. Así es como aprendes
". Vismans agregó: “Lo hemos hecho de esta manera durante nueve años y es muy eficaz para crear algo
que los clientes encuentran más valioso o fácil de usar. Seguimos lo que quiere la mayoría. Y si fallas
rápido, puedes probar muchas cosas ". 18 Vermeer estuvo de acuerdo:" Es como una especie de creación
rápida de prototipos. Como empresa digital, tenemos muchos puntos de contacto con los clientes para
probar y optimizar ".
Una fuente de inspiración para las pruebas de puntos de contacto fueron los conocimientos cualitativos
sobre el comportamiento del cliente. Para encontrarlos, Booking ejecutó un laboratorio interno de
experiencia de usuario (UX) con 45 investigadores. Utilizaron informes de comentarios, encuestas en línea,
pruebas de usabilidad, pruebas en la calle y visitas domiciliarias para estudiar cómo los clientes usaban los
productos de Booking en sus rutinas diarias. El psicólogo del consumidor Gerben Langendijk explicó:
“Nuestros equipos de productos pueden solicitar pruebas de embudo en nuestro laboratorio, donde
observan cómo las personas navegan por el sitio web, qué piensan y cómo luchan. Es muy poderoso para
los equipos ver esto, especialmente cuando piensan que una nueva función es obvia pero los usuarios no la
entienden. Las pruebas en los hogares de los usuarios nos muestran cómo se comportan con nuestro
producto en su propio entorno, gastando su propio dinero. Realizamos pruebas en la calle, en bares y cafés
aquí en Ámsterdam. Mostramos maquetas, para que la gente pueda probar una nueva interfaz de usuario.
También viajamos al extranjero para enfocarnos en mercados específicos y capturar preferencias culturales.
En el caso de nuestros socios, analizamos cómo podemos mejorar la experiencia de sus proveedores ". Los
datos resultantes se pusieron a disposición de los equipos, para que pudieran intercambiar ideas sobre
nuevas funciones, mejorar las existentes y resolver problemas de los usuarios.
Otra fuente de información fue el departamento de servicio al cliente de Booking, que estaba disponible las
24 horas, los 7 días de la semana para brindar asistencia y soporte en 43 idiomas. Los clientes pueden
resolver muchos problemas en línea, como cambiar o cancelar una reserva, pero también pueden llamar a
una persona en vivo. Los centros de servicio al cliente de Booking respondían alrededor de 14 millones de
llamadas cada año y habían notado que las expectativas de los clientes sobre la calidad del producto
habían aumentado constantemente. El departamento de servicio envió comentarios relevantes a los
desarrolladores, para que pudieran usarlos para nuevos experimentos.20 El científico de datos principal,
Onno Zoeter, señaló: “Proporcionan comentarios importantes sobre el back-end de las experiencias de los
clientes, sobre cómo nuestro producto se mantiene a largo plazo. Invertimos mucho en servicio al cliente;
Los centros de llamadas remotos tienen el mismo tipo de escritorios y sillas que nuestro CEO y viajan en
avión para la reunión y fiesta anual de Booking en Ámsterdam ".
Vismans vio la ventaja competitiva de Booking como la ejecución de su modelo de negocio a través de
pruebas a gran escala. “Compramos la demanda de Google a través del gasto en publicidad, convertimos
esa demanda en reservas, agregamos un retorno de la inversión (ROI) positivo y luego obtenemos el
suministro en función de esa demanda. Y dado que tenemos un KPI que se correlaciona con nuestro
resultado final, les pedimos a todos que experimenten tanto como puedan. El único requisito es que se
deben probar todos los cambios. Entonces, obtienes el efecto acumulativo de muchos pequeños cambios
con los que, con el tiempo, ya nadie puede competir ". Vismans continuó:
Tenemos nuestra propia versión del concepto de volante de Amazon (ver Anexo 5). Es un ciclo virtuoso con
efectos de red, donde cada componente es un acelerador. Invierte en cualquiera de ellos, y a medida que la
rueda gira, beneficia a todos y genera crecimiento. Para nosotros, comienza con una gran experiencia de
cliente. A través de las pruebas A / B, mejoramos la experiencia del producto, lo que impulsa la conversión.
Cuantas más personas y conversiones obtengamos, más rápido gira la rueda y mayor es el ROI y el tráfico
de marketing, lo que lleva a que más socios quieran estar en nuestra plataforma y más apalancamiento
para nosotros. Esto, a su vez, significa una selección más amplia a precios más económicos y el mejor
servicio, lo que nuevamente conduce a una mayor experiencia del cliente. Es un modelo de "crecimiento
lleva a crecimiento". No puede descuidar ningún aspecto; si la conversión falla, ya no puede cumplir con el
contrato, por lo que debe estar atento a las métricas. Independientemente de lo que comience, debe definir
métricas y luego realizar una prueba A / B contra ellas. Si desea que los socios le brinden más
disponibilidad, comience a realizar pruebas. Al final, todo su modelo de negocio se vuelve comprobable.
Pero primero debes comprender la estrategia. Si realiza pruebas A / B sin comprender cómo están
conectados sus efectos de red, simplemente estará corriendo como un pollo sin cabeza.
La organización de experimentación
Puedo tener una idea durante el desayuno, ir en bicicleta al trabajo, implementarla y vivir mucho antes del
almuerzo. Nunca he trabajado en ningún otro lugar con tanta libertad para validar mis ideas.- Redactor de
experiencias de usuario, Booking.com
Para 2017, Booking ejecutó alrededor de 1,000 experimentos controlados al mismo tiempo. Fueron
lanzados y analizados por empleados de todos los departamentos, y se ejecutaron en todos los productos,
desde el sitio web hasta las aplicaciones móviles, en las herramientas utilizadas por los socios para las
líneas de servicio al cliente y en los sistemas internos. Aproximadamente el 80% de las pruebas se
ejecutaron en el "núcleo", todo lo relacionado con la experiencia real de reserva de alojamiento, lo que
resultó en billones de diferentes variantes de páginas de destino que se publicaron simultáneamente. Los
clientes se distribuyeron aleatoriamente entre controles y variantes, y la mayoría de los experimentos
estuvieron sujetos a la mayoría del tráfico de clientes. El Director de Diseño Stuart Frisby señaló: “Esto
genera un número astronómico de permutaciones. También significa que es poco probable que dos clientes
en la misma ubicación que accedan al sitio web de Booking vean la misma versión ". Andrea Carini,
directora de producto sénior, añadió:
Tenemos una filosofía de probar tanto como podamos vivir con los clientes, y algunas pruebas toman varias
iteraciones o se revisan más tarde, lo que se suma a estos números altos. Todo está probado, desde
rediseños completos y cambios de infraestructura hasta pequeñas correcciones de errores. Si tengo un
error de software, quiero asegurarme de que mi solución mejore la experiencia del usuario. Así que
probamos el error por separado, lo mantenemos en el grupo A y colocamos la solución en B para
asegurarnos de que el nuevo código realmente resuelve el problema y no afecta negativamente las métricas
del cliente.
Booking había construido una plataforma de experimentación interna para garantizar que las pruebas fueran
fáciles de realizar para todos, pero también rigurosas en su ejecución (ver Anexo 6). La empresa tenía un
“equipo central de experimentación” dedicado de siete, liderado por Vermeer y parte del departamento de
infraestructura central, que se encargaba de la infraestructura y las herramientas de experimentación, y
brindaba capacitación y apoyo a toda la organización. Vermeer señaló: "La misión de mi equipo es permitir
que todos nuestros empleados realicen experimentos de forma autónoma". Se colocaron cinco equipos de
soporte "satélite" directamente en los departamentos de productos de Booking; otros equipos de soporte se
trasladaron a socios y servicio al cliente para ayudarlos a aumentar la experimentación también. Vermeer
explicó: "Los equipos se especializan en un área de productos, se sientan en el mismo piso y asisten a las
mismas reuniones". Otros equipos se especializaron en mejorar la plataforma de experimentación o
exploraron metodologías estadísticas avanzadas. Los equipos de soporte dividieron su tiempo entre
"soporte técnico" para los experimentos que se estaban ejecutando en sus departamentos, preparación de
información para la administración sobre cómo estaban funcionando los experimentos y mejoras de
herramientas y métricas. Vermeer enfatizó la importancia de la autonomía: “Si un equipo cree que necesita
correos electrónicos de recordatorio para sus pruebas, es libre de construirlos. Y si esa función funciona
bien y es solicitada por otros equipos, la trasladamos al núcleo y la centralizamos para todos. Cada equipo
se reporta a su departamento, pero yo roto diariamente para verlos. También tenemos reuniones periódicas
entre ellos y eventos trimestrales de un día fuera del sitio donde intercambiamos las mejores prácticas ".
La plataforma de Booking se diseñó para hacer que la experimentación sea accesible para todos. Para
fomentar la apertura, ofreció un repositorio central de búsqueda de experimentos pasados, con
descripciones completas de éxitos, fracasos, iteraciones y decisión final. Las plantillas estándar permitieron
la configuración de experimentos en todos los departamentos y productos con un trabajo ad-hoc mínimo, y
los procesos como el reclutamiento de usuarios, la aleatorización, el registro del comportamiento de los
visitantes y los informes se automatizaron detrás de un conjunto de interfaces de programación de
aplicaciones (API). Para hacer que los experimentos fueran confiables, la validez de los datos se monitoreó
calculando un conjunto de métricas comunes en dos canales de datos completamente separados,
mantenidos por ingenieros para detectar errores rápidamente. Se integraron varias salvaguardas en la
plataforma, lo que permitió que tanto los propietarios como la comunidad monitorearan los experimentos
antes y durante su ejecución. Vermeer explicó: “Irónicamente, la centralización de nuestra infraestructura de
experimentación es lo que hace posible nuestra descentralización organizacional. Todos usan las mismas
herramientas. Esto fomenta la confianza en los datos de los demás y permite la discusión y la rendición de
cuentas. Si bien algunas empresas como Microsoft, Facebook o Google pueden ser más avanzadas
técnicamente en áreas como el aprendizaje automático, nuestro uso de pruebas A / B simples nos hace
más exitosos en involucrar a todas las personas; hemos democratizado las pruebas en toda la organización
". Frisby agregó: "Aproximadamente el 75% de nuestro personal de 1.800 tecnología y productos utiliza
activamente la plataforma de experimentación, que es enorme, y ahora también incluimos socios y servicios
al cliente".
"Las personas que prosperan aquí son curiosas, de mente abierta, ansiosas por aprender y resolver las
cosas, y están de acuerdo con que se demuestre que están equivocadas", enfatizó Vermeer, "Algunos se
unen porque quieren trabajar en un sitio web con mucho tráfico, donde pueden validar sus ideas con datos
". El grupo de Vermeer brindó capacitación a los nuevos reclutas: “La gente espera aprender sobre la
herramienta, pero durante las primeras horas les hablamos sobre el método científico y luego sobre
experimentos, hipótesis, terminología estadística, diseño de experimentos, ética, cumplimiento , etcétera."
Los recién llegados se emparejaron con un miembro superior del personal que explicó el trabajo con más
detalle, presentó la plataforma y analizó experimentos y decisiones relacionadas. Los nuevos reclutas
también tenían acceso a todas las herramientas y podían adquirir experiencia práctica desde el principio. Un
desarrollador señaló: “La experimentación en Booking es una evolución constante. A veces me río de los
experimentos que hice hace cuatro años por la falta de métricas secundarias, y hasta el día de hoy, todavía
estamos empujando el listón más alto, innovando en la forma en que realizamos los experimentos ”. 21
Gobernanza y cultura
La reserva se organizó en cuatro departamentos principales: productos (el más grande), seguido de
servicios de socios, servicio al cliente e infraestructura central (ver Anexo 7). La estructura de la empresa se
había mantenido relativamente plana, con solo unos pocos vicepresidentes senior, propietarios de
productos y gerentes de tecnología, y con las decisiones tomadas hacia abajo en la medida de lo posible.
Carini señaló: “No todo está bien organizado y no todos tienen líneas jerárquicas claras. Estas son las
estrías típicas de una empresa que crece a un ritmo exponencial. Booking tiene 21 años, pero la mayoría de
los empleados se incorporaron en los últimos ocho años. Tampoco es eficiente tener una estructura
ordenada. ¿Cómo se puede innovar y reaccionar en nuestra industria en rápido movimiento si se sienta en
un lugar ordenado y espera a que le digan qué hacer? " Vermeer agregó: “Algunas personas luchan con la
estructura plana porque puede haber poco espacio para moverse hacia arriba. Sin embargo, cualquiera
puede hacer cualquier cosa. Los equipos y las personas tienen mucha responsabilidad y las personas se
mueven, lo que lo mantiene interesante y les permite ver diferentes partes del recorrido del cliente ".
Booking realizó revisiones trimestrales de desempeño para todos los empleados, que incluyeron
comentarios de gerentes y pares, y una autoevaluación.
En toda la empresa, los empleados se organizaron en equipos multidisciplinarios de seis a ocho personas.
Cada equipo tenía un propietario de producto (por ejemplo, facturación, páginas de destino) que era
responsable de la hoja de ruta del producto desde una perspectiva comercial. El resto del equipo estaba
formado por técnicos, ingenieros y diseñadores, encargados de codificar e implementar ideas. Esto a
menudo incluía un desarrollador, diseñador, redactor publicitario, investigador y analista de datos de front-
end y back-end. Cualquiera en un equipo podría lanzar un experimento; sin embargo, el 90% de las pruebas
provinieron de equipos y no de individuos. Carini señaló: “Por lo general, los equipos trabajan juntos para
lanzar una prueba. Al propietario del producto se le ocurre el problema, los ingenieros deciden las variables
y luego todos trabajan juntos en la hipótesis, ejecución e iteración correctas. Todo el mundo está
familiarizado con las pruebas, por lo que puede tener buenas conversaciones ". Normalmente, los
diseñadores dedican alrededor del 75% de su tiempo a diseñar experimentos y el 25% a la investigación y
el desarrollo profesional. Los empleados senior dedicaron gran parte de su tiempo a entrenar. Frisby
agregó: “Desarrollo herramientas como listas reutilizables, para que otros diseñadores no tengan que
crearlas desde cero. Dado que la mayoría de los experimentos fallan, queremos que se diseñen y ejecuten
con el menor esfuerzo y tiempo, pero también con la mejor calidad. Las herramientas probadas y sometidas
a pruebas de estrés pueden ayudar con eso ".
Se animó a los equipos a realizar tantos experimentos como fuera posible. Frisby continuó: “Cualquiera
puede hacer cualquier cosa, jugar con lo que quiera. Nada es sagrado, excepto por las limitaciones legales,
la exhibición justa de propiedades y ese tipo de cosas ". Vismans señaló: “Una vez que haya decidido que
las pruebas son la forma correcta para que su organización cree productos y tenga las métricas correctas,
no tiene más remedio que darles autonomía a todos. Es la única forma eficaz de desbloquear la creatividad
del equipo. La tasa de éxito de los experimentos es tan baja que debe intentarlo mucho. Las directivas de la
alta dirección que interfieren con la innovación solo retrasarían el proceso. Está cerca de la anarquía. O
mejor, es un caos organizado. Los KPI y los objetivos garantizan que las personas sepan qué y cómo
probar ”. Carini aclaró: “Obviamente también tenemos nuestros valores de empresa compartidos, una
fórmula de cómo hacemos las cosas, por lo que sabemos que la gente no haría cosas completamente
locas, como poner contenido ilegal en vivo. Los valores son: estar impulsado por los datos en sus
decisiones, poner siempre al cliente primero, etc. " (Ver Anexo 8.)
A los nuevos reclutas se les concedió autonomía muy rápidamente. El propietario senior de productos,
Willem Isbrucker, recordó: “Cuando me uní, estaba desconcertado por el nivel de confianza. Podía tomar
decisiones sobre experimentos desde el primer día y tomar el control total de los seguimientos en una
semana. Supongamos que desea que el sitio web sea rosado. Si tiene alguna evidencia que demuestre que
esto puede ser bueno para los usuarios, puede probar. Esa es una gran diferencia con respecto a mis
empleadores anteriores. Cuando me di cuenta de que podía realizar pruebas diarias en millones de
personas, me sentí muy feliz ".
El alto nivel de autonomía también vino con desafíos. Un riesgo era que los equipos y las personas
pudieran romper algo en el sitio web de alto tráfico de Booking, lo que podría provocar un bloqueo. Además,
en una organización de abajo hacia arriba tan descentralizada, cada equipo tenía que establecer su propia
dirección y averiguar qué problemas de los usuarios querían resolver. Para los empleados, esto significó
una gran responsabilidad. Isbrucker continuó: "No hay ningún lugar donde esconderse aquí, no hay un chivo
expiatorio al que puedas culpar si no encuentras los problemas del usuario y cómo resolverlos o si rompes
algo". Se alentaron los debates y la gente se acercó a sus colegas si veían algo que les parecía
cuestionable o con lo que no estaban de acuerdo. Cualquiera podría detener cualquier experimento en
Booking, aunque, como señaló Vermeer, “en realidad, ocurre raramente. Por lo general, se acercaría a un
equipo si veía un problema, por ejemplo, preguntándoles si notaron que estaban sangrando un 2% de
conversión y si estaban en la cima. Empujar el freno en la prueba de alguien se consideró muy agresivo, el
enfoque nuclear. Solo se hace si no hay otra opción; dice que está solo en la oficina por la noche y hay un
incidente en alguna parte del mundo que requiere una parada inmediata ".
Un tema que había alimentado debates vigorosos fue el uso de técnicas de persuasión. Por ejemplo, las
páginas de productos presentaban mensajes, como "por favor, reserve ahora o perderá esta reserva", "hay
mucha demanda" o "solo quedan tres habitaciones". Si bien estos mensajes originalmente estaban
destinados a informar a los consumidores sobre la disponibilidad, algunos la gente percibió que los
mensajes transmitían escasez y urgencia. Los críticos argumentaron que tales mensajes podrían inducir a
error a los clientes a pensar que solo quedaban tres habitaciones en todo el hotel, cuando en realidad las
tres habitaciones eran sobre la asignación de un hotel a Booking. Después de que los reguladores se
involucraron, Booking rectificó el mensaje a "solo quedan tres habitaciones en nuestra plataforma". Los
debates sobre ética surgieron con regularidad en torno a si el uso cada vez mayor de tales técnicas
redundaba en el mejor interés de los clientes.
Los experimentos demostraron que este tipo de mensajes funcionaba (la métrica de conversión mejoró), por
lo que los clientes respondieron positivamente. Aprovechar las técnicas psicológicas también fue una
manera fácil para que los nuevos empleados mostraran una victoria rápida en las pruebas. El psicólogo
Langendijk explicó: “Cuando los equipos me piden que trabaje en elementos persuasivos, primero explico
que la mejor persuasión es tener un gran producto. Necesitamos ver dónde tienen sentido tales elementos,
por ejemplo, cuando un visitante experimentado identificó el hotel correcto y está a punto de reservar, y
dónde pueden lastimar a las personas, particularmente a quienes visitan por primera vez. Queremos que los
clientes se sientan bien con toda su experiencia de reserva y regresen muchas veces ".
La alta dirección alentó estas discusiones a través de foros internos, como el "grupo de debate sobre la
experiencia del cliente" en la plataforma de colaboración Workplace de Facebook. Vismans señaló:
Las personas muestran ejemplos de experimentos, que sintieron que estaban cruzando una línea o
presionando demasiado o en los que no fuimos completamente transparentes con los clientes. Hacemos de
esto un debate público. Sabemos que existe un beneficio enorme en tener una sola métrica, la conversión.
Pero no es perfecto. La métrica perfecta sería la lealtad, pero se necesitan años para probarla y medirla,
para ver si los clientes siguen siendo leales, así que tuvimos que encontrar un proxy. Si realiza las pruebas
A / B adecuadas, encontrará la forma más eficaz de influir en el comportamiento del cliente. Pero hay una
pregunta más importante: ¿es este modelo la forma más sostenible de hacer crecer su negocio? Todavía
estamos en la edad oscura; Internet tiene solo 25 años. Es como si acabáramos de inventar el fuego.
Llevará tiempo comprender completamente el comportamiento del cliente. Por supuesto, si alguien quiere
realizar un "mal experimento", puede hacerlo. Ese es el precio que pagamos por la autonomía y por la
enorme potencia de fuego que nos brinda. Pero no he visto nada intencionalmente malo o moralmente
cuestionable. Como manipular a las personas para que compren una habitación de hotel de cinco estrellas
si solo pueden pagar tres estrellas. Por eso prefiero alejarme de la vigilancia policial o de las juntas de
revisión ética. Esa no es una solución escalable. Crearías un cuello de botella y una policía de pruebas no
hace que las personas se sientan empoderadas. Preferiría tener una comunidad que se corrija a sí misma;
una organización de autocuración.
Proceso
Los equipos de Booking tenían el mandato claro de ejecutar la experimentación a gran velocidad. Para
impulsar la tubería de prueba, la gente tenía que proponer constantemente nuevas ideas, problemas de los
usuarios y áreas de necesidad. Las ideas surgieron de hablar con los usuarios, de usar el producto ellos
mismos para reservar alojamientos o de experimentos anteriores. Los equipos también pueden solicitar
encuestas, pruebas de laboratorio u otra investigación cualitativa y recibir información de los servicios al
cliente sobre los puntos débiles y las preferencias del usuario. Había tantos canales, servicios operativos e
idiomas diferentes para optimizar que encontrar ideas para las pruebas no era un problema importante.
Cada equipo gestionó su proceso de generación de ideas y su canal de pruebas.
Desde que Booking introdujo un proceso de experimentación formal en 2014, los equipos tuvieron que
comenzar con una hipótesis comprobable. Vermeer señaló: “Antes no había reglas claras. Básicamente,
piensas en una mejora de producto, pruebas A y B y ves qué obtiene más clics. Y luego implementa y pasa
a la siguiente prueba. Pero es fácil equivocarse con la experimentación cuando las cosas no están
estructuradas. Ahora hacemos que las personas escriban qué problema están tratando de resolver y que
formulen la hipótesis que quieren probar, en forma de una declaración falsable que lógicamente podría
demostrarse que es incorrecta. Obliga a todos a pensar detenidamente, ya no solo a adivinar, sino a
recopilar pruebas y aprender a resolver los problemas de los clientes ”.
Para ayudar a las personas a redactar mejores hipótesis, el grupo de Vermeer creó una plantilla (consulte el
Anexo 9). Afirmó que una buena hipótesis comienza con la descripción de una teoría o creencia, a menudo
basada en evidencia previa, de cómo una determinada condición para una audiencia específica puede
cambiar un mecanismo, o cómo un cambio puede mejorar la experiencia de la audiencia con el producto.
(En el ejemplo del botón amarillo "libro", una teoría podría ser acerca de cómo un cambio en el color del
botón a azul ayuda a los usuarios a encontrarlo más fácilmente). Luego, un equipo debe especificar qué
métricas podrían usarse para falsificar la teoría, o qué comportamiento validaría una prueba (por ejemplo,
más usuarios se desplazan y hacen clic). Y, finalmente, debe indicar cómo el cambio ayudaría a la empresa
(por ejemplo, generar más reservas).
El director de producto Geert-Jan Grimberg recordó un ejemplo: “Nuestras tasas de conversión móvil en los
países árabes eran más bajas que en otros lugares. Pero los datos no le dicen por qué. Una vez que nos
sumergimos en los datos, quedó claro que el sitio móvil no era "prueba de derecha a izquierda". En árabe
se lee de derecha a izquierda, en lugar de de izquierda a derecha. Esta idea condujo a una hipótesis simple:
podemos ayudar a nuestros viajeros árabes haciendo que su experiencia de reserva móvil sea de derecha a
izquierda. Así que diseñamos un experimento que duró dos semanas. El control A era una versión árabe de
un sitio web móvil de izquierda a derecha. La variante B era la misma versión de derecha a izquierda. Una
hipótesis a menudo comienza con una percepción que proviene de la investigación cuantitativa y cualitativa.
Algún tipo de anormalidad que intentas comprender ".
Para lanzar un experimento, los equipos debían completar un formulario electrónico que fuera visible para
todos. El formulario pedía un nombre para el experimento, indicaba su propósito (en palabras libres o
seleccionando puntos débiles comunes para resolver en un menú desplegable), nombraba a los principales
beneficiarios (clientes, socios), cita el pasado, especifica en qué plataforma se estaba ejecutando (por
ejemplo, escritorio). La configuración predeterminada del sistema siguió los estándares centrales que se
desarrollaron durante años. Vermeer señaló: “Hemos incorporado muchas de las nuevas pautas y
estándares directamente en las herramientas. Los equipos pueden cambiar la configuración, pero es mejor
que tengan una buena razón, ya que sus colegas pueden desafiarlos fácilmente por hacerlo ". Una variable
importante fue el umbral, o valor p, que indicó el éxito de la prueba: concluir que el "retador B" se
desempeña mejor que el "control A" (consulte el Anexo 10 para conocer la terminología de la
experimentación). No había un umbral perfecto ya que el valor p de un experimento también medía la
posibilidad de aceptar erróneamente al "retador B" como el ganador (falso positivo). Un umbral más estricto
resultaría en menos victorias en las pruebas; por el contrario, un umbral más indulgente produciría más
falsos positivos. En Booking, el valor p de una prueba tenía que caer por debajo de 0,10 (90% de confianza)
para que la mayoría de las pruebas se consideraran "estadísticamente significativas". El tiempo mínimo de
ejecución de un experimento fue de dos semanas. Carini explicó la lógica de la duración:
Nos da el ciclo de estacionalidad de una semana y dos domingos para corregir cualquier valor atípico, como
la final de la Copa del Mundo un domingo. También nos da tiempo para ver si hay consecuencias no
deseadas. Y asegura que lleguemos a un número mínimo de usuarios, idealmente más de un millón de
visitantes únicos por variante, lo que se puede lograr con un tiempo de ejecución de 2 semanas.
Necesitamos tamaños de muestra grandes para ver resultados significativos, ya que normalmente
probamos cambios muy pequeños. Para eso es mejor la prueba A / B, para tomar un producto existente y
aplicar pequeñas mejoras consecutivas, una a la vez, para crear un mejor producto. Se alentó a los equipos
que necesitaban tiempos de ejecución más largos a agregar múltiplos de una semana. Los experimentos
utilizados para la toma de decisiones de gestión crítica a veces duran de cinco a seis semanas. Los
experimentos con muestras más pequeñas, como limitarlo a los clientes franceses que visitan Italia, podrían
durar varios meses.
Mientras llenaba el formulario electrónico, el sistema informó a los equipos sobre experimentos similares
que se estaban llevando a cabo actualmente; por ejemplo, probar la misma funcionalidad de la misma
página de producto y las que estaban esperando para comenzar. Se pidió a los equipos que usaran esta
información para ajustar o posponer su experimento si había demasiada superposición, interacciones o
posibles conflictos. Se animó a los diseñadores a hablar con sus compañeros que trabajan en temas
similares desde el principio para coordinar sus esfuerzos de prueba. Booking no restringió formalmente el
número de experimentos sobre el mismo tema. Vermeer señaló: "Esto se ha solicitado varias veces, pero no
tenemos restricciones. Nadie posee ninguna parte en particular de un producto; todos los equipos son libres
de realizar pruebas. Pueden acordar informalmente la secuenciación de sus experimentos cuando crean
que tiene sentido, pero no es necesario ". La plataforma de Booking podría identificar y resaltar
automáticamente los experimentos que causaron interacciones problemáticas, para que los equipos
pudieran detenerlos. Carini dijo: "Si cambia el color de un botón a azul y otro equipo también cambia el color
de fondo a azul, ningún cliente podrá ver la llamada a la acción".
Una vez que se ejecutó el experimento, los equipos lo observaron de cerca durante las primeras horas y, si
sus métricas primarias o secundarias se hundían rápidamente, podían detener la prueba antes de tiempo.
Carini agregó: "Metodológicamente hablando, esto no es muy bueno, pero comercialmente no podemos
permitirnos mantener una prueba en ejecución durante el tiempo de ejecución correcto y correr el riesgo de
quemar el negocio en dos semanas". Frisby continuó: “Esto es algo que podríamos haber automatizado,
como sucede en otras empresas, pero decidimos mantenerlo manual. Tenemos paneles de pared alrededor
de la oficina que muestran el número de reservas por segundo y cuando los equipos ven que ese número
disminuye, esperamos que tomen la decisión correcta. Es más fácil para las personas aislar las causas.
Digamos que la Copa del Mundo comienza y las reservas disminuyen significativamente debido a eso, no
queremos detener un experimento ".
La plataforma de Booking también ejecutó controles automáticos de la calidad de los datos y envió
mensajes de advertencia si había algo extraño. Una bandera azul era informativa, amarilla significaba que
puede haber un problema con los informes y roja significaba que había habido una falla en el informe. Una
bandera rosa, la peor advertencia también llamada "la caja rosa de la fatalidad", significaba que se había
descubierto que los datos subyacentes no eran válidos. La información de un experimento era visible para
todos en Booking y los campos de plantilla vacíos podían generar consultas inmediatas por parte de otros
empleados. Isbrucker señaló: “Tengo suscripciones para varios informes por correo electrónico. Puede
tener informes para las pruebas de su equipo, para ciertas personas o para experimentos que fueron
positivos o negativos en algunas métricas. Y recibimos un resumen diario con resúmenes de todas las
pruebas, para que pueda comunicarme si hay algo que quiera cuestionar o discutir. Dedico
aproximadamente una hora al día para revisar otros experimentos, particularmente los más impactantes o
aquellos con enfoques novedosos. Hay mucho aprendizaje en eso. Por supuesto, solo puede mirar un
subconjunto. Incluso si solo observa el 10% de los 2000 que resultan en significancia estadística, eso sigue
siendo más de 200 pruebas durante aproximadamente 2 semanas ". Se compartieron informes específicos
con las lecciones aprendidas para cualquier experimento que hubiera causado un problema importante o
una avería.
En promedio, nueve de cada diez pruebas fallaron: no tuvieron ningún efecto o tuvieron un efecto negativo
en las métricas seleccionadas. Pero un experimento que falló no fue un experimento fallido. Vismans señaló
que a menudo resultaba útil investigar más a fondo. “Por ejemplo, estábamos seguros de que a la gente le
importaba la calidad del WiFi en sus habitaciones de hotel. Probamos una función que mostraba la
velocidad WiFi en una escala del 1 al 100 y a los clientes no les importó. Solo cuando mostramos si la señal
era lo suficientemente fuerte como para enviar correos electrónicos o ver Netflix, los clientes respondieron
favorablemente ". Al final de un experimento, el equipo evaluó su resultado como significativo (color verde),
moderado, moderadamente espantoso o simplemente espantoso. Carini señaló: “Esto permite que cualquier
persona de nuestra organización, ingeniero o no, saque conclusiones rápidamente. Para la mayoría de las
pruebas, no necesitamos un 100% de certeza. No estamos en productos farmacéuticos salvando vidas;
muy a menudo solo queremos saber si un botón azul es igual o mejor que un amarillo, y no hay ningún
costo para cambiarlo. Para pruebas con costos significativos, como incentivar a los clientes con un vale de $
20, necesita un estándar de evidencia más alto ". Después de su evaluación, el equipo decidió si escalar el
tratamiento a una característica permanente, que luego se convirtió en la nueva línea de base. Zoeter
explicó: “Estamos bien para buscar pequeñas mejoras, incluso pequeñas, y agregarlas rápidamente a
nuestro sitio web. Incluso una mejora del 1% en la conversión puede tener un gran impacto en nuestros
resultados ". Frisby agregó: “Podemos ser muy rápidos, ya que los equipos son la unidad de toma de
decisiones. El propietario del experimento solo presiona un botón y activa una función para millones de
personas. En otros lugares, tendrían que llevar los resultados a algún comité, que tomaría esa decisión.
Cuando la experimentación se hace bien y tienes las normas culturales adecuadas, no necesitas esas
salvaguardas ".
Booking también realizó experimentos en su red de proveedores, sus socios, pero esto conllevó numerosos
desafíos. Por un lado, los tamaños de las muestras fueron mucho más pequeños y el impacto comercial fue
más desigual. Las grandes cadenas hoteleras representaron un volumen mucho mayor que las pequeñas
propiedades, que tuvieron que contabilizarse. A continuación, la toma de decisiones por parte de los socios
a menudo involucraba a varias personas y a sistemas de TI complejos. ¿El comportamiento de los
participantes de la prueba reflejaría las organizaciones que representan? Finalmente, las interacciones
frecuentes entre los socios y la plataforma de Booking significaban que los experimentos debían abordarse
con más precaución, para que los participantes de los socios no se frustraran con demasiados cambios.
Las pruebas de socios se ejecutaron en la plataforma central de Booking y aumentaron a unos 200
experimentos simultáneos. El tiempo de ejecución fue de dos semanas, dentro de las cuales entre el 60% y
el 70% de los socios visitarían Booking al menos una vez. Una vez más, los equipos tenían total autonomía,
las pruebas eran visibles para todos y los resúmenes semanales de todos los experimentos de los socios se
distribuían ampliamente. Sin embargo, encontrar las métricas adecuadas fue un debate en curso. La mejor
métrica sería el valor del socio a largo plazo, pero al igual que con la lealtad del cliente, esto era difícil de
derivar de una sola prueba. Las métricas a corto plazo, como "número de habitaciones agregadas", estaban
más cerca de la métrica de conversión utilizada para los clientes, pero también se consideraron métricas
como "habitaciones vendidas". Grimberg describió los desafíos: “Hay menos funciones prediseñadas
disponibles y debemos ser más cuidadosos con los socios. Uno de nuestros equipos trabajó durante un
mes en una función de inicio de sesión personalizada, estudiando las necesidades y haciendo maquetas.
En nuestro núcleo, habrían probado más rápidamente; tal vez con un enlace ficticio, simplemente envíe un
"cree su cuenta familiar ahora" a los clientes y luego diga: "Lo siento, solo estamos probando esto, gracias
por su interés". Debido a la interacción frecuente con los socios, Booking fue franco sobre sus
experimentos. Grimberg continuó: “Discutimos los cambios que notaron. Al probar un cambio importante,
como las tarifas y la disponibilidad modificadas, podemos adjuntar una encuesta a la variante "Bienvenido a
nuestra nueva apariencia; díganos lo que piensa ”. Después de las pruebas, recibimos llamadas con
reacciones encontradas; a algunos les gusta mucho lo que vieron y luego se dan cuenta de que
desapareció después de dos semanas ".
Administración
La alta dirección de Booking consideró que una verdadera organización de experimentación también
requería un estilo de liderazgo diferente. Vismans explicó: “Vengo de una empresa clásica de arriba hacia
abajo donde los fundadores estaban seguros de que sabían lo que querían los clientes y tomaban todas las
decisiones. Pero descubrí que la mayoría de las veces sus creencias estaban equivocadas. En Booking,
todo el mundo lo sabe, por lo que el liderazgo es mucho menos glamoroso. Les da a sus empleados los KPI
y los deja correr ". El liderazgo senior establece la misión y los objetivos estratégicos, que recientemente
habían cambiado de un enfoque de adaptaciones a la construcción de una "plataforma de experiencia
global". Ahora tenían que traducir la nueva estrategia en inversiones y KPI antes de que los empleados
fueran "libres de trabajar". Bronceado añadido:
Muchos líderes no se sentirían cómodos en nuestro entorno. No puedes tener ego, pensando que siempre
sabes lo que es mejor. Si yo, como director ejecutivo, le digo a alguien: 'esto es lo que quiero que hagas
porque creo que es bueno para nuestro negocio', literalmente me mirarían y dirían: 'está bien, está bien,
vamos a probar y ver si tienes razón '. Cuando el anterior director ejecutivo de Booking llegó por primera vez
desde EE. UU., Presentó un logotipo rediseñado al personal. La gente decía "eso es genial; lo
comprobaremos con un experimento ''. Estaba desconcertado, pero no tenía otra opción. El experimento
determinaría si el logo podría quedarse.
Tans vio el coaching, la cultura y la gestión del talento como sus funciones principales. Dedicaba gran parte
de su tiempo a la contratación; la única forma de escalar rápidamente era atraer a tantas personas
inteligentes como fuera posible. Una vez que estuvieron en Booking, era importante entrenarlos. Tans
continuó:
Si hago que otros tengan éxito, la empresa estará en su mejor momento. En las reuniones, me siento para
ayudar en lugar de decir lo que está bien y lo que está mal. Y si veo a un equipo luchar con una decisión,
les ayudo a pensar en ella. Mi función es crear un lugar donde las personas puedan hacer su mejor trabajo.
Para mí, es importante que la gente esté orgullosa de su tiempo en Booking. Deben sentir que marcaron la
diferencia para los clientes y los viajes.
La alta dirección también se aseguró de que las personas no experimentaran por el mero hecho de
experimentar. Esto requirió un reconocimiento de las limitaciones de las pruebas A / B. Isbrucker dijo: "Si no
tiene suficiente tráfico, suficientes usuarios para obtener resultados significativos, no debe ejecutar pruebas
A / B. Además, si no sabe cómo es el éxito de su producto, no puede definirlo para su hipótesis, el
experimento no lo ayudará. Y las pruebas le darán "lo que la gente está haciendo", no el "por qué" o "cómo"
se sienten; para conseguirlo necesitas una investigación cualitativa. Por último, las pruebas solo ofrecen
información limitada sobre "Adónde" ir a continuación ".
Los experimentos fueron los más adecuados para la innovación incremental. Probar un producto
completamente nuevo fue difícil e incómodo, ya que tampoco había una línea de base para compararlo. El
propietario senior de productos, Deepak Gulati, señaló: “Cuando tienes una fuerte cultura de
experimentación que realiza mejoras incrementales en un producto existente, llega un momento en que las
personas que construyeron el producto original se han ido y los nuevos productos ya no están en tu ADN.
Te has convertido en una máquina ágil y mezquina para la conversión de clientes, para
microoptimizaciones, impulsada por la experimentación. Pero cuando quieres expandirte a nuevas áreas, ya
no tienes personas que piensen en grande, que sepan cómo hacer esto ". Vismans estuvo de acuerdo:
“Esta es una desventaja para una organización basada en datos de pequeños pasos. Nos congelamos
como un ciervo en los faros en el momento en que no hay datos, no hay una línea de base para probar. En
nuestra industria, cualquier oportunidad de Internet en la que no invierta puede convertirse en una amenaza
futura ".
Booking había aprendido estas lecciones por las malas. En 2014 lanzó una primera extensión de producto,
el sitio web de la marca independiente Villas.com para alquileres vacacionales. La gerencia había pensado
que los clientes valorarían una clara separación entre la reserva de hoteles y propiedades privadas y había
querido responder a Home Away, AirBnB y otros participantes. Vismans dijo: “No teníamos datos para
respaldar nuestra intuición y no había ninguna prueba antes de lanzarla. Al final, nadie lo usó y lo cerramos
unos años después. Aprendimos que hay un beneficio enorme en tener una gran audiencia para empezar.
Confirmó el peligro de grandes inversiones simplemente basadas en intuiciones o supuestos del mercado ".
Un problema de probar innovaciones radicales fue que la plataforma de Booking no era adecuada para
pruebas limitadas. Todo se desarrolló en un entorno en vivo. Frisby señaló: “Incluso si limito la base de
usuarios, digo que expongo algo que cambia los procesos comerciales a solo el 5% de los usuarios, lo que
aún representa decenas de miles de transacciones al día. Y si reduce el tráfico, reduce la potencia de un
experimento. A veces es mejor comenzar con un prototipo externo y usar pruebas cualitativas para generar
confianza ". Gulati agregó: “Las grandes repercusiones si algo sale mal son una de las razones por las que
insistimos en pasos graduales cuando llega gente nueva con sus grandes ideas; la otra es que cuando se
cambian varias cosas a la vez, no se puede aislar la variable que provocó el cambio de la métrica ".
Vismans sintió que las pruebas A / B no sustituían al liderazgo cuando se trataba de decisiones
estratégicas. “Nuestra nueva estrategia [para diversificarnos en otras áreas de viajes como atracciones] nos
hace invertir en negocios con márgenes más bajos que la reserva de hoteles; asumimos que algo va a
suceder en el futuro que justificará esa inversión. Todo se basa en creencias, tenemos algunos datos, pero
no hay datos que nos digan que tenemos una alta probabilidad de tener éxito. Esta "innovación en el
modelo de negocio" solo puede provenir del liderazgo, no de los equipos de productos centrados en la
innovación incremental. Y para proteger a las nuevas empresas del 'rechazo de órganos', puede ser mejor
crear una nueva organización pequeña fuera del núcleo, con un vínculo directo con el liderazgo y nuevas
métricas ".
En última instancia, aprovechar el poder de los experimentos en línea se redujo a la gestión y la cultura.
Vismans concluyó:
Las pruebas A / B son una herramienta realmente poderosa; en nuestra industria hay que abrazarlo o morir.
Si tuviera algún consejo para los directores ejecutivos, sería este: las pruebas a gran escala no son una
cuestión técnica; es una cuestión cultural que debes aceptar por completo. Debes hacerte dos grandes
preguntas: ¿Qué tan dispuesto estás a enfrentarte todos los días por lo equivocado que estás? ¿Y cuánta
autonomía estás dispuesto a dar a las personas que trabajan para ti? Y si la respuesta es que no le gusta
que se demuestre que está equivocado y no quiere que los empleados decidan el futuro de sus productos,
no funcionará. Nunca obtendrá todos los beneficios de la experimentación.
Avanzando
En diciembre de 2017, Carini sintió que Booking se había convertido en una verdadera organización de
experimentación:
El progreso que hemos logrado en infraestructura y metodología, especialmente en los últimos dos años, es
significativo. Cuando me uní hace unos cinco años, eran principalmente los desarrolladores de back-end
quienes configuraban las pruebas y aproximadamente el 50% de nuestros experimentos probablemente no
eran lo suficientemente rigurosos. Ahora hemos bajado dramáticamente las barreras para la
experimentación; todo el mundo puede realizar pruebas de forma prácticamente gratuita, incluidos los
propietarios de productos o los redactores. También bajamos los costos percibidos, una vez que tienes una
hipótesis, puedes probar muy rápidamente. Para un simple cambio de copia, por ejemplo, para pasar de
"Reservar" a "Reservar ahora", solo necesita un servidor y, en una hora, está recopilando datos. Si desea
probar una copia de la traducción para 43 idiomas, se necesitan 24 horas. Si desea realizar un seguimiento
de varios dispositivos, puede hacerlo en uno o dos días. En otras empresas, esto llevaría mucho más
tiempo porque necesita solicitar la prueba a especialistas dedicados, lo que genera un retraso.
Tans sintió que Booking estaba listo para el siguiente paso, “Booking ha pasado por diferentes fases:
primero, se trataba de definir el producto, el modelo, la cultura; en segundo lugar, hubo una fase larga para
escalar todo y en todas partes, y ahora somos los más grandes del mundo. Pero todavía tenemos brechas
en clientes, alojamientos y mercados, como viajes familiares o de negocios. Los clientes todavía dedican
demasiado tiempo a la planificación, y parte de eso es la fricción. El 80% de nuestros clientes de
Ámsterdam abren nuestro correo electrónico al comienzo de su viaje cuando les preguntamos si necesitan
ayuda. Así que ampliamos nuestra misión para enriquecer los viajes de los clientes con más productos
como atracciones, lo que requiere nuevas herramientas, una nueva complejidad en el servicio al cliente, etc.
"
Con el gran mercado de viajes, Tans confiaba en que aún había muchas oportunidades para que Booking
creciera, pero también enfrentaba desafíos. “Mi mayor temor es que perdamos nuestro enfoque en hacer lo
mejor para los clientes, a medida que crecemos y nos enfocamos más en lo interno. También podemos
interrumpirnos. Basta pensar en Google subiendo a los vuelos, convirtiéndose en los medios de
comunicación y el anunciante, o en la empresa china Ctrip mirando más allá de su mercado local. O
imagínese a Amazon con su enorme base de clientes que de repente está considerando hacer hoteles por
menos comisión. La competencia es enorme, por lo que debemos seguir innovando ". Otro desafío fue
conservar la profunda experiencia y la cultura de experimentación de Booking con una gran afluencia de
nuevos empleados. Enggist admitió:
Los empleados jóvenes a menudo simplemente dicen "Voy a realizar algunos experimentos", luego
determinan su métrica principal, miren si la herramienta les dice "sí" o "no" y luego deténgase. Solo después
de haber estado aquí más tiempo pueden llegar a una comprensión más profunda. Hay una "mayoría de
edad" que hace que te pongas "azul de reserva" cuando miras la herramienta de experimentación y
comienzas a darte cuenta de que miras algo más que una simple imagen de tu prueba. Hay todos estos
otros experimentos que interfieren con el suyo y deben agregarse al contexto más amplio de servir a los
clientes. Es como un estado constante de equilibrio de un sistema al que contribuyes. Sé que si tiro de un
hilo del suéter, todo el suéter podría deshacerse, y que el simple cambio que estoy a punto de hacer afecta
no solo a uno, sino potencialmente a 15 hilos. La gente de "Booking blue" ha interiorizado este contexto; así
es como pensamos y trabajamos.
El experimento de la página de destino Frisby se había acercado a Tans para pedirle consejo. Dijo:
“Gillian, estoy a punto de lanzar un experimento y quería avisarte. Así que no se sorprenderá si la prensa se
entera. Lanzaré una página de inicio completamente nueva; estará disponible para el 10% de nuestros
clientes, justo a tiempo para los viajes de Navidad ". Frisby le había mostrado una nueva página de destino,
que parecía completamente desconocida (ver Anexo 11). Era completamente azul, con una pequeña
ventana en el centro: "Alojamientos, vuelos, coches de alquiler". Todo el contenido y los elementos de
diseño (imágenes, texto, botones y mensajes) que Booking pasó años optimizando desaparecieron.
Para ampliar la cartera de Booking, Frisby quería probar una página de índice muy simple similar a Google
que tenía la misma interfaz de usuario para alojamientos, vuelos y coches de alquiler. Le resultó difícil
introducir nuevos productos en un diseño de página de destino optimizado para el alojamiento. Explicó,
“primera iteración. En las pruebas A / B, a menudo nos movemos en pequeños pasos. Pero para los
grandes cambios, hago lo contrario y primero pruebo la versión más ambiciosa. En el mejor de los casos,
estaremos gratamente sorprendidos. En el peor de los casos, tenemos señales de comportamiento que nos
permiten tomar decisiones más informadas en futuras iteraciones ". Algunos colegas argumentaron que
demasiados cambios harían imposible aislar las variables causales. Frisby confiaba en que las métricas de
comportamiento ayudarían a mejorar las experiencias futuras de los clientes.U n gran problema fue la
reacción de millones de clientes de Booking.en el grupo de tratamiento ("B", el retador) cuando abrieron la
página de destino desconocida.
La hipótesis de Frisby era que era difícil cambiar la percepción del cliente de Booking de un alojamiento a
una plataforma de viajes de servicio completo. Así que quería ver si ese cambio podía acelerarse con un
nuevo sitio web que no estaba optimizado para las adaptaciones. Frisby sonrió: "Escribí un ensayo de 3.000
palabras sobre esto, como siempre digo:" La longitud de la hipótesis debe ser relativa a la complejidad del
experimento ". Entré en muchos detalles sobre la ambición empresarial, cómo expresamos en el
experimento, los beneficios de rendimiento, las métricas cualitativas recopiladas antes de ejecutar el
experimento, realmente todo. Si hubiera escrito una hipótesis de 3 líneas y hubiera comenzado la prueba,
habría pasado un mes respondiendo preguntas de nuestra comunidad ".
El experimento había sido particularmente complejo de preparar. Frisby había trabajado en su desarrollo
durante cinco a seis semanas, cuando otras pruebas a menudo tomaban solo unas pocas horas. Booking
no cumplió con las reservas de vuelos y coches de alquiler en su plataforma principal, pero se las entregó a
sus socios. Eso significó que los clientes aterrizaron en una versión de la marca Booking.com de kayak.com
o rentalcars.com. Frisby también tuvo que crear nuevas métricas para descubrir cómo medir las ganancias o
pérdidas financieras de Booking. Por supuesto, con experimentos radicales como este, estaba nervioso por
los efectos de la novedad y otros sesgos de los clientes, “Las plataformas visitadas con frecuencia como
Google ven un impacto negativo en los usuarios rápidamente, mientras que tenemos un producto de baja
frecuencia. Viajas dos o tres veces al año, así que no sé cuándo desaparecen los sesgos de la novedad.
Así que tendremos que ejecutar el experimento mucho más tiempo que las dos semanas habituales ".
Frisby era consciente de que trabajar en la página de inicio de Booking era algo que tal vez no hubiera
podido hacer en otro lugar, "si Vermeer era muy escéptico. Le apostó a Frisby una botella de champán caro
a que la prueba se “hundiría”, lo que significa que reduciría las tasas de conversión y se detendría mucho
antes de lo previsto. Frisby se rió, “Tales especulaciones no son infundadas. Los grandes experimentos
pueden sufrir o fallar miserablemente ". Añadió: “Pero realmente disfruto de tales experimentos, más que las
pruebas incrementales. Pero requieren un conocimiento técnico profundo y una comprensión profunda de
nuestro negocio y nuestra estrategia. Mucha gente lleva menos de un año aquí. Es posible que hayan
realizado de 30 a 40 experimentos, por lo que es mejor si se quedan con las pruebas incrementales ".
alojamiento, vuelos y alquiler de coches. Le resultó difícil introducir nuevos productos en un diseño de
página de destino optimizado para adaptaciones. Eliminé todo para que escuche a la gente de otras
empresas hablar sobre las pruebas A / B, ya que a menudo distinguen entre las áreas comerciales en las
que usted hace y no prueba A / B. Para algunas páginas de destino, como la búsqueda de Google, los
experimentos están fuera de los límites. Nadie puede tocarlos. Pero no tenemos esas limitaciones. Nada es
realmente sagrado; puedes hacer cualquier cosa aquí. Como decimos, si la prueba te dice que el
encabezado del sitio web debe ser rosa, entonces debe ser rosa. Siempre sigues la prueba.
Vermeer se mostró muy escéptico. Le apostó a Frisby una botella de champán caro a que la prueba se
“hundiría”, lo que significa que reduciría las tasas de conversión y se detendría mucho antes de lo planeado.
Frisby se rió, “Tales especulaciones no son infundadas. Los grandes experimentos pueden sufrir o fallar
miserablemente ". Añadió: “Pero realmente disfruto de tales experimentos, más que las pruebas
incrementales. Pero requieren un conocimiento técnico profundo y una comprensión profunda de nuestro
negocio y nuestra estrategia. Mucha gente lleva menos de un año aquí. Es posible que hayan realizado de
30 a 40 experimentos, por lo que es mejor si se quedan con las pruebas incrementales ".