La importancia de optimizar search engines en eCommerce

Aplicación de Analytics & data mining, Natural Language Processing y Machine Learning.

Los search engine de los site eCommerce, especialmente en long tail, se han transformado en una herramienta fundamental en el proceso de compra, sobretodo cuando los usuarios comparan productos o precios entre diferentes sites. Las herramientas analíticas y de data mining (Analytics & data mining), de Natural Language Processing (NLP) y Machine Learning (ML), permiten transformar el proceso de búsqueda en mecanismos de recomendación, adaptados al usuario y su contexto, reduciendo el abandono de carritos, acelerando el “checkout” y aumentando la conversión.

Search Engines en eCommerce

La tendencia actual de los usuarios online es buscar en lugar de navegar por listas o catálogos. Hace años los primeros buscadores estaban organizados por categorías y familias de links (Altavista, Wandex, etc). Pero  la irrupción de Google transformó las búsquedas, en eso, en puras búsquedas sin organizar la información según criterios que guiaran al usuario.

Cuando los volúmenes de información son inmensos, pretender organizar la información es una pretensión con pocas posibilidades de éxito. La mejor manera de tratar la información es mediante sistemas que funcionen bajo algoritmos que aproximen la solución buscada teniendo en cuenta lo que el usuario expresa en la búsqueda y las características o perfil del propio usuario.

Este mismo concepto se debe aplicar y se está aplicando en las búsquedas en portales de eCommerce o corporativos. Los usuarios quieren poder buscar lo que necesitan o lo que les interesa sin navegar por árboles diseñados en muchos casos sin tener en cuenta al propio usuario.

Ratios de conversión y búsqueda

Utilizando datos de Coremetrics para eCommerce en UK, la tasa media de conversión en eCommerce-retail es del 4% para grandes marcas, con una tasa menor para otras marcas.

Si analizamos los carritos, la tasa de “add to basket” (añadir al carrito) es de un 8% por lo que existe un nivel de abandono de compra que podría rondar el 50%, lo que sitúa la compra final, conversión final, en un 4%.

Estos mismos datos demuestran que cerca de un 30% de usuarios realiza búsquedas y que si el usuario realiza búsquedas durante el proceso de compra, la conversión final en venta casi se duplica llegando al 7,59%, incluso con un aumento del valor de la cesta media.

Esto nos lleva a varias conclusiones interesantes:

  • Uno de cada 3 usuarios prefiere buscar que navegar por los sites
  • Las búsquedas son importantes en proceso de conversión “to sale”
  • Los usuarios que buscan tiene claramente una propensión a convertir en compra ya que tienen claro el objetivo final
  • Una búsqueda optimizada y adaptada al usuario y su contexto permite duplicar la tasa de conversión “to sale”

Teniendo en cuenta estos datos y que los usuarios tendrán mayor tendencia a comprar cuando el mensaje resultante de la búsqueda sea relevante para ellos, debemos analizar en profundidad como poner en marcha un sistema de búsquedas óptimo.

Principales funcionalidades deseables en búsquedas

A partir del estudio de Baymard sobre búsquedas en eCommerce, he realizado un análisis de las tecnologías  Analytics, NLP y ML a aplicar en eCommerce para conseguir disponer de las funcionalidades mínimas necesarias que los usuarios esperan encontrar de forma habitual en un buscador.

Algunas de las funcionalidades necesarias son puramente cuestiones de diseño y UX pero otras no se pueden resolver con simple programación y es aquí donde intervienen Analytics, NLP y ML.

Funcionalidad

Diseño y UX

Analytics, NLP y ML

Organización de los resultados en base a las características del usuario  

X

Poder utilizar la marca o modelo en las búsquedas (Apple en lugar de iphone)  

X

Soportar errores ortográficos (aiphone)  

X

Soportar la categoría en los productos (teléfono)  

X

Soportar sinónimos (tv, televisor, televisión)  

X

No depender de la jerga propia del producto o site (impresora o multifunción)  

X

Proponer sugerencias de autocompletado en la entrada de datos

X

X

Soportar plurales y singulares (patata o patatas)  

X

Localización de productos complementarios (accesorios)  

X

Localización de productos sustitutivos (productos similares)  

X

Mantenimiento del término de búsqueda en el campo de entrada para poder modificar el texto después del primer resultado

X

 
Posibilidad de filtrar los resultados de búsqueda en base a características de los productos encontrados (marcas, precios, colores, etc.)

X

 
Utilización de “breadcrumbs” en las páginas de resultados para poder situar la zona del site donde se encuentra el producto localizado.

X

 

Aplicación a eCommerce

Para poder disponer de un search engine en eCommerce que permita cubrir las necesidades anteriores no es suficiente con disponer del catálogo de productos. Para predecir la afinidad de un cliente a adquirir un producto, recomendarle los productos que mejor se adaptan a su perfil y conocer su propensión a comprar es necesario trabajar con las características demográficas de los clientes y sus compras históricas, junto con los datos de otros usuarios.

Tipos de datos

Catálogo de productos

Lo primero es disponer de un catálogo de productos organizado con:

  • SKU o referencia
  • nombre del producto
  • modelo
  • marca
  • descripción
  • características físicas (tamaño, color, peso, volumen, público objetivo, etc.)
  • categorización a varios niveles
  • Sinónimos del producto
  • Características de compra del producto (habitual, one time)
  • Gama del producto (alta, media, baja)
  • Puntuaciones de los usuarios (globales)

Si estos datos no están disponibles totalmente es posible utilizar métodos de data mining & Analytics o de ML para obtener los datos:

  • Categorizar los productos por familias (Clustering y Clasificación)
  • Extraer modelos, marcas, tamaños de la descripción (NLP, Clustering y Clasificación)
  • Detección de errores (“Outlier detection” o Clasificación)
  • Extracción de sinónimos (NLP)
  • Detección de categorías subyacentes (Clustering)

Y de forma complementaria debemos disponer de los siguientes algoritmos o modelos

  • Limpieza de términos irrelevantes (stop words removal)
  • Búsqueda por semajanza (semantic clustering)
  • Análisis de combinaciones (stemming y variaciones de letras)
  • Análisis de sinónimos
  • Creación del diccionario de términos

Ventas globales

Las ventas globales deben estar disponibles en un formato detallado donde figuren:

  • Número de transacción
  • Número de factura asociada
  • Fecha y Hora
  • SKU o referencia
  • Precio venta
  • Unidades
  • Descuento sobre el PVP
  • Código de promoción
  • ID del Cliente
  • Tipo de entrega
  • Campaña de ventas asociada

Existen multitud de análisis y modelos que se pueden realizar con estos datos, pero centrándonos en aquellos que nos ayudarán con las búsquedas podemos realizar los siguientes:

  • Productos Complementarios (Basket Analysis)
  • Clasificación  de productos y categorías por volumen de Ventas

Datos de clientes

Los datos de clientes deben incluir:

  • Id de Cliente
  • Histórico de compras
  • Edad
  • Género
  • Domicilio
  • Fecha de Alta
  • Detalle de todas las compras

Al igual que con las ventas, existen multitud de análisis y modelos que se pueden realizar con estos datos, pero centrándonos en aquellos que nos ayudarán con las búsquedas podemos realizar los siguientes:

  • Cálculo de indicadores de hábitos de compra (LRFM  Length, Recency, Frequency and Monetary)
  • Segmentación por tipo de cliente (Clustering)
  • Afinidad de productos ( Utility Matrix and recommendations)
  • Valor del cliente (LTV Prediction)

Modelo global de búsquedas

Con estos datos (todos o parte de ellos) ya podemos establecer un modelo analítico global para un sistema de búsquedas basado en 3 pasos:

  • Data Preprocessing
  • Model Train
  • Predict

Data Preprocessing

En la fase de Data Preprocessing se preparan los datos calculando valores estadísticos necesarios y se realiza la categorización, los clusters de productos, el LRFM de clientes así como el LTF, se “clusterizan” los clientes, se realiza el Basket Analysis y finalmente se calcula el modelo de “Product Propensity” para los clientes.

 image00

Model Train

En la fase de Model Train se preparan los modelos que se utilizarán para las predicciones de búsqueda.

Se calcula el modelo de Búsquedas, el de Categorizaciones, el de productos Complementarios y el de productos Sustitutivos.

Search engines optimization

Predict

Una vez se han creado los modelos con los datos preprocesados ya se pueden utilizar estos modelos para realizar las predicciones de forma que, con los términos de búsqueda, se realiza una predicción de Búsquedas, una predicción de productos Complementarios y una predicción de productos Sustitutivos.

Search engines optimization

El resultado de estas tres Búsquedas se corrige mediante el modelo de Propensión o Afininidad que permite adaptar los resultados a las características de cada usuario.

Conclusiones

Mediante una utilización correcta de las técnicas Analíticas, de NLP y de ML se puede obtener un sistema de búsquedas inteligente, que no sólo busca de forma semántica sino que además se adapta a lo que los clientes compran de forma global y a las características de cada cliente.

 

Rodolfo Lomascolo, Septiembre de 2016