Una mirada tras bastidores a la construcción de un pipeline de clasificación de atributos impulsado por IA para millones de SKUs.Una mirada tras bastidores a la construcción de un pipeline de clasificación de atributos impulsado por IA para millones de SKUs.

Cómo utilicé IA para corregir valores de atributos inconsistentes a gran escala en el comercio electrónico

2025/12/25 12:53

Cuando la gente habla de escalar el comercio electrónico, se enfoca en los grandes desafíos de ingeniería: búsqueda distribuida, inventario en tiempo real, motores de recomendación y optimización del checkout. Pero debajo de todo eso se encuentra un problema más silencioso y persistente con el que casi todos los minoristas luchan: los valores de atributos.

Los atributos son la columna vertebral del descubrimiento de productos. Impulsan filtros, comparaciones, clasificación de búsqueda y lógica de recomendación. Pero en los catálogos reales, los valores de atributos rara vez están limpios. Son inconsistentes, duplicados, mal formateados o semánticamente ambiguos.

Tomemos algo tan simple como Tamaño. Podrías ver:

Código

["XL", "Small", "12cm", "Large", "M", "S"]

O Color:

Código

["RAL 3020", "Crimson", "Red", "Dark Red"]

Individualmente, estas inconsistencias parecen inofensivas. Pero multiplícalas en más de 3 millones de SKUs, cada uno con docenas de atributos, y el problema se vuelve sistémico. Los filtros se comportan de manera impredecible, los motores de búsqueda pierden relevancia, los comercializadores se ahogan en la limpieza manual y el descubrimiento de productos se vuelve más lento y frustrante para los clientes.

Este fue el desafío que enfrenté como ingeniero de software full-stack en Zoro, un problema que era fácil pasar por alto pero que afectaba cada página de producto.

Mi Enfoque: IA Híbrida Meets Determinismo

No quería una misteriosa caja negra de IA que simplemente ordena cosas. Los sistemas así son difíciles de confiar, depurar o escalar. En su lugar, apunté a un pipeline que fuera:

  • explicable
  • predecible
  • escalable
  • controlable por humanos

El resultado fue un pipeline de IA híbrida que combina razonamiento contextual de LLMs con reglas claras y controles de comercialización. Actúa inteligentemente cuando es necesario, pero siempre permanece predecible. Esta es IA con barreras de protección, no IA fuera de control.

Trabajos en Segundo Plano: Construidos para el Rendimiento

Todo el procesamiento de atributos ocurre en trabajos en segundo plano offline, no en tiempo real. Esto no fue un compromiso; fue una elección arquitectónica estratégica.

Los pipelines en tiempo real suenan atractivos, pero a escala de comercio electrónico, introducen:

  • latencia impredecible
  • dependencias frágiles
  • picos costosos de cómputo
  • fragilidad operacional

Los trabajos offline, por otro lado, nos dieron:

  • Alto rendimiento: lotes enormes procesados sin afectar los sistemas en vivo
  • Resiliencia: las fallas nunca afectaron el tráfico de clientes
  • Control de costos: el cómputo podía programarse durante tiempos de bajo tráfico
  • Aislamiento: la latencia de LLM nunca afectó las páginas de productos
  • Consistencia: las actualizaciones eran atómicas y predecibles

Mantener los sistemas orientados al cliente separados de los pipelines de procesamiento de datos es esencial cuando se trabaja con millones de SKUs.

Limpieza y Normalización

Antes de usar IA en los datos, ejecuté un paso claro de preprocesamiento para eliminar ruido y confusión. Este paso puede sonar simple, pero mejoró enormemente el razonamiento del LLM.

El pipeline de limpieza incluyó:

  • recortar espacios en blanco
  • eliminar valores vacíos
  • deduplicar valores
  • aplanar las migas de pan de categorías en una cadena contextual

Esto aseguró que el LLM recibiera entradas limpias y claras, lo cual es clave para resultados consistentes. Basura entra, basura sale. A esta escala, incluso pequeños errores pueden llevar a problemas mayores después.

Servicio LLM con Contexto

El LLM no solo estaba ordenando valores alfabéticamente. Estaba razonando sobre ellos.

El servicio recibió:

  • valores de atributos limpios
  • migas de pan de categorías
  • metadatos de atributos

Con este contexto, el modelo podía entender:

  • Que "Voltaje" en Herramientas Eléctricas es numérico
  • que "Tamaño" en Ropa sigue una progresión conocida
  • que "Color" en Pinturas podría seguir los estándares RAL
  • que "Material" en Hardware tiene relaciones semánticas

El modelo devolvió:

  • valores ordenados
  • nombres de atributos refinados
  • una decisión: ordenamiento determinístico o contextual

Esto permite que el pipeline maneje diferentes tipos de atributos sin codificar reglas para cada categoría.

Respaldos Determinísticos

No todos los atributos necesitan IA.

De hecho, muchos atributos se manejan mejor con lógica determinística.

Los rangos numéricos, valores basados en unidades y conjuntos simples a menudo se benefician de:

  • procesamiento más rápido
  • ordenamiento predecible
  • menor costo
  • cero ambigüedad

El pipeline detectó automáticamente estos casos y usó lógica determinística para ellos. Esto mantuvo el sistema eficiente y evitó llamadas innecesarias al LLM.

Etiquetado Manual vs LLM

Los comercializadores aún necesitaban control, especialmente para atributos sensibles al negocio.

Así que cada categoría podía etiquetarse como:

  • LLM_SORT — dejar que el modelo decida
  • MANUAL_SORT — los comercializadores definen el orden

Este sistema de doble etiqueta permite que las personas tomen las decisiones finales mientras la IA hacía la mayor parte del trabajo. También generó confianza, ya que los comercializadores podían anular el modelo cuando fuera necesario sin romper el pipeline.

Persistencia y Control

Todos los resultados se almacenaron directamente en una base de datos Product MongoDB, manteniendo la arquitectura simple y centralizada.

MongoDB se convirtió en el almacén operacional único para:

  • valores de atributos ordenados
  • nombres de atributos refinados
  • etiquetas de ordenamiento a nivel de categoría
  • campos sortOrder a nivel de producto

Esto facilitó revisar cambios, anular valores, reprocesar categorías y sincronizar con otros sistemas.

Integración de Búsqueda

Una vez ordenados, los valores fluyeron a:

  • Elasticsearch para búsqueda impulsada por palabras clave
  • Vespa para búsqueda semántica y basada en vectores

Esto aseguró que:

  • los filtros aparecieran en orden lógico
  • Las páginas de productos mostraran atributos consistentes
  • los motores de búsqueda clasificaran productos con mayor precisión
  • Los clientes pudieran navegar las categorías más fácilmente

La búsqueda es donde el ordenamiento de atributos es más visible, y donde la consistencia es más importante.

Resumen de Arquitectura

Para hacer que esto funcione en millones de SKUs, diseñé un pipeline modular construido alrededor de trabajos en segundo plano, razonamiento de IA e integración de búsqueda. El diagrama de arquitectura a continuación captura el flujo completo:

  • Los datos de productos entran desde el Sistema de Información de Productos
  • El Trabajo de Extracción de Atributos extrae valores de atributos y contexto de categoría
  • Estos se pasan al Servicio de Ordenamiento de IA
  • Los documentos de productos actualizados se escriben en el Product MongoDB
  • El Trabajo de Sincronización Saliente actualiza el Sistema de Información de Productos con el orden de clasificación
  • Los Trabajos de Sincronización de Elasticsearch y Vespa empujan datos ordenados a sus respectivos sistemas de búsqueda
  • Los Servicios API conectan Elasticsearch y Vespa a la Aplicación Cliente

Este flujo asegura que cada valor de atributo, ya sea ordenado por IA o establecido manualmente, se refleje en la búsqueda, comercialización y experiencia del cliente.

La Solución en Acción

Así es como se transformaron los valores desordenados:

| Atributo | Valores Sin Procesar | Salida Ordenada | |----|----|----| | Tamaño | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Color | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Material | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numérico | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

Estos ejemplos muestran cómo el pipeline combina razonamiento contextual con reglas claras para crear secuencias limpias y fáciles de entender.

¿Por Qué Trabajos Offline en Lugar de Procesamiento en Tiempo Real?

El procesamiento en tiempo real habría introducido:

  • latencia impredecible
  • Mayores costos de computación
  • dependencias frágiles
  • complejidad operacional

Los trabajos offline nos dieron:

  • eficiencia por lotes
  • llamadas asíncronas a LLM
  • lógica de reintento y colas de errores
  • ventanas de revisión humana
  • gasto de cómputo predecible

El compromiso fue un pequeño retraso entre la ingesta de datos y la visualización, pero el beneficio fue la consistencia a escala, que los clientes valoran mucho más.

Impacto

Los resultados fueron significativos:

  • Ordenamiento de atributos consistente en más de 3M+ SKUs
  • Ordenamiento numérico predecible mediante respaldos determinísticos
  • Control del comercializador a través de etiquetado manual
  • Páginas de productos más limpias y filtros más intuitivos
  • Relevancia de búsqueda mejorada
  • Mayor confianza del cliente y conversión

Esto no fue solo una victoria técnica; también fue una victoria para la experiencia del usuario y los ingresos.

Lecciones Aprendidas

  • Los pipelines híbridos superan a la IA pura a escala. Las barreras de protección son importantes.
  • El contexto mejora dramáticamente la precisión del LLM
  • Los trabajos offline son esenciales para el rendimiento y la resiliencia
  • Los mecanismos de anulación humana generan confianza y adopción
  • La entrada limpia es la base de la salida confiable de IA

Pensamiento Final

Ordenar valores de atributos suena simple, pero se convierte en un desafío real cuando tienes que hacerlo para millones de productos.

Al combinar la inteligencia de LLM con reglas claras y control del comercializador, transformé un problema complejo y oculto en un sistema limpio y escalable.

Es un recordatorio de que algunas de las mayores victorias provienen de resolver los problemas aburridos, aquellos que son fáciles de pasar por alto pero que aparecen en cada página de producto.

\n \n \n

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección [email protected] para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.