Los datos predicen los precios que vendrán

Los datos predicen los precios que vendrán

23 de noviembre de 2024

La escalada de precios en los supermercados es una realidad que no se esquiva con facilidad. Sin embargo, para constatarlo y cerciorarse de que no es una afirmación basada en noticias y cuchicheos virtuales, utilizamos los datos que, bien tratados y expuestos, nos explican con detalle qué está pasando y, sobre todo, nos muestran qué puede pasar en los próximos meses.

Los supermercados se encarecen un 8% desde 2021 y parece que la tendencia alcista continúa. Así lo indica el dashboard que ha elaborado un equipo especializado en Visualización de Datos de Sngular. Para llegar a un titular semejante se ha desarrollado un proceso de extracción y tratamiento de los datos, tras la búsqueda de diferentes datasets, y se ha diseñado un panel en el que poder visualizarlos y comprenderlos. Las personas que componen el equipo tienen la capacidad de transformar una serie de datos en una historia a través de una narrativa visual, elegante y de gran usabilidad.

Evolución del precio medio

Cómo contar una historia a través de los datos

La narrativa se traduce como experiencia de usuario visual e interactiva en este tipo de herramientas de visualización de datos.

¿De dónde vienen los datos y cómo se llega a este tipo de conclusiones? El primer paso del recorrido es saber elegir las fuentes. En este caso, el equipo extrajo datos en crudo obtenidos como CSV de DataMarket y después realizó el procesado de datos disponible en Github. Y aunque ya había ejemplos anteriores de casos parecidos, como un dashboard de la propia fuente de datos de DataMarket, una visualización el PowerBI, un análisis sobre el precio de mascarillas, otro en un artículo sobre supermercados y un artículo de El Confidencial, nuestro equipo ha decidido hacer su propia versión para contaros cómo utilizamos esta capacidad de hacer narrativa desde los datos.

Una vez obtenidos los datos, se utilizó un script desarrollado en Python 3 y disponible en Github para llevar a cabo el siguiente procesamiento sobre los mismos:

  1. Separación de la categoría única que se incluye en el conjunto de datos en categoría y subcategorías.
  2. Creación de supercategorías que resumen las categorías disponibles para una mejor interpretabilidad del dato.
  3. Evaluación de la evolución interanual del precio, solo para aquellos productos con datos suficientes.
  4. Identificación de aquellos productos con datos suficientes para su visualización como serie temporal.
  5. Mejora en el formato de los nombres para hacer más atractiva la visualización.
  6. Mejora en la calidad del dato.

El problema de la calidad del dato

Un proyecto de este tipo no está exento de dificultades y en este caso los problemas los ocasionaba la mala calidad del dato. Fueron tres los problemas principales.

Uno de ellos era que los criterios para reportar precios no coincidían entre supermercados y, en algunos casos, entre secciones del mismo supermercado. Tras detectar este desajuste, fue necesario corregir por código las incoherencias.

Asimismo, algunos precios parecían imposibles para un producto de supermercado. El equipo se dio cuenta entonces de que se trataba de productos a granel y, probablemente, el error se debía a una mala interpretación de las unidades.

Otro de los contratiempos se dio al comprobar que las categorías y sus subcategorías se encontraban agregadas en una única cadena de texto, de forma que no era posible definir un criterio para separarlas de manera única.

La narrativa del dashboard

Para este proyecto se han necesitado diferentes herramientas. El equipo utilizó Python 3 con la librería Pandas para el análisis y Tableau Public para la visualización de los datos.

Gracias a la elección de Tableau como herramienta de data visualization, podemos ver diferentes tipos de gráficos.

  • Un histograma de variedad de productos por supermercado.
  • Plot de caja con precios de productos por supermercado.
  • Plot de barras con los 10 productos más caros/baratos por supermercado.
  • Plot de barras con los 10 productos que más han subido/bajado de precio por supermercado.
  • Un serie temporal con los precios medios por supermercado.

Es realmente interesante jugar con el dashboard, comprobar las decenas y decenas de posibles combinaciones que tenemos destacando los datos que más nos interesen e ir al detalle del precio de los productos según el punto de vista que necesitemos adoptar.

Como hemos querido transmitir, no nos gusta definir solo a este tipo de herramientas como visualización de datos, sino que creemos que le hace más justicia denominarlas como una herramienta que crea historias, una aplicación de narrativa gráfica que nos ayuda a comprender la realidad y a explicarla a través de un relato sencillo y práctico.

Y se puede hacer más. Como asignatura pendiente podríamos mostrar la correlación entre los precios medios y la inflación, por ejemplo, o evaluar el coste de la cesta tipo por supermercado, así como crear un servicio de scraping continuo para generar una histórico de datos y no solo los meses que se ofrecen en el conjunto descargado.

Posibilidades incalculables que seguimos poniendo en práctica para ofrecer a nuestros clientes la forma más fácil de saber lo que ocurre en sus organizaciones a través de los datos y la forma de explicarlos.