NLP al alcance de todos: MeaningCloud
25 de noviembre de 2024
Imagina que trabajas en una gran empresa con una ingente cantidad de comentarios en su plataforma de atención al cliente, o en una compañía telefónica que emite de forma recurrente encuestas de satisfacción a sus usuarios. En ambos casos, los departamentos de atención al cliente, marketing, comunicación o ventas recibirán decenas, cientos o miles de respuestas en sus formularios. Además, lo harán de forma recurrente, sin tregua posible.
Las tareas de analizar cada una de las respuestas y extraer información relevante de ellas con el objetivo de aprender de los clientes para mejorar el negocio son importantes, pero largas y tediosas. Lo son por el enorme volumen de los textos y su continuidad. Necesitan de muchos recursos de la empresa.
Fantasea también con que quieres detectar extractos de texto plagiados entre una amalgama de documentos para saber si está habiendo algún tipo de acción fraudulenta en licitaciones o en exámenes. O que quieres saber lo que se está diciendo con respecto a una persona o entidad en el enorme flujo de conversación de Twitter cuando un tema se convierte en trending topic. ¿Cuánto tiempo nos llevaría comparar uno por uno cientos de documentos antes del cierre del plazo de dicha licitación? ¿Cómo acometeríamos la lectura pormenorizada de todos los tuits y sus respuestas?
Las situaciones planteadas tienen como factor en común que nos encontramos ante una serie de contenidos no estructurados, los cuales necesitamos clasificar y analizar para extraer información relevante. Y esta labor se puede automatizar gracias a MeaningCloud, la gran herramienta de analítica de textos de Sngular.
¿Qué hace MeaningCloud?
Las áreas de aplicación de este instrumento de analítica son, como hemos visto, múltiples y muy variadas. MeaningCloud es un artefacto idóneo para las siguientes situaciones.
¡Escríbenos para resolver cualquier duda!
Análisis de estructura de documentos
No siempre tenemos la suerte de encontrarnos con documentos estructurados y con una tabla o índice de contenidos, sino que se nos presentan como una secuencia de palabras que hay que recorrer hasta el final para hacernos una idea de su estructura.
Esta API de MeaningCloud es capaz de extraer de forma automática título, cabeceras de secciones y subsecciones, así como destinatarios, remitentes o asuntos de emails, ayudándonos a comprender la estructura del contenido, a identificar los distintos componentes del texto.
Esto puede ser muy útil para gestionar el conocimiento de, por ejemplo, una organización, que lo almacena en cientos y cientos de documentos; para complementar las publicaciones con una descripción de su estructura haciéndolas más explotables y valiosas; o para detectar patrones sospechosos en aplicaciones de cumplimiento normativo analizando la estructura de una colección de emails.
Análisis de Estructura de Documentos
Análisis de sentimiento
Quizás el concepto minería de opiniones baje un poco más al terreno de juego el título de este epígrafe. Se trata de una potente API para identificar y extraer información subjetiva de contenidos en redes sociales, en una encuesta de satisfacción, las reseñas de productos en foros o en cualquier otro medio que se desee. Todo tipo de fuentes de customer insights e interacciones en los puntos de contacto con el cliente pueden ser examinadas para la mejor gestión de la experiencia.
Gracias al procesamiento del lenguaje natural, la analítica de textos y la lingüística computacional, podemos ser más eficientes a la hora de tratar grandes volúmenes de textos. Además, podremos construir herramientas de monitorización que nos mantendrán alerta en tiempo real.
Deep categorization
Esta API responde a la necesidad de clasificar cantidades inmensas de texto, pero también variadas. Tiene la capacidad de analizar en detalle el significado de los contenidos y extraer contextos para reflejar la estructura de temas y subtemas a partir de unas reglas predefinidas o adaptadas a dominios específicos.
Dichas reglas abarcan no solo los niveles léxico y gramatical, sino que incorporan el nivel semántico basándose en el análisis morfosintáctico y semántico profundo. De esta manera, define patrones y busca la coincidencia con las categorías semánticas de la ontología del producto, así como de diccionarios personales creados por el usuario.
Esta API permite basar las reglas en la función y significado de las expresiones en lugar de en las formas literales de los términos. Gracias a ella tenemos la posibilidad de analizar la voz del cliente, la voz del empleado, comprender los documentos de forma profunda y categorizar los contenidos con gran detalle y precisión.
Clasificación de textos
Esta funcionalidad nos ayuda a categorizar automáticamente cualquier contenido en categorías con el objetivo de facilitar su gestión, organización, agrupación y filtrado. Se trata de una herramienta muy potente para buscadores, medios de comunicación o tiendas online, ya que sus contenidos o productos estarán perfectamente ordenados, en una clasificación jerárquica o taxonomía, para facilitar su búsqueda y navegación.
¿Cómo clasifica? A través de varios modelos predefinidos de clasificación estándar aceptados de forma general, aunque también podemos añadir nuestros propios modelos de clasificación. Uno de ellos es el IPTC (international Press Telecommunication Council), que se usa en medios de comunicación para asignar noticias a las diferentes secciones en más de 1300 categorías. Otro modelo es el de IAB (Interactive Advertising Bureau) para el posicionamiento de anuncios relevantes. Aunque también permite la elaboración de un modelo propio.
Podríamos utilizar esta API, además, para búsqueda y recomendación de contenido o catalogación de expedientes médicos, judiciales o estados financieros.
Clustering de texto
Si disponemos de una colección de documentos tendremos la capacidad de descubrir de forma automática los temas más frecuentes, distribuyéndolos en diferentes grupos o clusters. El sistema encuentra las similitudes y diferencias entre ellos y los organiza en función de sus contenidos, es decir, que lo hace a posteriori, no utilizando categorías predefinidas.
Esta API lleva a cabo el tratamiento de contenido no estructurado y lo agrupa según su relevancia respecto a los temas presentes en la propia colección. Esta es la principal diferencia con respecto a la API de Clasificación de textos, ya que, en este caso, se parte de una taxonomía previamente definida. Clustering trabaja sobre un conjunto de documentos al mismo tiempo para distribuirlo en grupos atendiendo a sus similitudes, sin depender de un modelo previo. Ambas herramientas son complementarias.
Utilizamos clustering para recuperar información y establecer sistemas de recomendación, analizar feedback y minería de opiniones, clasificación de documentos o seguimiento y análisis de medios.
Extracción de topics
Más de 200 clases en una ontología que jerarquiza los tipos de entidad para extraer información relevante de un texto: personas, lugares, organizaciones, productos… La API de Extracción de topics etiqueta la información para estructurarla y obtener así su huella semántica.
Asimismo, es capaz de detectar conceptos y datos relevantes como fechas, teléfonos, cantidades monetarias o direcciones electrónicas. Se puede personalizar con nuevas entidades de la temática que se necesite.
La anotación de entidades, su clasificación y desambiguación mejora la búsqueda de información, el posicionamiento en buscadores o la recomendación de contenido relacionado.
Resumen automático
Por último, con MeaningCloud podremos hacer resúmenes automáticos del significado de un documento, extrayendo de él sus frases más relevantes. Es una buena forma de ser más eficientes a la hora de evaluar si tenemos que dedicarle tiempo a una lectura más exhaustiva o si, por el contrario, no merece la pena.
La API localiza las frases más relevantes del documento y construye una sinopsis. Extrae, así, las ideas principales en la cantidad de texto que deseemos obtener, ya que podemos personalizar la extensión del resumen. Es ideal para la monitorización de medios, la gestión del conocimiento de una organización y la publicación de contenidos.
Reputación corporativa
La API de Reputación corporativa analiza las opiniones sobre una empresa u organización. Combina tres tipos de tareas para hacer análisis de la reputación: Extracción de topics, Análisis de sentimientos y Clasificación de textos.
A partir del análisis de un texto, identifica qué organizaciones se mencionan en él, en relación con qué temáticas reputacionales se habla (por ejemplo, su capacidad de innovación o la empatía con la ciudadanía) y asigna polaridad (positiva, negativa o neutra) a las entidades. El objetivo es reconocer la reputación u opinión de una empresa a partir de lo que se dice de ella.
De las que hemos visto, las API de Extracción de Topics, Análisis de Sentimiento, Deep Categorization y Reputación Corporativa parecen ser herramientas muy potentes para el análisis de información o de textos sobre nuestro negocio. ¿Qué tendrán en común? Pues que se pueden integrar diccionarios en ellas para mejorar la calidad de nuestros resultados. ¿Cómo va esto? Te contamos más.
Diccionarios predefinidos y diccionarios de usuario
La tecnología de MeaningCloud permite integrar diccionarios de dominio genérico o específico para añadir un análisis morfológico y semántico más allá de lo que pueden aportar los recursos léxicos generales de la plataforma. Estos diccionarios están compuestos por entradas de dos tipos: entidades, que son objetos del mundo real que se pueden identificar con un nombre propio (Entidad = Barcelona), y conceptos, que se definen como términos que ayudan a describir el contenido de un texto y sirven para nombrar las clases de entidades (Concepto = ciudad).
Pongamos que para nuestro caso necesitamos extraer términos de un texto de dominio específico como pudiera ser una carta a los accionistas (letter to shareholders) de cualquier empresa inglesa. Si llamamos a la API de Extracción de Topics con un diccionario genérico, probablemente el resultado sea bastante pobre. Por ello, diccionarios específicos como FIBO (Financial Industry Business Ontology) permiten abarcar una terminología más especializada para usuarios no legos. Este diccionario permite detectar la terminología definida por el Vocabulario FIBO y vincularla al nodo correspondiente de la ontología FIBO, añadiendo cierta información como su definición, origen, etc.
Mejor aún. No estamos trabajando con un texto de dominio público, sino con un corpus propio relativo a nuestro negocio. Necesitamos, además de una terminología financiera general, integrar en el modelo nombres o referencias de nuestros clientes o empresas con las que hacemos negocio. Con el fin de seguir ganando en cobertura y, además, afinar la precisión, los recursos generales pueden complementarse con diccionarios de usuario creados ad hoc para nuestras necesidades. ¡Podemos crear nuestra propia ontología!
Otro ejemplo: si una empresa quiere detectar el nombre de los autores (personas que trabajan en dicha empresa) de los documentos de una base documental propia, no vamos a poder contar con un recurso general que detecte dichos nombres, como sí haría en el caso de que fueran escritores conocidos. ¿Cómo podemos encaminar este proyecto? Sería tan sencillo como construir un diccionario de usuario con los nombres facilitados por la empresa, a los que se les aplicaría un rasgo AUTOR y la API correspondiente para la que se pretenda utilizar este recurso pasaría a detectarlo como parte de la salida cuando se llame a dicha API con este diccionario de usuario. ¡Es fantástico!
En resumen, los recursos léxicos generales de los que se sirven las API de MeaningCloud están diseñados para analizar y trabajar con textos de cualquier ámbito común, por lo que cuentan con una amplia cobertura; sin embargo, en ocasiones y por necesidades de nuestro negocio, debemos customizar la salida de ciertas API para una tarea muy concreta. Para ello, nos podemos servir de diccionarios predefinidos por MeaningCloud (en el caso de que puedan servirnos de ayuda) o de diccionarios personalizados por el usuario.
Si te interesa MeaningCloud y quieres hablar con nuestro equipo, puedes escribirnos y organizaremos una reunión para contártelo todo con más detalle.