“Los datos de texto no estructurado hacen mejor trabajo en la predicción del comportamiento humano real que cualquier número de clasificaciones de escala Likert”

Categories: Extractos I&M

Tom H. C. Anderson es el fundador de OdinText, empresa estadounidense dedicada al procesamiento de lenguaje natural y análisis avanzado. Compañías como Disney y Coca-Cola utilizan sus servicios para extraer información a partir de datos (de texto) complejos, estructurados y no estructurados. La empresa ha sido galardonada con numerosos premios a la innovación por parte de asociaciones del sector como ESOMAR, CASRO, la ARF y la American Marketing Association. Esta entrevista ha sido realizada por Xavi Guiteras, de Empírica.

 

¿Podrá alguna vez un máquina entender completamente nuestro lenguaje y reaccionar a esa comprensión? ¿En qué momento estamos en la carrera para hacer que las máquinas piensen como nosotros?

Eso nos sitúa ante la inteligencia artificial general (IAG), una cuestión extremadamente difícil de resolver, aunque Hollywood hace un gran trabajo para conseguirlo, pero en realidad estamos muy lejos de eso. Un entusiasta de la IA diría que las máquinas no pueden entender las emociones, pero yo creo que el verdadero problema es la amplitud temática que esto implicaría, al menos como usted ha formulado la pregunta.

Ya tenemos varios bots, por supuesto, que están respondiendo técnicamente al lenguaje natural humano, bajo circunstancias mucho más específicas. Un ejemplo común: si sigues la página web o el perfil de Facebook de una empresa determinada, puedes optar por conversar con un bot. Este puede tratar de situarse en su nivel mental para hacerte preguntas sobre si estás interesado en una serie de informaciones o nuevas ofertas. Pero está lejos de ser humano, y al menos en mi opinión, puede ser más irritante que útil. Dicho esto, creo que cuanto más específica sea la aplicación, más útil llegará a ser.

text analytics

 

¿Qué es el procesamiento del lenguaje natural (PNL)? ¿Y qué aportes se han hecho a esta disciplina desde el campo de la lingüística?

El PNL es un tema muy amplio: puede incluir y ser sinónimo de análisis de texto y software de minería de texto como OdinText, pero también puede incluir la voz en mi Toyota FJ que sólo tiene la capacidad de marcar un número de teléfono.

A lo largo de los años he visto el término PNL cambiar de significado, ya que se ha utilizado en el área de análisis de textos y minería de textos, otros dos términos que técnicamente significan lo mismo, aunque el análisis de textos es un poco más amplio que la minería. Normalmente prefiero usar el término análisis de texto porque creo que expresa un sentido orientado a los insights sobre los consumidores, y también es menos intimidatorio que la minería de texto o el PNL.

Hace 10-15 años, el enfoque del PNL/análisis de texto presentaba una naturaleza mucho más lingüística. Las empresas de software de la época parecía que pensaban que la clave para desbloquear el potencial de los datos no estructurados (texto) estaba en la comprensión de reglas lingüísticas como la gramática, la sintaxis y el POS (part of speech). Originalmente había más lingüistas o lingüistas computacionales trabajando en este campo. Sin embargo, la lingüística ha disminuido, mientras que la inteligencia artificial/machine learning, las estadísticas avanzadas y otras automatizaciones matemáticas han aumentado en importancia. Básicamente por varias razones la lingüística era menos útil e importante de lo que pensábamos, incluyendo el hecho de que los ‘datos reales’ raramente contienen buena ortografía, gramática y sintaxis, por no hablar de las diversas fuentes de datos, incluyendo el multilenguaje, por supuesto.

Dicho esto, creo que la mayoría de los mejores proveedores de análisis de texto todavía incluyen lingüística hasta cierto punto, cuando tiene sentido. Aunque, por supuesto, es imprescindible que la herramienta disponga de la lengua concreta que se pretende utilizar. A menos que uses traducción automática en su lugar. Algo de lo que soy fan, por cierto.

En términos de idiomas, al menos para la comprensión de los consumidores, el inglés es el idioma preferido. Esto se debe a que incluso en compañías que son muy globales, a pesar de que en algún momento pueden llegar a más de 10 idiomas diferentes en una única fuente de datos, prefieren que un solo analista sea capaz de mirar a través de todos ellos, lo que implica que los datos tengan que ser traducidos. Después de todo ¿cuántas personas hablan más de 10 idiomas?

 

El mensaje es solo uno de los elementos que intervienen en el proceso de comunicación. ¿La analítica de textos es o será capaz de decodificar el contexto en el que se ha producido el mensaje?

No estoy seguro de entender completamente la pregunta. Pero el contexto puede ser y suele ser muy importante, por supuesto. Por lo tanto, es importante conocer el contexto, ya sea porque una herramienta se aplica específicamente a ese contexto, o porque la empresa tiene algún tipo de propiedad intelectual que ayuda a determinarlo.

 

En España asociamos la analítica de textos a la codificación automática de frases con un ‘enfoque basado en diccionarios’. ¿Es correcta esta suposición?

Bueno, ese es un enfoque. Y puede funcionar bien en muchos casos. Pero hay otros que incluso con ese enfoque, no tienen tanto que ver con el hecho de que al final se genere algún tipo de diccionario/taxonomía/ontología personalizada, sino con qué rapidez y precisión se crea. Y después de eso, con qué más se puede hacer sobre los datos para identificar patrones adicionales, reducir y organizar los datos y, luego, construir modelos para predecir resultados futuros.

Por lo tanto, si sólo se trata de un diccionario simple aplicado de forma aislada para codificar algunos datos, sería un enfoque muy simplista en mi opinión, y hay mucho más que eso en un buen análisis de texto.

 

INTERPRETAR LOS SILENCIOS

Un largo silencio puede ofrecer una gran información sobre el encuestado. ¿Puede la analítica de texto resolver este vacío?

Nunca he pensado en eso, en parte porque normalmente estamos analizando texto, o palabras habladas que han sido transcritas en texto ya sea por humanos o a través de transcripciones automáticas no supervisadas.

Creo que si fuera muy importante lo podríamos resolver. No sería tan difícil incluir un espacio en blanco y transcribirlo como tal.

 

¿Cuál es el papel de un investigador cualitativo en la era del análisis de textos? ¿Y cuál es el papel de un investigador cuantitativo?

Casi todos los análisis de texto serios en este momento vienen del lado cuantitativo. Hay varias razones para esto que van desde la falta de interés entre los investigadores cualitativos de hacer análisis adicionales y pagar dinero extra por proyectos que ya están bastante ajustados, hasta el hecho de que técnicamente es un problema más difícil de resolver, y los pequeños tamaños de las muestras no permiten que se utilicen los mismos tipos de enfoques de reconocimiento de patrones en los datos cualitativos.

Espero que esto pueda cambiar en un futuro próximo. Pero no es la guinda con el mejor retorno de la inversión, por lo que llegará más tarde.

 

La realidad es extensa. Por eso, el investigador pone un marco en esta realidad para analizar lo que quiere descubrir. ¿Podrá la analítica de textos utilizar esta información para crear, por sí misma, un marco de trabajo?

Absolutamente. Nuestro software ya hace esto, construye mejores libros de códigos o, dicho de otra manera, hace un mejor trabajo que los humanos identificando características (temas, atributos…) en los datos. Estos son a menudo de menor incidencia, pero nuestro software los detecta como importantes, cosas que los humanos no hubieran encontrado por sí solos. El software lo confirma de nuevo, más tarde, en los componentes finales del análisis.

Esta es una de las muchas áreas donde las máquinas pueden ser mejores que los humanos. Eso y ¡100% de consistencia!

 

¿Puede ser la analítica de texto un sustituto de las técnicas cuantitativas (por ejemplo, encuestas)? ¿Rivalidades o complementos?

Absolutamente complementarias, pero creo que también puede ser un reemplazo completo. Permitirá que las encuestas sean mucho más cortas, lo que aumentará la calidad de los datos. También podrá predecir cualquier métrica estructurada que sea importante. Y, por lo que he visto, los datos de texto no estructurado hacen un mejor trabajo en la predicción del comportamiento humano real que cualquier escala Likert.

Así que permítanme reiterar, ¡Sí y Sí!

 

Sobre el poder predictivo de la analítica de textos en política, ¿se pueden utilizar para predecir, digamos, los resultados de las elecciones?

Lo hicimos por accidente, justo antes de las elecciones de Estados Unidos entre Trump y Clinton. Nuestro software demostró claramente que Trump estaba en una mejor posición que Clinton, y lo dijimos justo antes de las elecciones, y cuando sucedió volvimos atrás para ver cómo habíamos sido capaces de ver esto.  Blogueé sobre ello un par de veces.

Más tarde repetimos esto con las elecciones francesas, y vimos un patrón similar, aunque no exactamente el mismo. Creo que lo que ayudó a evitar el posible disgusto francés fue una combinación del gobierno, los medios de comunicación y la gente que pensó que algo similar podría ocurrir en Francia, así como la identificación de la posible influencia rusa, que afectaba a la votación, las leyes electorales francesas y la contención de los medios de comunicación.

Pero sí, hemos utilizado el análisis de texto en otros análisis electorales.Obviamente es una gran manera de entender qué temas electorales son importantes para distintos segmentos y cómo varios posicionamientos pueden afectar a los resultados.

 

ALIENÍGENAS

De todo lo anterior… ¿inteligencia artificial o inteligencia amplificada? ¿Cuál es el papel de los humanos en la era de las máquinas?

Mientras llega el objetivo final, que es la inteligencia artificial no supervisada, tenemos la inteligencia artificial supervisada. Para la investigación ad-hoc altamente personalizada, de la que no se dispone de datos previos que nos ayuden a formarnos, y/o en la que los calendarios no permiten una ‘IA idónea’, esta es una solución más realista y mejor.

 

Pasar de la teoría a la práctica… ¿cómo son los resultados de un análisis? ¿Cómo es el proceso de una herramienta de análisis de texto desde que se captura la información hasta que la herramienta muestra los resultados?

Tenemos varias visualizaciones, tablas, etcétera, que funcionan muy bien en la comunicación de ideas e insights. Son parte de nuestra propiedad intelectual. Este es un paso que muchas compañías no tienen en cuenta, sólo crean cuadros de mando demasiado simplistas y lindos, o peor aún, esas estúpidas nubes de palabras que no te dicen nada.

La respuesta, sin embargo, es que, al final, la solución depende del usuario, del analista o manager que utiliza la herramienta y de lo que necesita entender y comunicar. Es como si me preguntaran, “¿qué tipo de salida debería usar con números/matemáticas?” La respuesta abarcaría un campo de outputs ilimitados que dependen desde las especificidades del contexto hasta la imaginación del investigador. En definitiva, de lo que se trata es de comunicar insights de forma eficaz. Pero todas las representaciones de resultados disponibles para matemáticas/números también están disponibles para texto, ¡y mucho más!

 

Lo siento… no puedo evitar hacer esta pregunta… en caso de que no estemos solos en este universo, ¿serían las herramientas analíticas más rápidas que los humanos en el entendimiento de un lenguaje ET? ¿Y si sus estructuras gramaticales son totalmente diferentes de las utilizadas por los humanos?

Has hecho algunas preguntas interesantes hoy. Mucho mejores de lo que suelen ser.  Curiosamente, eso es algo de lo que he hablado ya en el blog.

Creo que la comunicación con alienígenas inteligentes es una gran manera de ilustrar el papel de la lingüística, o la no inclusión de ella en el PNL. Creo que sería un problema extremadamente fácil de resolver. Tenemos múltiples formas para hacerlo, desde las más básicas hasta la IA. Y cuando piensas en esto te das cuenta de que es sólo un tema de mapeo de respuestas, algo para lo que las computadoras son extremadamente adecuadas. E, irónicamente, confirma lo que dije al principio de esta entrevista, que la lingüística es una disciplina relativamente poco importante en el gran esquema de prioridades cuando se trata de análisis de texto…

Artículo publicado en la Revista Investigación y Marketing. Nº 139 –julio 2018.

Deja un comentario