Saltar al contenido
FluyezCambios

Enseñar a las computadoras a leer la ‘jerga de la industria’: procesamiento del lenguaje técnico versus natural

30 de octubre de 2022

empresas tienen sus propios «lenguajes» especializados: palabras y frases que en su mayoría solo tienen sentido para alguien en ese negocio. Esta jerga técnica, argot o jerga de la industria se ha desarrollado en gran medida como un método abreviado para transmitir ideas y directivas complejas o muy específicas con un esfuerzo mínimo. 

«Peter, por favor, consígueme esa copia impresa de TSP para mi jubilación lo antes posible».

“No exageres con la sal, la cucharadita debería ser suficiente”.

“Necesito terminar mi libro blanco para la torre de marfil de COB”.

“El motor uno necesita una inspección de lubricación y un rebobinado. Empujémoslo hasta el PM de toda la línea de la próxima semana”.

Frases como estas pueden significar algo muy específico para usted, o pueden no significar nada en absoluto. Tal vez pienses que entiendes partes de ella, pero esas mismas partes pueden significar algo más para otra persona. Incluso si las letras y las palabras le son familiares, su contexto y su significado pueden perderse sin la comprensión específica de su procedencia. A veces, ese contexto se puede encontrar en la oración misma; otras veces es más elusivo.

Considere el término «TSP». Cualquier angloparlante promedio podría reconocerlo como una abreviatura de algo, pero dependiendo de quién lo lea, dónde y cuándo, la respuesta a lo que significa podría ser muy diferente. Tal vez signifique «cucharadita», o «Plan de Ahorro de Ahorro», o «fosfato trisódico», o cualquier cantidad de otras posibilidades. Es el contexto que lo rodea lo que debe interpretarse para comprender su intención.

Las personas generalmente son muy buenas para aprender y traducir el contexto y la intención con comparativamente poca información adicional. Las computadoras, sin embargo, no lo son. En el ejemplo anterior, se podrían agregar palabras como «sal», «jubilación» o «químico» para permitir que una computadora descubra rápidamente el contexto. Pero incluso entonces, puede haber confusión dependiendo de si la palabra se usa en un entorno técnico o casual. El fosfato trisódico es químicamente una sal, lo que lleva a frases correctas pero confusas como «UNA TSP: TSP». 

Dirijo un grupo en el NIST que está muy interesado en este tipo de lenguajes codificados altamente contextuales. Después de leer «UNA TSP: TSP», queremos que una computadora pueda traducir esa frase a otro usuario como «Agregue una cucharadita de fosfato trisódico a la mezcla». Mis colegas y yo estudiamos y trabajamos en el área de procesamiento técnico del lenguaje (TLP), el acto de usar computadoras para capturar, comprender y traducir jerga para otros usuarios. Estas pueden ser acciones directas como controlar un robot, pero a menudo lo más importante es que queremos que las computadoras puedan comunicar las ideas que capturan a otra persona. 

Para nuestros propósitos, los lenguajes técnicos pueden ser cualquier cosa escrita o hablada en un entorno industrial o científico, donde el contexto es especialmente importante. En muchos casos, esto incluye palabras o frases que quizás ni siquiera aparezcan fuera de un grupo muy pequeño. Pero claramente no todo el lenguaje es técnico, así que hablemos brevemente sobre la contraparte más conocida de TLP. 

El procesamiento del lenguaje natural (NLP) es un área formal de estudio que toma las comunicaciones de los humanos y transforma esa información en algo más adecuado para el uso y análisis de la computadora. En términos generales, esto se realiza reestructurando la comunicación en una forma que permita compararla con “conceptos” o ideas que la computadora ha aprendido previamente. Pero donde la PNL se enfoca en los usos más comunes de las palabras, la TLP se enfoca en los usos menos comunes o significados que pueden cambiar según el contexto. Por ejemplo, «correr» y «trotar» son conceptos similares, pero pueden o no funcionar indistintamente según el contexto. Una herramienta de NLP podría reconocer ambos como medios de locomoción, pero una herramienta de TLP también podría saber que recorrer una memoria tiene poca relación con administrar una tienda y que ninguno de los dos es un medio de locomoción.

Algunas de las aplicaciones más comunes de la PNL que encuentras en tu vida diaria son las herramientas de traducción. Pueden ser traducciones de idiomas, como inglés a español, pero también pueden ser traducciones de voz a texto. Los chatbots interactivos y algunos motores de búsqueda utilizan formas de NLP.  

Si bien las máquinas han comenzado a brindar un beneficio social real a partir de la PNL, la TLP aún tiene que mostrar todo su potencial y sigue siendo una tarea mucho más difícil. Los líderes de la industria han comenzado a reconocer la necesidad de procesar grandes volúmenes de texto y traducir información entre personas en áreas donde la PNL tiene dificultades para funcionar, por lo que están comenzando a inclinarse cada vez más hacia TLP para ayudarlos.