portico

Programa de Lingüística y Ciencia Cognitiva

Lingüística Computacional


 

Secuencia curricular en Lingüística Computacional

¿Qué es lingüística computacional?

La lingüística computacional es el estudio científico del lenguaje humano o natural desde una perspectiva computacional. Es un campo interdisciplinario en desarrollo que abarca la lingüística teórica, el procesamiento de lenguas naturales, las ciencias de computación, la inteligencia artificial, la psicología, la filosofía, las matemáticas y la estadística, entre otras. Los lingüistas computacionales se interesan en proveer modelos computacionales para varios tipos de fenómenos lingüísticos. Estos modelos pueden ser de conocimiento (basados en conocimiento del mundo y competencia lingüística) o estocásticos (basados en probabilidad y estadística a partir de datos). La investigación en lingüística computacional está motivada en algunos casos desde una perspectiva científica, en la que se trata de ofrecer una explicación computacional para un fenómeno lingüístico o psicolingüístico en particular; en otros casos la motivación puede ser más bien tecnológica, en la que se quiere proveer un componente operacional para un sistema de habla o lenguaje natural. 

La lingüística computacional estudia lenguas naturales como el español y el japonés en vez de lenguajes de programación como Python o Java. Este campo tiene dos perspectivas:

  cognitiva/psicológica: para desarrollar modelos computacionales que ayuden a entender cómo los humanos conocemos y procesamos una lengua natural (Inteligencia Artificial fuerte)

  tecnológica: para desarrollar tecnologías de lenguas naturales que imiten comportamientos lingüísticos humanos que nos permita interactuar con estos sistemas (Inteligencia Artificial débil)

Desde ambas perspectivas, un lingüista computacional tratará de desarrollar un conjunto de reglas y procedimientos para, por ejemplo, reconocer la estructura sintáctica de oraciones o resolver referencias pronominales. Uno de los problemas más significativos al procesar lenguas naturales  es el problema de la ambigüedad. En

(1)   Él vio al hombre en el parque con el telescopio.

no está claro si es él, el hombre o el parque el que tiene el telescopio. De igual manera, si el inspector de bomberos te dice

(2)   Hay una pila de basura inflamable al lado de su bicicleta. Va a tener que removerla.

interpretar el pronombre la como si se refiriera a la pila de basura o a la bicicleta tendrá serias repercusiones en la acción a tomar. Ambigüedades como esta son ubicuas en enunciados orales y en textos escritos. La mayoría de las ambigüedades escapan nuestra atención porque somos muy eficientes para resolverlas usando nuestro conocimiento del mundo y del contexto. Pero los sistemas computarizados no tienen mucho conocimiento del mundo ni son eficientes usando el contexto. Para resolver este problema de la ambigüedad, existen dos acercamientos posibles: el basado en conocimiento y el estadístico. El primero involucra codificar reglas combinatorias de estructuras y de computación de significado. Este acercamiento se parece más a la manera en que los humanos conocemos y procesamos el lenguaje, por lo que probablemente resulte más eficiente a la larga, aunque el esfuerzo requerido para codificar el conocimiento necesario es enorme y los procedimientos aplicados para utilizar este conocimiento son aún muy ineficientes. El segundo acercamiento se basa en corpus de macrodatos (Big Data) anotados y aprendizaje de máquina, particularmente el aprendizaje profundo para entrenar redes neuronales artificiales. Una ventaja de este acercamiento es que, una vez anotado el corpus, el procedimiento es automático y relativamente eficiente; sin embargo, los corpus anotados requeridos son muy costosos y ningún corpus puede contener las producciones infinitas (y a veces improbables) de cada hablante. Además, los métodos obtienen análisis equivocados cuando la interpretación correcta requiere conciencia de factores contextuales sutiles.

El trabajo de los lingüistas computacionales contribuye en muchas ocasiones al desarrollo de sistemas operacionales, incluyendo sistemas de reconocimiento de habla, sintetizadores de texto a habla, sistemas de respuesta de voz automática, motores de búsqueda en la red, editores de texto y materiales de instrucción de lenguas, entre otros. 

 

Secuencia Curricular en Lingüística Computacional

Consiste de 18 créditos: 12 créditos en cursos medulares y 6 créditos en electivas recomendadas

Cursos medulares (12 créditos)

• LING 5030 Sintaxis

• LING 5060 Semántica

• LING 5080 Lingüística Computacional

• LING 5090 Fundamentos Formales de la Teoría Lingüística (o MATE 3181 Matemática discreta I o CIIC 3075 o ICOM 4075 Fundamentos de computación)

 

Cursos electivos (6 créditos)

• LING 4040 Fonética

• LING 5040 Fonología

• LING 5050 Teoría Morfológica

• LING 5120 Psicolingüística

• LING 5130 Neurolingüística

• LING 5180 Procesamiento de Lenguas Naturales

• LING 5980 Seminario de Lingüística Computacional

y Procesamiento de Lenguas Naturales

• LING 5990 Seminario de Lingüística

• COMP 3075 o CIIC 4020 o ICOM 4035 Estructuras de datos

• COMP 5015 o CIIC 5015 o ICOM 5015 Inteligencia Artificial

• COMP 5045 o CIIC 5045 Lenguajes formales y Autómatas

• ICOM 6015 Redes neuronales artificiales

 

Prerrequisitos:

• LING 4010 El lenguaje en la mente humana

• LING 4080 Computadoras y Lenguaje (o INGE 3016 o CIIC 3015 o COMP 3010 Introducción a la programación)

 

Para descargar el folleto informativo de la secuencia, presione aquí.

Para acceder la solicitud de admisión a la secuencia, presione aquí (programa 3223).