Construyendo un corpus morfológicamente comparable y multiparalelo para lenguas peruanas subrepresentadas de la Amazonía

Línea de investigación:

Lingüística computacional, bases de datos y tecnologías del lenguaje

Descripción

El grupo de Investigación Chana-PUCP viene impulsando el desarrollo de tecnologías lingüísticas para las lenguas indígenas peruanas, como estrategia para apoyar su revitalización. Los miembros de Chana están desarrollando corpora para la investigación del procesamiento del lenguaje natural (PNL), tales como correctores ortográficos con fines educativos. La recopilación de datos computacionales para las lenguas indígenas peruanas es un desafío, ya que los recursos digitales para estas lenguas son escasos. Por lo tanto, es esencial desarrollar y anotar los corpus curados tanto como sea posible. Un desafío adicional es la gran diferencia entre estos idiomas nativos y el español. Las lenguas indógenas peruanas son altamente aglutinantes y polisintéticas. Proponemos construir un corpus multiparalelo a través de las lenguas peruanas de la Amazonía para la comparación morfológica y sintáctica. Hemos iniciado el proyecto con los siguientes idiomas amazónicos: Shipibo-Konibo, Kakataibo, Shiwilu, Amahuaca, Ashaninka, Yanesha, Yine y Matses. Financiado por el Instituto Max Planck para la Antropología Evolutiva. Líneas de investigación: Lingüística computacional, bases de datos y tecnologías del lenguaje

No items found.