Informe del estado actual de los corpus en español y lenguas cooficiales

Informe del estado actual de los corpus en español y lenguas cooficiales  
  • ​Editado por la Secretaría General Técnica del Ministerio de Asuntos Económicos y Transformación Digital, en coedición con el Instituto Cervantes, el presente informe recopila los corpus más relevantes para las Tecnologías del Lenguaje desarrollados hasta finales de 2022.
  • El Informe “Estado actual de los corpus en español, lenguas cooficiales y variantes del español", ha sido elaborado en el marco del Plan Nacional de Tecnologías del Lenguaje y del PERTE de la Nueva Economía de la Lengua.
  • En la publicación se aborda el análisis del estado actual de los corpus en español, lenguas cooficiales y variedades del español desde la perspectiva de su importancia en la aplicación de las Tecnologías del Lenguaje y la Inteligencia Artificial.

El Informe “Estado actual de los corpus en español, lenguas cooficiales y variantes del español", elaborado en el marco del Plan Nacional de Tecnologías del Lenguaje de la Secretaría de Estado de Digitalización e Inteligencia Artificial y del PERTE de la Nueva Economía de la Lengua, aborda el análisis del estado actual de los corpus en español, lenguas cooficiales y variedades del español desde la perspectiva de su importancia en la aplicación de las Tecnologías del Lenguaje y la Inteligencia Artificial.

Editado por la Secretaría General Técnica del Ministerio de Asuntos Económicos y Transformación Digital, en coedición con el Instituto Cervantes, el presente informe recopila los corpus más relevantes para las Tecnologías del Lenguaje desarrollados hasta finales de 2022. Se trata del catálogo más exhaustivo realizado hasta el momento, con más de 190 corpus citados desarrollados para español, lenguas cooficiales y variedades del español.

Los corpus son recursos indispensables para el desarrollo de las Tecnologías del Lenguaje y de modelos en el campo del procesamiento del Lenguaje Natural. Están formados por colecciones de textos, grabaciones en formato audio, transcripciones, imágenes con descripciones, vídeos, etc., junto con informaciones adicionales, lo más extensas y ordenadas posibles para servir tanto a la investigación como a la industria.

Más del más del 90 % de los textos con los que son alimentadas las fases de entrenamiento de la IA están redactados en inglés. Esto es algo que se pretende revertir. Superar por lo menos una cota del 10% en otras lenguas como el español ofrece la posibilidad de mejora en la calidad de los diálogos entre máquinas y usuarios hispanoparlantes, permitiendo interacciones más naturales.

Asegurar, por tanto, la disponibilidad de corpus en español y en lenguas cooficiales es imprescindible si se pretende que nuestras lenguas sean relevantes en el mundo digital y en el mercado de las nuevas tecnologías del lenguaje. Garantizar que estos corpus lingüísticos cumplan unas condiciones mínimas en amplitud, etiquetado, representatividad y fiabilidad, es una tarea primordial para que estas nuevas herramientas tengan éxito frente a la competencia anglófona.

Además, a medida que se incrementen los corpus en nuestros idiomas mejorarán los nuevos modelos tecnológicos, su eficacia pa​ra resolver casos prácticos como son los servicios que se prestan desde la Administración Pública. El impulso de estos estudios garantizará la calidad de los datos, la ausencia de sesgos, y la preservación de derechos de privacidad o de propiedad en las fuentes originales.

El análisis final del informe demuestra que el desarrollo de corpus en español y lenguas cooficiales cuenta con una base sólida como punto de partida gracias a una serie de factores como; conocimiento experto consolidado; madurez en las técnicas de computación; apoyo institucional a las lenguas y el plurilingüismo en España, considerado como un patrimonio cultural; demanda global de recursos y soluciones en español con una comunidad creciente en plataformas internacionales; o el interés por impulsar los recursos lingüísticos para las TL en español y lenguas cooficiales. Este interés se concreta en las actuaciones del Plan de Impulso de las Tecnologías del Lenguaje, y el PERTE de la Nueva Economía de la Lengua, desarrollados por el Ministerio de Asuntos Económicos y Transformación Digital.

PERTE de la Nueva Economía de la Lengua

A propuesta del Ministerio de Asuntos Económicos y Transformación Digital, se aprobó en Consejo de Ministros una subvención de 7,5 millones de euros para financiar la creación de una base sólida de​ conocimiento -formada por corpus de datos, entre otras herramientas y recursos- en las lenguas cooficiales del Estado para que su inclusión en las aplicaciones tecnológicas sea rentable y atractiva para la administración y las empresas del sector.

Estos fondos se enmarcan en el Proyecto Estratégico para la Recuperación y Transformación Económica (PERTE) de la Nueva Economía de la Lengua, del Plan de Recuperación, con el objetivo de impulsar en España la nueva economía de la lengua, aprovechando el potencial del español y de las lenguas cooficiales como factor de crecimiento económico y de competitividad internacional en áreas tales como la inteligencia artificial, la traducción, la enseñanza, la producción y divulgación cultural, la investigación y la ciencia.

Plan de impulso de Tecnologías del Lenguaje​

Por su parte, el Plan de impulso de Tecnologías del Lenguaje tiene como objetivo fomentar el desarrollo del procesamiento del lenguaje natural, la traducción automática y los sistemas conversacionales en lengua española y lenguas cooficiales. Las medidas que establece el plan, van encaminadas a aumentar el número, calidad y disponibilidad de las infraestructuras lingüísticas en español y lenguas cooficiales, impulsar la Industria del lenguaje fomentando la transferencia de conocimiento entre el sector investigador y la industria, o incorporar a la Administración como impulsor del sector de procesamiento de lenguaje natural, la traducción automática y los sistemas conversacionales-

Informe del estado actual de los corpus en español, lenguas cooficiales y variantes del español. Publicaciones del Ministerio de Asuntos Económicos y Transformación Digital.