El sistema MarIA ayuda a usar correctamente el idioma español
La Inteligencia Artificial es uno de los avances más importantes de este siglo. Llega de la mano de las nuevas tecnologías e Internet. Se puede aplicar en variedad de campos como ciencia, industria, hogar, defensa, seguridad y también el idioma. Por eso la aplicaron en la Biblioteca Nacional de España y crearon el sistema MarIA para ayudar a usar correctamente el idioma español.
Crearon el sistema MarIA para optimizar el uso del idioma español
El Barcelona Supercomputing Center (BSC), junto a la Biblioteca Nacional de España crearon un proyecto. Se trata de un sistema de inteligencia artificial para la comprensión y escritura del castellano. Lo nombraron MarIA y está disponible en forma gratuita. Lo pueden adquirir desarrolladores, empresas y también entidades.
El objetivo es el de mejorar el uso del idioma español cuando se utiliza desde otros dispositivos con inteligencia artificial. Los archivos de datos fueron provistos por la Biblioteca Nacional. Para ello, estrenaron un superordenador llamado MareNostrum.
Aplicaciones y usos del sistema MarIA
Las posibles aplicaciones del sistema son muchas y variadas. Se puede usar en predictores o correctores del lenguaje. También es útil para resúmenes automatizados, chatbots y motores de traducción. Otros usos pueden ser en búsquedas inteligentes y en subtítulos automáticos, entre otros.
El sistema abierto sirve también para entrenar a otros sistemas en la correcta interpretación y escritura del idioma español. El acceso abierto permite consultar la información almacenada en MarIA. El proyecto se basa en textos y archivos provenientes de la Biblioteca Nacional. Sin embargo, el usuario común no tiene acceso libre a esos archivos. Solo se creó para que las entidades o profesionales puedan mejorar sus respuestas. La intención es lograr un correcto uso del idioma.
Características del sistema MarIA
El proyecto MarIA consiste en un sistema de redes neuronales. Están programadas para la comprensión de la lengua. Por ello es importante el léxico y la expresión correcta junto con su significado. El sistema utiliza 59 terabytes que provienen del archivo digital de la Biblioteca Nacional de España. Además realizaron un proceso de purificación. Con ello eliminaron:
- Números de páginas.
- Oraciones inconclusas.
- Gráficos.
- Oraciones repetidas
- Frases expresadas en otro idioma.
- Codificaciones erróneas.
El sistema incluye 202 millones de documentos revisados cuidadosamente. Todos estos documentos ocupan un total de 570 gigabytes.
MarIA es el sistema más grande y puro de la lengua española que existe hasta el 2021. Utilizan una tecnología que se llama «Transformer». La misma, ya fue probada en la lengua inglesa con buenos resultados. Gracias a «Transformer», la Inteligencia Artificial “adivina” el contexto de cada término. En un futuro no muy lejano, está previsto realizar el mismo proyecto con otras lenguas, como el catalán, el gallego, portugués, euskera y el español latinoamericano.