Corpus del español de Costa Rica

Buscar:

Acerca del Corpus


Para efectos de investigación lingüíistica, el contenido del corpus se crea mediante un desarrollo propio,
hecho a la medida, en Visual C# (de Microsoft), junto con la tecnología Stanford NLP para el procesamiento
automático del texto.


Se almacena en una base de datos SQL Server para todas las secuencias de uno a cinco términos.

A diferencia de otras herramientas para este tipo de funcionalidad, el Corpus de la ACL incluye:
1. Etiquetas morfológicas para cada término.
2. Almacenamiento y procesamiento de términos no lingüísticos (números, palabras en otros idiomas, códigos, etc.).
3. Configuración del número de términos a mostrar en el contexto de cada término.

Estadísticas del corpus

FuenteDocumentosFrasesPalabras
La República133,8901,714,49854,364,339