Saltillo|Monclova|Piedras Negras|Acuña|Carbonífera|TorreónEdición Impresa
WhatsApp prepara su versión de pago con una cuota mensual “Punch peruano”: rescatan a monito del tráfico de animales en la Amazonia y lo nombran como al japonés Revelan archivos faltantes del caso Epstein con menciones a Trump “Fuimos drogadas y abusadas”: Estudiante de medicina relata pesadilla en el Hospital Infantil de Tamaulipas Fiscalía de Guanajuato entrega los restos de un joven a la familia equivocada

Zócalo

|

Arte

|

Información

< Arte

Arte

Publican nueva versión del Corpus del español

  Por El Universal

Publicado el martes, 16 de febrero del 2021 a las 11:43


El contexto y propiedades de palabras, expresiones y construcciones es eje del Corpus

Madrid.- Más de 333 millones de formas ortográficas, procedentes de textos escritos y de transcripciones de textos orales integran la nueva actualización del Corpus del Español del Siglo XXI (Corpes XXI), que realizaron la Asociación de Academias de la Lengua Española y la Real Academia en España.

Se trata de la última versión de esta herramienta lingüística, la 0.93, que cuenta con más de 316 mil documentos y más de 333 millones de formas ortográficas, lo que supone un incremento de más de 21 millones de formas respecto a la versión anterior, publicada en mayo de 2020, según informó ayer la RAE.

El corpus es un conjunto lo más extenso y ordenado posible de textos empleados habitualmente para conocer el contexto y las propiedades de las palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

Más de 4 millones y medio de las formas incorporadas en esta actualización son transcripciones de textos orales (programas de radio y televisión, entrevistas en medios de comunicación, o de YouTube).

Por lo que respecta al bloque de ficción (novelas, guiones de cine, relatos, obras de teatro), las formas del Corpes sobrepasan los 93 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología) se acercan a los 238 millones.

Los textos procedentes de libros suponen casi 166 millones de formas mientras que las publicaciones periódicas están representadas con unos 158 millones; 6 millones y medio más provienen de blogs, entrevistas digitales y redes sociales.

En cuanto a la distribución temporal, aumenta el número de textos producidos entre 2016 y 2020, con algo más de 42 millones de formas en esta versión. Por lustros, el mayor peso en esta versión, todavía provisional, recae en el segmento 2006-2010, con más de 107 millones de formas; más de 100 millones corresponden a formas producidas entre 2001 y 2005; y, de 2011 a 2015, alcanza casi 82 millones de formas. Las formas correspondientes a textos generados en América son de alrededor de 70% del total —con más de 217 millones de formas—; de España, 30%, y contiene por otra parte textos procedentes de Filipinas y Guinea Ecuatorial.

Fue en el congreso celebrado en Medellín, Colombia, en marzo de 2007, cuando las academias de la lengua española acordaron la construcción del Corpus del Español del Siglo XXI formado por textos escritos y orales procedentes de España, América, Filipinas y Guinea Ecuatorial.

333 MILLONES de formas ortográficas, procedentes de textos escritos y orales integran la nueva actualización.

Notas Relacionadas

Muere el escritor portugués António Lobo Antunes

Hace 13 horas

Élmer Mendoza es reconocido con el IX Premio Jorge Ibargüengoitia de Literatura

Hace 1 dia

Más sobre esta sección Más en Arte

Hace 14 horas

Descubren la mayor ‘ciudad de los muertos’ de la antigua Roma; restos serían de hombres robustos

Hace 21 horas

Abarrotería Poética: una oferta para escoger la palabra perfecta; nace colectivo literario

Hace 21 horas

Ahonda Emmanuel Carrère en la memoria e historia de su madre; publica Anagrama su nueva obra de no ficción

Hace 22 horas

Tendrán en Nuevo León un encuentro de literatura; Festival del Libro y la Lectura Santiago Lee

Hace 22 horas

Ilumina Galería de SHCP las obras de su acervo; reabre el espacio cultural

Hace 1 dia

Élmer Mendoza es reconocido con el IX Premio Jorge Ibargüengoitia de Literatura

Hace 1 dia

Investigación atribuye busto de un Cristo dentro de una basílica romana a Miguel Ángel

Hace 1 dia

Siguen polémicas por aniversario del Soler; critican ‘obras cortas, ágiles y baratas’

Hace 1 dia

Mantiene Cultura federal sus cláusulas polémicas; libera convocatorias

Hace 1 dia

Gana Gonçalo M. Tavares el Premio Formentor 2026; es el tercer escritor portugués más traducido

Hace 2 dias

Urge la SOGEM a legislar contra el “robo” de obras por Inteligencia Artificial

Hace 2 dias

Unesco alerta por daños a sitios del patrimonio cultural en Oriente Medio