Informatización de la A a la Z

Departamento de informática de la Real Academia de la Lengua

Fco. Javier Pachá.
16 JUL 1999

Nadie puede resistirse a las facilidades que la informatización del trabajo reporta, ni siquiera aquellos que todavía consideran que la tradición debe ser utilizada consecuentemente en los tiempos modernos . Es el caso de la Real Academia de la Lengua ( RAE ) , una institución que decidió hace un tiempo informatizar todos sus procesos y sus ingentes bancos de datos . Todo tipo de ilustraciones y de todos los tiempos, imágenes, entradas lexicográficas y sus correspondencias con otros diccionarios se han agrupado en diversos proyectos y actualmente se desarrollan bajo diversas soluciones informáticas, desde DB2 hasta Java, pasando por Internet . Octavio Pinillos, responsable de informática de la RAE, es la persona que más conoce este proceso .

Hasta el año 1993, los diccionarios de la Real Academia se editaban mediante sistemas manuales, apoyándose en sistemas de fotocomposición . A pesar de todo, en ningún momento se utilizaba la técnica . De hecho, se empleaban distintas fichas de papel para incluir las novedades que se derivaban de nuevas acepciones de las palabras que normalmente utilizamos . “Todo esto conllevaba demasiados problemas . Por tanto”, explica Pinillos, “decidimos informatizar la información, creando una base de datos precisamente a partir de los fichero de fotocomposición . Está basado en una base de datos relacional, que es en este caso la DB2 de IBM, pero podría haber sido cualquier otra . El desarrollo se ha decidido que se base en un sistema tipo cliente/servidor, atendiendo a unos criterios gráficos y a unos tipos de letra no convencionales . Por ejemplo, nosotros utilizamos caracteres griegos para explicar distintas etimologías, y se trataba de constituir un entorno de consulta que fuera coherente con estas necesidades” .

Para Pinillos, la principal virtud del Diccionario de la Real Academia Española ( DRAE ) es que “atiende actualmente a algo que normalmente era imposible conseguirlo manualmente, que es el criterio de integridad del enunciado de la palabra o entrada . Por ejemplo: si el DRAE cuenta con una entrada de los años 20 que tiene una referencia a una entrada de 1790, y alguien decide que la tercera acepción de esa palabra es incorrecta, la corrige o la suprime, al no poseer esa base de datos no podemos controlar que otros lemas referidos a esa entrada a lo largo del diccionario sean corregidos . El sistema de referencias cruzadas en el diccionario pierde coherencia con cada nueva edición, y es muy difícil controlarlo si no es con la base de datos” .

Por tanto, desde el Departamento de la Informática de la RAE se ha optado por incluir tablas para cada entrada: “Unas tablas de etimología, de lemas, de acepciones . . . Están relacionadas, y su nexo de unión es la entrada del diccionario . Con esto se pueden buscar palabras que tengan distintas características, por ejemplo, de etimología latina, que además sean verbos, etc . Eso se hace cómodamente a través de la base de datos, y se puede hacer no de forma secuencial, es decir, de la A a la Z, sino directamente a partir de cualquier búsqueda que se desee . Este tipo de revisiones es importante hacerlo así porque si no todo sería demasiado complicado” .

Proyecto Corpus

IBM entregó a la RAE, a principios de 1992, una serie de productos y distintos equipos de desarrollo que se completaron con otro proyecto, del que Pinillos habla prolijamente . “Decidimos también informatizar los antiguos ficheros de papel que poseíamos, y que se venían acumulando desde 1750 a través de papeletas . Estos ficheros incluían acepciones de las palabras, y corresponden a ejemplos léxicos . Parte de estos ficheros son correspondencias lexicográficas ( es decir, entradas de diccionarios, lo que dicen otros tomos de una palabra determinada ) . Esto tenía problemas de fiabilidad y de consulta, además de integración, perdiendo demasiado tiempo utilizando las papeletas y cotejándolas con otras acepciones . Por ello se informatizaron . Pero hubo un problema añadido: esto nos llevaba al menos 10 años de trabajo . En su lugar, decidimos diseñar el proyecto estrella en estos momentos, Corpus, basado en una aproximación distinta al problema al que hasta ahora habíamos pensado” . La opción escogida por la RAE fue inmediata: “En vez de informatizar todas estas papeletas optamos por hacer gran acopio de textos, a través de un corpus, sobre materias, y clasificados según ciertas reglas . Con ese banco de datos ahora mismo contamos con 180 millones de palabras . Es una base de datos real que nos proporciona ejemplos fiables de otras fuentes bibliográficas con las que el lexicógrafo puede cotejar y fundamentar la estructura de sus artículos y establecer los razonamientos que quiera” .

Tecnología del Archivo de Indias

Sin embargo, este sistema no es del todo completo, al menos, para las expectativas que la Real Academia pretende cumplir para con sus usuarios y su personal interno . Por ello, con este proyecto comentado se trazó otro paralelo en el que no sólo se trabajaba con las distintas entradas del diccionario sino que, a través de ellas, también se accedía a una imagen . Para la Real Academia, según explica Pinillos, “imagen significa visualizar una página completa del diccionario, es decir, ver la página en la que se incluye una entrada, sea del diccionario que sea . La razón de constituir este nuevo banco de imágenes, a través de una DB2, fue que conseguíamos asociar a cualquier información que necesitáramos alrededor de 33 . 000 páginas, desde el denominado Diccionario de Autoridades ( primera versión del actualmente manejado ) hasta la última revisión” . Para ello, la RAE aprovechó la tecnología utilizada en 1992 en el Archivo de Indias, uno de los pioneros en utilizar la tecnología para guardar de forma segura el acervo cultural de estos tomos recopilatorios . Los contenidos se irán incrementando a lo largo de estos meses: “En una primera ornada vamos a introducir todos los grandes diccionarios del español a lo largo de la historia hasta nuestros días ( o, al menos, hasta donde los problemas del copyright nos permitan ) . Ahora mismo tenemos dos versiones del sistema: una, la que se hizo con Archivos y Bibliotecas, que es una versión propietaria, puesto que se hizo en un sistema operativo que hoy en día está en flanco declive, que es el OS/2 de IBM, y es la que utilizamos internamente . Paralelamente, el Departamento de Informática de la RAE ha desarrollado una segunda versión para Internet” . Pinillos relata que existen determinados condicionantes a la hora de trabajar dentro de la Red: “Hemos tenido que degradar las imágenes en beneficio de la rapidez de acceso . Además, las imágenes originariamente estaban constituidas en un formato que hoy por hoy los navegadores no soportan de forma estable, que era un TIF grupo 4 . Por tanto, hemos tenido que transformarlas en formato GIF, puesto que al integrarlas en blanco y negro no tenía sentido en JPEG . Éste lo tenemos en dos versiones: la libre, de cara al público, que contiene todos los diccionarios; y después una versión que está pensada para los profesionales de la lengua, mucho más especializada . La curiosidad de la lengua es que su contenido aumenta prácticamente todos los días, y esto nos lleva a que la mejora de la base de datos y del acceso a los mismos sea también diaria” .

Migración

Es precisamente en esta mejora donde se sitúa la migración hacia otros sistemas que la informática reclama como los más útiles y completos hoy en día: “Es cierto que internamente utilizamos OS/2, que esta base de datos está desarrollada con herramientas nativas de OS/2, tipo Presentation Manager . Pero es evidente que necesitamos migrar, en este caso, hacia clientes Java . Por ahí prevemos que vamos a ir, y abandonaremos OS/2 a finales de este año . Pero hay que observar que

Imprimir Subir

TE PUEDE INTERESAR...

TENDENCIAS

¿La IA mató al 'blockchain'? El interés mundial por esta tecnología cae un 63% en tres años

EMPRESAS

Un cuarto de siglo fructífero: Appian consolida su posición preferente gracias al enfoque en procesos

EMPRESAS

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

TECNOLOGÍA

Intel construye el sistema neuromórfico más grande del mundo

TECNOLOGÍA

¿Tienen los servicios de IA generativa en la nube futuro empresarial?

TENDENCIAS

Alberto Pascual (Asociación @aslan): “La tecnología ha calado en todos los órdenes de la vida”

TENDENCIAS

La 35ª edición del Congreso&EXPO ASLAN enciende la ilusión de las TIC españolas

TENDENCIAS

Entra en vigor La Ley Europa Interoperable para la conectividad de los servicios públicos

Alberto Palomo, Chief Strategy Officer de la Gaia-X AISBL.

El 'Data & GenAI Forum' pone los retos del despliegue de proyectos de IA bajo la lupa

Alberto Pascual, presidente de la Asociación Aslan

ENTREVISTAS

"A diferencia de otros, en el sector TIC se respira una atmósfera de 'coopetición' muy saludable"

EMPRESAS

Cómo la estrategia de IA de Intel podría desafiar el dominio de Nvidia

EMPRESAS

Bruselas pide información a Broadcom por los cambios de licenciamiento en VMware

EMPRESAS

El Gobierno lanza una convocatoria de ayudas para la creación de Espacios de Datos Sectoriales

EMPRESAS

La estadounidense General Catalyst financia la expansión de Factorial con 74,5 millones de euros

EMPRESAS

Microsoft busca en la inteligencia artificial el perfecto aliado para la industria sanitaria

TECNOLOGÍA

El 75% de los ingenieros de software utilizarán asistentes de código de IA en 2028

Contenido Patrocinado

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

18 ABR 2024

En la edición de este año, que se celebrará el próximo 7 de mayo en Berlín, la tecnológica reunirá a diversas industrias y ecosistemas para debatir en torno al proceso de adopción de infraestructuras de datos capaces de acelerar la IA.

Forma parte de nuestra comunidad

¿Te interesan nuestras conferencias?

Especial Tendencias 2024

No te pierdas...

Informatización de la A a la Z

TE PUEDE INTERESAR...

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

La quiniela tecnológica de las grandes firmas de análisis para 2024

En los albores de una nueva era: así continúa escribiendo la industria tecnológica su historia

La 'resaca' de contrataciones en TI devuelve el poder negociador a las empresas

2024: ¿Vendrá el esperado repunte para las 'startups' españolas?

Visión tecnológica 2024: perspectivas de los CIO ante la revolución digital

Retos y tendencias para el canal en 2024

“El peligro no es la evolución de la IA, sino la mala interpretación que los humanos hacen de ella”

España, tecnologías emergentes y la consolidación de la transformación digital

Hacia un 2024 aún más digital e 'inteligente' pero, ojalá, también humano

32 años de Linux y su comunidad

MareNostrum 5 conquista los 314.000 billones de cálculos por segundo

El gasto global en nube soberana llegará a 258.000 millones de dólares en 2027

Los 'CIO 100 Awards Spain 2023' distinguen los proyectos de innovación tecnológica del año

Gemini, de Google, a la conquista de las últimas capacidades de IA generativa

Por qué la mitad de los desarrolladores adoptarán software mejorado con inteligencia artificial

ChatGPT: 365 días después, el mundo parece otro

'Superapps': ¿La próxima gran novedad de las TI empresariales?

Las mujeres se hacen su camino en el ecosistema 'startupero' español

Grandes modelos lingüísticos: los cimientos de la IA generativa

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

Líderes de futuro: ingeniería de telecomunicación

Guía esencial de Microsoft 365