Printer Friendly

Um instrumento para analise da lingua latina: O projecto LELAPO.

No quadro de uma colaboracao cientifica de largos anos incidindo no dominio dos instrumentos informaticos para analise de textos latinos (1), o Centro de Estudos Classicos de Lisboa e o Istituto di Linguistica Computazionale de Pisa desenvolveram no bienio 2009-2010 o projecto LELAPO (LExicografia Latina Assistida por computador para fontes Portuguesas), ao abrigo do convenio de cooperacao Portugal-Italia (FCT-CNR).

O projecto consistiu em aperfeicoar certas valencias da aplicacao LECTIO (POCTI/40840/ELT/2001), resultado de varios anos de trabalho comum (2003-2005), e desenvolvidas em projectos posteriores, como Did.Lat e Did.Lat 2 (2005-2008). Esta aplicacao informatica de analise textual, de ambito nao apenas didactico, contemplava modulos de lematizacao semi-automatica, de pesquisa de formas e lemas em texto, de disponibilizacao dos contextos de ocorrencia de palavra, de modulo de estatisticas, e de uma base de dados lexicograficos passivel de ser alterada pelo utilizador (2). Adoptara como ponto de partida o lematizador LEMLAT, potente etiqueta dor da lingua latina, que assegurava uma cobertura total do lexico latino de periodo classico dicionarizado (3). No projecto em causa, procuramos desenvolver as valencias relativas ao tratamento de textos latinos de periodo medieval com todas as especificadas inerentes, mormente a nivel das grafias, bem como o modulo de geracao de concordancias.

A analise com recurso ao prototipo LELAPO implica varias fases. Em primeiro lugar, e necessario segmentar e etiquetar o texto com codigos html. Esta segmentacao e etiquetagem deve realizar-se de acordo com criterios definidos pelo utilizador, em harmonia com aquilo que pretende que a concordancia venha a representar. No exemplo escolhido, os Anuales Alfonsi Poritigallensitim regis, que as imagens mais abaixo ilustram, adoptamos os seguintes niveis de referenciacao, por nos pareceram os mais apropriados para efeitos de legibilidade da concordancia:

<book id= >; <title>; <page id= >; <chapter id= > ; <title> ; <part id= >

O texto e depois submetido a processamento pela aplicacao. De imediato, o utilizador tem acesso a informacao diversa (numero de formas, ocorrencias, lemas, palavras lematizadas e nao lematizadas, entre outras) e tambem a dados estatisticos, havendo a possibilidade de escolher entre uma analise mais simples ou outra mais pormenorizada. Antes de iniciar a operacao de lematizacao, e oferecida ao utilizador a possibilidade de a efectuar com recurso a um dicionario pessoal, ao modulo de identificacao de nomes proprios e ao modulo de variantes ortograficas, pensado sobretudo para as grafias medievais.

Os resultados da lematizacao automatica sao apresentados no proprio texto em diferentes cores (Figura 1). A negro e negrita apresentam-se as formas reconhecidas inequivocamente, ou seja, que nao apresentam questoes de homografia de casos ou lexical (por exemplo, sutnpsit so pode ter uma unica etiquetagem). A negro e normal vem as formas identificadas que apresentam homografia lexical (em ultima analise, iiisu pode ser tanto forma nominal, como efectivamente e neste contexto, como verbal), ou que o lematizador gerou inoportunamente: neste caso, a aplicacao dispoe todas as hipoteses de classificacao possiveis, e o utilizador tera de assinalar a forma correcta. A azul vem as formas que apresentam homografia de casos (por exemplo, operibus, que podera ser dativo ou ablativo plural). Finalmente, a vermelho surgem as palavras nao reconhecidas. Podem ser palavras que nao constam no dicionario, nomes proprios nao identificados (como Portugalle) e grafias medievais (sera o exemplo de gigas). No primeiro caso, o utilizador pode adicionar as palavras em falta em dicionario pessoal que se convertera em 'dicionario de utilizador' (Figura 2). Se o nao reconhecimento resulta da grafia da palavra, o utilizador podera abrir o modulo de grafias medievais e indicar, numa operacao minima, que, dai em diante, a forma no texto corresponde a determinada forma de determinado lema no dicionario principal (Figura 3). Esta lista de variantes graficas e cumulativa: quantos mais textos medievais se trabalharem, mais formas a aplicacao reconhecera automaticamente. Algumas opcoes facilitam certas operacoes conjuntas, como, por exemplo, indicar que todos os inicios de palavra pre- desta lista especifica valem como prae-. Uma opcao permite ao utilizador modificar, adicionar ou eliminar, ou simplesmente importar de uma lista previa os equivalentes ortograficos. Deste modo, o texto ficara etiquetado, sendo a operacao humana facilitada (Figura 4).

Finalmente, um modulo de constituicao de concordancias e aplicado aos resultados da lematizacao e etiquetagem das formas. Os niveis de referenciacao correspondem aos codigos html introduzidos no inicio do processo de tratamento do texto (Figura 5).

Temos assim um prototipo de lematizador e etiquetador da lingua latina com modulo de desambiguacao semi-automatico, modulo de identificacao automatica de nomes proprios e modulo de correspondencia de formas graficas medievais modificavel pelo utilizador, com correspondentes modalidades de pesquisa. Uma funcionalidade permite ao utilizador modificar ou acrescentar a informacao pertinente no dicionario de base e criar os seus proprios dicionarios. Um modulo de estatistica, aplicado quer antes quer apos o processo de desambiguacao, proporciona dados de relevo.

A utilizacao experimental que fizemos no tratamento linguistico de textos medievais como a documentacao do Cartulario do Lorvao, a Vita s. Theotonii e os Anuales Alfonsi Portugallensium regis provou o interesse de um instrumento com estas valencias, que pode beneficiar o conhecimento da lingua e do lexico latino medieval.

ANEXO

[FIGURE 1 OMITTED]

[FIGURE 2 OMITTED]

[FIGURE 3 OMITTED]

[FIGURE 4 OMITTED]

[FIGURE 5 OMITTED]

A. A. Nascimento

CEC--FLUL

aires.nasc@gmail.com

P. F. Alberto

CEC--FLUL

paulo.alberto@fl.ul.pt

G. Cappppelli

CNR--Pisa

beppe@ilc.cnr.it

R. Furtado

CEC--FLUL

rodrigo.furtado@campus.ul.pt

(1) Sobre o projecto OLISSIPO, veja-se P. F. Alberto, 'O projecto Olissipo: uma aplicacao no ambito do ensino do Latim', Euphrosyne 30, 2002, 335-338; A. A. Nascimento, R F. Alberto, A. N. Pena, 'Identificacao automatica de elementos basicos da frase latina: o projecto Olissipo', Euphrosyne 31, 2003, 515-518; G. Cappelli, M. Passaroti, Paulo Alberto, Abel Pena, 'Strumenti Informatici per Fanalisi dei testi latini', Antiguidade Classica: que fazer com este partimonio, Lisboa, 2003, 37-42; A. A. Nascimento, P F. Alberto, G. Cappelli, 'OLISSIPO--entre filologia e informatica: recursos para gerir o estudo do texto latino', Euphrosyne 32, 2004, 111-125; G. Cappelli, P Alberto, 'The Olissipo and Lectio Projects', 4th International Conference On Language Resources And Evaluation, Lisboa, Centro Cultural de Belem, Maio 2004.

(2) Para uma descricao pormenorizada da aplicacao, veja-se A. Nascimento, P F. Alberto, A. Pena, G. Cappelli, 'Projecto Lectio: uma aplicacao de analise da lingua latina', Euphrosyne 35,2007, 469-472.

(3) Uma descricao da aplicacao pode ser lida em G. Cappelli. M. Passarotti. 'LEMLAT: uno strumento computazionale per l'analisi linguistica del latino--sviluppo e prospettive', Euphrosyue 31. 2003.519-531.
COPYRIGHT 2011 Universidade de Lisboa. Centro de Estudos Classicos da Faculdade de Letras
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2011 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Title Annotation:III VARIA NOSCENDA
Author:Nascimento, A.A.; Alberto, P.F.; Cappelli, G.; Furtado, R.
Publication:Euphrosyne. Revista de Filologia Classica
Date:Jan 1, 2011
Words:1064
Previous Article:Um estudo semantico de [TEXT NOT REPRODUCIBLE IN ASCII]. Objectividade e rigor lexicograficos.
Next Article:Evocando jose v. pina martins: a arte de conviver com o livro, tendo os autores classicos por companhia.
Topics:

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters