Printer Friendly

Procura-PALavras (P-PAL): uma nova medida de frequencia lexical do Portugues Europeu contemporaneo.

Resumo

Neste trabalho apresentamos as estrategias e os procedimentos adoptados na constituicao de uma nova medida de frequencia lexical do Portugues Europeu contemporaneo, o Procura-PALavras (P-PAL). Baseado num corpus de mais de 227 milhoes de palavras, o P-PAL e uma aplicacao web que oferece, por defeito, valores de frequencia lexical para todas as suas entradas lexicais (lemas e formas) e que permite a computacao de uma grande diversidade de outras medidas objectivas (lexicais e sublexicais) e subjectivas. Descrevemos ainda o processo de definicao das suas entradas lexicais e da extraccao dos respectivos valores de frequencia. O elevado numero de indices e de entradas lexicais tomam o P-PAL numa aplicacao web avancada e indispensavel a promocao e internacionalizacao da investigacao em Portugal. O P-PAL encontra-se disponivel em http://p-pal.di.uminho.pt/tools Palavras-chave: Frequencia lexical, bases lexicais, corpus!corpora, portugues europeu.

Abstract

In this paper we present the strategies and procedures undertaken in the development of a new measure of lexical frequency of the contemporary European Portuguese--Procura-PALavras (P-PAL). Based on a corpus of over 227 million words, P-PAL offers the default frequency per million words (lemmas and wordforms), and the computation of several other objective (lexical and sublexical) and subjective word metrics. We also describe lexical entry integration and word frequency extraction. The high number of indices and lexical entries makes P-PAL an advanced and indispensable web application for the promotion and internationalization of Portuguese research. P-PAL is available at http://p-pal.di.uminho.pt/tools

Keywords: Word frequency, lexical databases, corpus/corpora, European Portuguese.

Procura-PALavras (P-PAL): A New Measure of Word Frequency for Contemporary European Portuguese

O Procura-PALavras (P-PAL) e um projecto financiado pela Fundacao para a Ciencia e a Tecnologia (PTDC/ PSI-PCO/104679/2008) desenvolvido com o intuito de disponibilizar a comunidade cientifica uma aplicacao web com indices psicolinguisticos objectivos e subjectivos de palavras do Portugues Europeu (PE) contemporaneo. A importancia da existencia de bases lexicais informatizadas que apoiem de forma efectiva a investigacao nas areas da Psicolinguistica, das Neurociencias, da Linguistica ou da Psicologia Cognitiva em geral e, na actualidade, inquestionavel. Com efeito, constituindo a palavra a materia-prima a partir da qual grande parte da investigacao nessas areas se realiza, e constituindo as palavras, estimulos complexos que reunem um conjunto de propriedades ou atributos cuja analise, controlo ou manipulacao se revelam fundamentais ao desenvolvimento de estudos nesses dominios, a investigacao actual ja nao se compadece mais com a inexistencia deste tipo de ferramentas (Soares et al., 2010).

Entre essas caracteristicas, encontram-se tanto propriedades mais objectivas, determinadas pela analise da propria palavra (ex., extensao da palavra em letras ou silabas, divisao silabica, categoria morfo-sintactica etc.) ou derivadas da analise da sua relacao com as restantes existentes no lexico a nivel lexical (ex., similaridade ortografica ou fonologica com outras palavras) ou sublexical (ex., bigrama, trigrama ou bifone etc.), como propriedades de natureza mais subjectiva que reflectem as experiencias pessoais dos individuos com o uso da propria lingua (ex., imaginabilidade, familiaridade, concreteza etc.--para mais informacoes sobre os indices e as metricas disponiveis na aplicacao ver Soares et al., 2010 e/ou consultar http://p-pal.di.uminho.pt/project). A manipulacao e/ou o controlo sistematicos destas propriedades na literatura tem contribuido de forma decisiva nao so para a compreensao da arquitectura funcional e o processamento linguistico humano, como para um conhecimento mais aprofundado da propria lingua.

Contudo, apesar da relevancia de bases como o P-PAL e de elas se encontrarem disponiveis em linguas como o ingles (ex., MRC--Coltheart, 1981; N-Watch--Davis, 2005), o frances (ex., BRULEX--Content, Mousty, & Radeau, 1990; LEXIQUE--New, Pallier, Brysbaert, & Ferrand, 2004), o holandes e o alemao (ex., CELEX Baayen, Piepenbrock, & Gulikers, 1995), o espanhol (LEXESP--Sebastian-Galles, Marti, Cuetos, & Carreiras, 2000; BuscaPalabras--Davis & Perea, 2005), o grego (GreekLex--Ktori, van Heuven, & Pitchford, 2008) ou o arabe (ARALEX--Boudelaa & Marslen-Wilson, 2010), elas sao escassas no PE. O P-PAL, disponivel em http://ppal.di.uminho.pt/tools, procura colmatar esta necessidade oferecendo a comunidade cientifica uma aplicacao informatica multi-plataforma que, com comodidade e rapidez, permite que os investigadores acedam a um vasto conjunto de indices sobre palavras portuguesas, seleccionando, do menu de analises, as metricas que se adequem aos propositos da sua investigacao numa dupla possibilidade de analise: (a) obter palavras que obedecam a determinados requisitos; ou (b) analisar palavras num conjunto requisitos. De destacar ainda que, em cada uma destas funcionalidades, a aplicacao permite realizar pesquisas para lemas ou para formas. Entenda-se por lema o item lexical abstracto escolhido para representar todas as formas flexionadas de uma palavra (ex., "ir" e o lema que representa as formas verbais "vou", "ir", "indo", "fui" e "ido") e por forma a ocorrencia natural de uma palavra na lingua (ex., "correr", "corre" e "correu" sao formas do lema "correr").

Entre a ampla diversidade de medidas a disponibilizar, o P-PAL oferece, por defeito, o valor de frequencia lexical para todas as suas entradas (lemas e formas). A frequencia lexical e uma medida objectiva que contabiliza o numero de ocorrencias das palavras numa lingua, sendo tradicionalmente obtida atraves da compilacao de grandes quantidades de texto, isto e, da constituicao de corpora. Um corpus pode ser entendido como uma coleccao de porcoes de texto seleccionadas de acordo com um conjunto de criterios para representar, tanto quanto possivel, uma determinada lingua (Sinclair, 2005), sendo o seu uso para extraccao de frequencias uma pratica com mais de meio seculo de existencia (ver Sardinha, 2004). Thorndike foi pioneiro nesta abordagem, apresentando em 1944, juntamente com Lorge, uma listagem de frequencias de 30.000 palavras extraidas da compilacao manual de textos ingleses num total de 4,5 milhoes de palavras. Mais tarde, apareceu o primeiro corpus electronico, o corpus Brown, a partir do qual se extrairam as normas de frequencia mais utilizadas em lingua inglesa: as normas de Kucera e Francis (1967). Contudo, apesar da sua popularidade, a validade destas normas tem sido questionada (ex., Balota, Cortese, Sergent-Marshall, Spieler, & Yap, 2004; Brysbaert & Cortese, 2011; Brysbaert & New, 2009). Com efeito, esses valores assentam nao so num corpus limitado e de pequenas dimensoes como desactualizado ([approximadamente igual a] 1 milhao de palavras). Desde entao outros corpora foram desenvolvidos, sendo de assinalar o American Heritage Word Frequency de Carroll, Davis e Richman (1971), cujas frequencias derivam de um corpus de 5,09 milhoes de palavras; o Educator's Word Frequency Guide de Zeno, Ivens, Millard e Duvvuri (1995), que contem medidas de frequencia extraidas de um corpus de 17 milhoes de palavras; o Hypers pace Analogue to Language (HAL) que se baseou num corpus de 131 milhoes de palavras (Lund & Burgess, 1996); e, mais recentemente, o Google Ngram Viewer (Michel et al., 2011) baseado num corpus gigantesco de livros publicados desde 1800.

O recurso a este tipo de medidas tem assumido grande importancia na investigacao. Burgess e Livesay (1998), por exemplo, verificaram que 20% dos artigos publicados entre 1995-1996 em quatro revistas de referencia na area da Psicologia Cognitiva (Journal of Experimental Psychology: Learning, Memory, and Cognition; Journal of Memory and Language', Memory & Cognition e Journal of Psycholinguistic Research) recorreram a medidas de frequencia lexical para o controlo e/ou manipulacao de variaveis e esta tendencia tem vindo a acentuar-se desde entao. Esta situacao nao e de estranhar se considerarmos que, desde as primeiras observacoes empiricas realizadas por Cattell (1886), se tem demonstrado de forma sistematica que as palavras mais frequentes sao reconhecidas (ex., Forster & Chambers, 1973; Murray & Forster, 2004), nomeadas (ex., Balota & Chumbley, 1985; Dahan, Magnuson, & Tanenhaus, 2001) e/ou classificadas (ex., Forster & Hector, 2002; Forster & Shen, 1996) de forma mais rapida e precisa do que palavras de baixa frequencia. Alem disso, estudos recentes (ex., Brysbaert et al., 2011; Brysbaert & Cortese, 2011; Brysbaert & New, 2009; Thompson & Desroches, 2009; Zevin & Seidenberg, 2002), tem tambem comprovado que a frequencia de uso das palavras e a variavel mais potente na explicacao do desempenho linguistico dos sujeitos, capturando mais de 40% da variancia dos resultados. Desta forma, como referem Brysbaert et al. (2011): "Because of the importance of word frequency, no study in word recognition or memory research can afford to leave out this variable" (p. 413).

Contudo, apesar da relevancia desta variavel, ate recentemente nao dispunhamos para o PE de uma medida fiavel de frequencias. Ate ao ano 2000, o unico lexico de frequencias disponivel era o Portugues Fundamental (1984), cujos valores foram extraidos de um pequeno corpus oral de pequenas dimensoes (700.000 palavras) recolhido nos anos 70. Reconhecendo as limitacoes deste corpus, o Centro de Linguistica da Universidade de Lisboa (CLUL) desenvolveu no inicio dos anos 2000 o CORJLEX (Bacelar do Nascimento, Pereira, & Saramago, 2000), um lexico com valores de frequencia extraidos de um corpus de mais de 16 milhoes de palavras. Contudo, as indicacoes mais recentes da literatura alertam para a importancia de basear as medidas de frequencia em corpora de pelo menos 20-30 milhoes de palavras (cf. Brysbaert et al., 2011; Brysbaert & New, 2009). A sua extraccao a partir de corpora de menores dimensoes pode subestimar a ocorrencia das palavras, especialmente as de baixa frequencia. Esta situacao e tanto mais relevante quanto os trabalhos recentes levados a cabo no ambito do English Lexicon Project (Balota et al., 2007), do French Lexicon Project (Ferrand et al., 2010) e do Dutch Lexicon Project (Keuleers, Diependaele, & Brysbaert, 2010) revelarem que a quase totalidade do efeito de frequencia se situa nos intervalos de frequencia abaixo das 10 ocorrencias por milhao de palavras. Alem disso, como refere Lee (2003), de um ponto de vista estatistico, a extraccao de frequencias e mais adequada a partir de grandes amostras porque o erro padrao de medida varia em funcao da raiz quadrada do tamanho da amostra. Desta forma, a extraccao de frequencias a partir de corpora de maiores dimensoes apresenta grandes vantagens, permitindo nao so minimizar o erro de medida, como fazer aumentar a probabilidade de palavras de baixa ocorrencia se verem representadas no lexico, estabelecendo distincoes mais finas e subtis entre elas.

Ora na actualidade o PE conta ja com varios lexicos de frequencias extraidos de corpora de grandes dimensoes como os disponibilizados pela Linguateca (Costa, Santos, & Cardoso, 2008). No seu projecto Acesso a corpos/Disponibilizacao de corpos, este centro de recursos permite aceder a informacoes sobre frequencias em 19 corpora de varios generos do PE arcaico e contemporaneo e do Portugues do Brasil. Nao obstante a relevancia deste projecto e dos recursos que disponibiliza, a pesquisa de frequencias apenas pode ser feita em cada um dos corpora ou em todos os corpora em simultaneo, o que resulta necessariamente numa percentagem de incidencias na variante do Portugues do Brasil e do Portugues arcaico. Alem disso, dado que cada corpus apresenta um genero especifico (ex., jornalistico, tecnico, literario) a pesquisa por corpus toma o valor de frequencia demasiado dependente do seu contexto de extraccao. Com efeito, sendo o objectivo deste tipo de medida o de informar acerca da probabilidade de ocorrencia das palavras, nao no corpus de onde sao extraidas, mas na lingua de onde o corpus foi derivado, assume-se como essencial que ele seja o mais diversificado possivel na sua composicao. A diversidade de genero e das modalidades discursivas (oral e escrita) asseguram maior representatividade ao corpus e, assim, maior validade as medidas de frequencia extraidas a partir dele (Sardinha, 2004; Sinclair, 2005).

Neste contexto, atendendo a relevancia da medida de frequencia lexical na conducao da investigacao mais actual, a ausencia de uma medida fiavel dessa variavel para o PE, e a existencia recente nessa lingua de varios lexicos de frequencias extraidos de corpora de grandes dimensoes, o presente projecto procura, a partir deles, criar uma nova medida de frequencia lexical para o PE contemporaneo. O desenvolvimento de um projecto desta natureza assume-se como de primordial importancia dado que nao so habilitara os investigadores nacionais com uma ferramenta de valor inestimavel a prossecucao da investigacao nos mais diversos dominios teoricos e aplicados da pesquisa cientifica --ao apoiar, por exemplo, uma seleccao mais eficiente dos estimulos verbais a manipular e/ou controlar--como podera igualmente concorrer para o desenvolvimento de estudos que permitam um conhecimento mais aprofundado da propria lingua--a partir, por exemplo, da analise empirica das caracteristicas fonologicas, morfo-sintacticas e semanticas do PE contemporaneo. De assinalar ainda o seu potencial contributo para o desenvolvimento de aplicacoes informaticas mais sofisticadas que, no ambito do Processamento de Linguagem Natural (PLN) permitam, por exemplo, a construcao de dicionarios que atendam a vizinhanca ortografica e fonetica das palavras, ou de instrumentos de sintese de voz ou de traducao mais eficientes. A aplicacao P-PAL assume-se assim tanto como um meio de apoio a investigacao em diferentes areas da pesquisa cientifica (ex., Psicolinguistica, Neurociencias, Psicologia Cognitiva em geral), como um objecto de investigacao per se em dominios tao diversos como o PLN ou a Linguistica. Podera tambem contribuir para a construcao de provas de avaliacao (neuro)psicologica que exigem um controlo rigoroso e fiavel dos itens a incluir, situando-se portanto aqui mais um contributo a assinalar no desenvolvimento deste tipo de ferramenta.

Em suma, pela inovacao que constitui, pela diversidade de indices e metricas que aglutina (para alem do novo indice de frequencia lexical aqui apresentado, inclui tambem todo um conjunto de outros indices objectivos--lexicais e sublexicais--e subjectivos de palavras do PE contemporaneo), pela dupla funcionalidade de analises que oferece ao utilizador (avaliar palavras em determinados parametros ou obter palavras que obedecam a tais parametros), numa aplicacao informatica amigavel de acesso gratuito, consideramos estar perante uma ferramenta com um potencial inestimavel a promocao e internacionalizacao da investigacao em Portugal.

Metodo

Nao pretendendo o projecto P-PAL criar um novo corpus do PE contemporaneo mas antes rentabilizar os corpora do PE ja existentes procedemos, em primeiro lugar, a identificacao dos corpora do PE contemporaneo de acesso livre e etiquetados morfossintaticamente para, de seguida, os analisarmos, tratarmos e indexarmos com vista a extraccao de uma nova medida de frequencia lexical do PE contemporaneo. Neste processo identificamos oito corpora (sete disponibilizados pela Linguateca e um pelo CLUL), que passamos a descrever de seguida.

Materiais

O CETEMPublico e, tanto quanto sabemos, o maior corpus do PE disponibilizado gratuitamente pela Linguateca. Constituido por 191.687.833 palavras retiradas de edicoes do jornal Publico publicadas entre 1991 e 1998, o CETEMPublico apresenta informacao de frequencia para 1.247.135 lemas e 863.933 formas. O Avante! e outro corpus jornalistico do PE disponibilizado pela Linguateca. Constituido por 6.501.146 palavras, apresenta valores de frequencia para 121.409 formas e 90.081 lemas extraidos de textos do jornal Avante! do Partido Comunista Portugues, de Abril de 1997 ate Fevereiro de 2002. O corpus DiaCLAV e tambem um corpus do genero jornalistico. Elaborado a partir de 12.801 artigos de edicoes online Aos jornais regionais o Diario de Coimbra, Diario de Leiria, Diario de Aveiro e Viseu Diario datados de Junho de 1999 a Setembro de 2000, e constituido por 6.651.523 ocorrencias que originaram 110.063 formas e 86.046 lemas. O Natura/ Minho e outro dos corpora jornalisticos da Linguateca, desenvolvido pelo grupo de investigacao em Processamento de Linguagem Natural da Universidade do Minho. E constituido por textos retirados de edicoes do jornal regional Diario do Minho de 1999 e integra 1.749.068 ocorrencias, 58.956 formas unicas e 57.533 lemas.

Dos corpora da Linguateca fazem ainda parte do P-PAL o corpus tecnico-cientifico ECI-EE, que contem 27.138 palavras das quais foram extraidas 4.254 formas e 2.719 lemas, e o corpus oral Museu da Pessoa, criado a partir de transcricoes de entrevistas elaboradas pelo Nucleo Portugues do Museu da Pessoa. De referir que, muito embora na versao disponibilizada pela Linguateca o corpus contenha entrevistas realizadas a falantes do portugues do Brasil, para o P-PAL considerou-se apenas o registo da variante europeia que contem 362.517 palavras, 21.542 formas e 11.976 lemas. Por fim, foi ainda integrada a parte contemporanea do corpus literario Vercial. Com efeito, embora na versao disponibilizada pela Linguateca este corpus contenha obras de autores portugueses publicadas entre 1500 e 1933, para o P-PAL foram apenas contabilizadas as obras dos seculos XIX e XX. A parte contemporanea e composta por 4.581.089 palavras, 375.323 formas unicas e 57.533 lemas.

Do CLUL foi integrado o CORLEX (Bacelar do Nascimento et al., 2000). Trata-se de um corpus constituido por 16.210.438 ocorrencias das quais se extraiu informacao de frequencia para 26.980 lemas e 140.976 formas. O lexico deriva de um sub corpus escrito (15.354.243 palavras) de texto jornalistico, literario, tecnico, cientifico e didactico e "miscelanea" (que inclui ocorrencias oriundas de jornais e revistas especializados e outros documentos), datado entre a segunda metade do seculo XIX e 1998. As restantes ocorrencias (856.195 palavras) derivam de um sub corpus oral, constituido pela transcricao do registo magnetico de conversas informais e de producoes mais formais (conferencias, entrevistas de radio e de televisao, etc.) de 1970 a 1990.

Comparativamente aos restantes corpora disponibilizados pela Linguateca que apresentam um unico genero linguistico, o CORLEX e um corpus heterogeneo. Esta situacao levantou algumas questoes relativamente a sua integracao no P-PAL, uma vez que a sobreposicao com as fontes de alguns corpora jornalisticos e literarios da Linguateca poderia reflectir-se numa sobrestimacao dos valores de frequencias a extrair. Contudo, a analise detalhada as fontes, titulos e anos de publicacao das 186 obras literarias incluidas no CORLEX e das 217 obras literarias incluidas no Vercial, permitiu identificar 11 obras comuns, o que corresponde, num total de 403 obras, a uma sobreposicao de apenas 2,73% do corpus literario total. No que se refere aos corpora jornalisticos, a analise as fontes dos 16.723 artigos integrados no subcorpws jornalistico do CORLEX revelou que 4.697 (28%) correspondem a publicacoes do Jornal Publico dos anos 1997 e 1998. Esta situacao podera indiciar uma potencial sobreposicao entre os artigos do Jornal Publico integrados no CORLEX e no CETEMPublico, muito embora o CETEMPublico integre, como vimos, artigos de um periodo de tempo mais alargado (publicacoes de 1991 a 1998). Todavia, mesmo nesta situacao, ha que considerar que o impacto desta potencial sobreposicao num corpus jornalistico de =200 milhoes de palavras, como e o caso do CETEMPublico, correspondera a uma sobreposicao de apenas 1,2%. Esta percentagem, a semelhanca da do corpus literario, tera assim um impacto muito pouco significativo na sobrestimacao dos valores de frequencias a extrair no P-PAL. Por isso, e na impossibilidade de verificar estes textos manualmente, optamos pela integracao do CORLEX, que contribui, no nosso entender, de forma significativa para o enriquecimento e diversificacao dos generos e modalidades linguisticas no P-PAL.

A Figura 1 apresenta a distribuicao por genero (tecnico-cientifico e didactico, literario, jornalistico e miscelanea) e modalidade discursiva (oral e escrito) dos corpora utilizados para indexacao das entradas, frequencias e categorias do P-PAL.

O P-PAL integra essencialmente registos de lingua escrita (226.552.040 palavras) e um pequeno sub corpus de lingua falada (1.218.712 palavras). A maior proporcao e jornalistica (94,5% do corpus total). Neste genero, o CETEMPublico e aquele que concorre com a percentagem mais significativa de ocorrencias (89,1%), seguindo-se o CORLEX (4%), o DiaCLAVE (3,1%), o Avante! (3%) e o Natural Minho (0,8%). O genero literario representa 3,4% do corpus total. Neste genero, a maior proporcao deriva do Vercial, que concorre com 60% das ocorrencias. O genero tecnico-cientifico e didactico representa 1,6% do corpus total, contribuindo a porcao do CORLEX de forma mais significativa para a sua composicao (99,3%). O ECI-EE contribui com apenas 0,7% das ocorrencias. Incorporamos ainda o genero "miscelanea" do CORLEX que integra 575.962 ocorrencias correspondentes a 0,3% do corpus total e escrito.

[FIGURA 1 OMITIR]

Da compilacao destes oito corpora resultou assim um corpus total de 227.770.752 ocorrencias provenientes de texto predominantemente escrito e jornalistico. Esta situacao nao e de admirar se considerarmos a natureza e a dimensao dos corpora integrados no P-PAL. Com efeito dos sete corpora da Linguateca, quatro sao do genero jornalistico, sendo que destes o CETEMPublico e aquele que apresenta a maior dimensao de todos os corpora integrados no P-PAL. Apesar deste desequilibrio na distribuicao do genero, consideramos que a inclusao de varios titulos de jornais provenientes de diferentes regioes do pais e anos de publicacao (1991 -2002) podem concorrer para a obtencao de um lexico do PE mais diversificado no P-PAL e assim para aumentar a representatividade da lingua.

Procedimento

A compilacao de varios corpora para criacao de um unico lexico de frequencias coloca grandes desafios ao tratamento da informacao. Porque o lexico do P-PAL deriva de oito corpora pre-existentes assentes em sistemas de classificacao morfo-sintactica e de lematizacao distintos, tivemos de proceder, antes da extraccao do lexico, a uma analise aprofundada aos sistemas de classificacao morfo-sintactica e de lematizacao adoptados em cada um, com vista a normalizacao da terminologia e a criacao de um sistema de classificacao comum que rentabilizasse a informacao original disponibilizada a partir de cada um deles.

A Tabela 1 apresenta os sistemas de classificacao morfo-sintactica adoptados nos corpora da Linguateca e no CORLEX, bem como o sistema adoptado no P-PAL. As ocorrencias em cada corpus encontram-se convertidas numa escala logaritmica de base 10 ([log.sub.10]).

Como se pode observar na Tabela 1, ha um maior numero de subcategorias nos corpora da Linguateca do que no CORLEX. Por exemplo, no CORLEX os nomes proprios nao constituem entrada mas a Linguateca distingue entre nomes proprios e nomes proprios com designacao comercial. Os pronomes estao classificados como pessoal, demonstrativo, indefinido, possessivo, interrogativo e relativo. Em contrapartida na Linguateca os pronomes sao subcategoria das categorias determinante (DET) ou Especificador (SPEC), podendo pertencer as duas. Os artigos estao classificados como subcategoria da categoria principal DET, que nao consta nas categorias do CORLEX, onde os artigos constituem categoria principal. Os corpora da Linguateca incluem ainda as categorias principais DET e SPEC, que integram as subcategorias artigo, pronome e adjectivo e pronome e adjectivo, respectivamente.

No que se refere a classificacao de lemas e formas registam-se tambem diferencas. Nos corpora da Linguateca sao lema os nomes no masculino e no feminino singular ("carcereiro" e "carcereira", "imperador" e "imperatriz"), todas as palavras invariaveis (como as preposicoes, as conjuncoes e os adverbios, excepto as contraccoes e as locucoes), os verbos no infinitivo impessoal ("estar", "poder", "fazer") e os adjectivos no masculino singular ("novo", "bom"), a excepcao dos adjectivos com funcao de nome. Nestes casos sao utilizados lemas diferentes para o feminino e o masculino (ex., o lema de "professores" e "professor" e o de "professoras" e "professora"). Os pronomes pessoais tem como lema o pronome pessoal recto no masculino (ex., "eu" e lema de "me", "nos" lema de "nos", "eles" lema de "lhe", "lhes" ou "lhas") e os pronomes possessivos, relativos, demonstrativos e interrogativos tem como lema o masculino singular (ex., "meu" e lema de "meus", "minha" e "minhas", "cujo" e lema de "cujos", "cuja" e "cujos"). Constituem tambem lema as palavras compostas hifenizadas (ex., "aereo-terrestre") e nao hifenizadas, sendo que, neste ultimo caso, se assinalam com o simbolo "=" (ex., "ad=hoc").

A semelhanca dos corpora da Linguateca, no CORLEX sao lema as palavras invariaveis (como as preposicoes, conjuncoes e adverbios, excepto as contraccoes e as locucoes), os verbos no infinitivo impessoal, os nomes no masculino singular, embora os pronomes se apresentem tanto no masculino como no feminino singular. Quanto as palavras compostas (no sentido lato do termo, incluindo compostos morfologicos, compostos morfo-sintacticos e compostos sintacticos), o criterio de lematizacao adoptado nao e consistente. Por exemplo, "abelha-mae" esta inserida no lema "abelha", mas "abelha-mestra" tem entrada propria na lista de lemas. Observa-se ainda que algumas palavras hifenizadas constituem lema de itens multilexicais nao hifenizados (ex., "a-vontade" e lema das formas "a" e "vontade" e "abaixo-assinado" e lema das formas "abaixo" e "assinado").

Inspirados pela proposta do Dicionario da Lingua Portuguesa Contemporanea de Casteleiro (2001), adaptamos os sistemas de classificacao morfo-sintactica da Linguateca e do CORLEX numa nova classificacao (cf. Tabela 1). O P-PAL contempla assim 10 categorias principais: nomes (N), determinantes (DET), pronomes (PRON), quantificadores (QUANT), adjectivos (ADJ), verbos (V), interjeicoes (INT), preposicoes (PREP), adverbios (ADV) e conjuncoes (CONJ). Os DET podem ser ainda classificados como demonstrativos, possessivos, indefinidos, relativos e interrogativos e os artigos como definidos ou indefinidos. Os PRON estao classificados como pessoais, demonstrativos, indefinidos, possessivos, interrogativos e relativos e os QUANT como universais, existenciais, relativos e interrogativos, incluindo-se tambem nesta classe os numerais cardinais, ordinais, multiplicativos e fraccionarios. O P-PAL contem ainda os ADV interrogativos e as CONJ subordinativas e coordenativas.

Atendendo aos diferentes criterios de lematizacao dos corpora da Linguateca e do CORLEX definimos, a semelhanca da classificacao morfo-sintactica, um modelo especifico de lematizacao para o P-PAL que optimizasse a informacao oriunda de cada corpus. Assim, constituem lemas no P-PAL: (a) os verbos no infinitivo impessoal (ex., "abrir"); (b) os nomes no masculino singular (ex., "gato", "padeiro"). Para os nomes de genero fixo (masculino ou feminino) escolheu-se a forma singular (ex., "animal", "cobra"). Os nomes invariaveis quanto ao numero (ex., "pires") ou cuja flexao de genero deriva de um radical distinto (ex., "homem/mulher", "cavalo/egua") constituem entrada propria; (c) os adjectivos no masculino singular (ex., "bonito"). Para os adjectivos de genero fixo e usada a forma singular (ex., "facil"); (d) os determinantes e os pronomes encontram-se no masculino e no feminino singular; (e) as classes invariaveis, adverbios, preposicoes, conjuncoes e interjeicoes; (f) os numerais que formam uma unidade lexical. Por exemplo, "quinze" e considerado lema, mas "mil e duzentos" constitui uma unidade multilexical. A frequencia destes itens multilexicais foi somada as frequencias de cada um dos seus constituintes (i.e., aos lemas "mil", "e" e "duzentos"); (g) as siglas e acronimos considerados nomes comuns de acordo com Casteleiro (2001), excepto os que assumem funcao de nomes proprios, como o caso de algumas organizacoes (ex., "GNR", NATO), partidos e movimentos; e (h) todos os vocabulos hifenizados que possuem entrada propria nos dicionarios de referencia (Casteleiro, 2001) e as palavras formadas por derivacao prefixai cujo afixo altera o significado (ex., "anti-adiposo" vs. "adiposo"), o referente (ex., "auto-estrada" vs. "estrada") ou a classe do radical (ex., "alem-fronteiras"ADV vs. "fronteira"N). Foram ainda incluidos os estrangeirismos que constituem entrada propria nos dicionarios de referencia. Contudo, e de assinalar que os estrangeirismos que apresentam uma ortografia nao adaptada ao PE (ex., "timing ", "briefing ") foram incluidos como entrada mas excluidos da computacao das restantes metricas do P-PAL, visto que a sua grafia nao corresponde a grafia convencional do PE.

Nao constituem entrada de lema no P-PAL as contraccoes, embora sejam contabilizadas na sua decomposicao (ex., " dele" foi decomposto na preposicao "de" e no pronome pessoal "ele" e a frequencia atribuida a ambos os lemas), as unidades multilexicais disjuntas (i.e., nao hifenizadas, onde se incluem as locucoes, as expressoes idiomaticas ou as colocacoes), embora as suas unidades constituintes tenham sido lematizadas e incluidas como entrada de lema e a frequencia somada a cada um dos lemas reconstituidos; os nomes proprios, identificados a partir da informacao disponibilizada pelo Portal do Cidadao, do Instituto dos Registos e do Notariado e na pagina do COMPARA disponivel na Linguateca; e as palavras formadas por derivacao prefixai cujas particulas nao possuam existencia propria na lingua (ex., a particula "recem" em "recem-chegado"), sendo que, nestes casos, se lematizou o radical ("chegar"), que assume o valor de frequencia da forma composta original. Foram tambem excluidas abreviaturas (ex., "vo/." ou "art"), simbolos e grafias nao convencionais (ex., "@", "S").

Da base das formas fazem parte todas as formas graficas pertencentes as classes morfo-sintacticas adoptadas no P-PAL (cf. Tabela 1), incluindo palavras homonimas gramaticalmente distintas que, embora possuam grafia igual, pertencem a classes gramaticais diferentes (ex., ["alem".sub.N] v.s. ["alem".sub.ADV]). Neste grupo de palavras com grafia e fonetica iguais a desambiguacao fez-se a partir da categoria morfo-sintactica, sendo contabilizadas como entradas distintas. As formas compostas hifenizadas foram tambem incluidas como entrada de acordo com a sua ocorrencia natural no corpus e, ao contrario do procedimento adoptado para os lemas, nao foram decompostas nos seus itens constituintes. Fazem ainda parte da base de formas os estrangeirismos incluidos na base de lemas.

Por ultimo submetemos os verbos flexionados e hifenizados com pronomes cliticos a um tratamento especifico, uma vez que representam duas palavras numa forma composta. Nesse sentido, reconstituimos os verbos e atribuimos o valor de frequencia original a forma verbal e ao pronome clitico correspondente, que tambem constitui entrada. Por exemplo, as formas verbais terminadas em "a" seguidas de pronome clitico (ex., "encesta-la") foram reconstituidas substituindo "a " por "ar" e suprimindo o pronome. As formas terminadas em "avamo" (ex., "ajudavamo-nos") foram reconstituidas, substituindo "avamo" por "avamos" e suprimindo o pronome clitico. As formas verbais terminadas em "ava" (ex., "perfilava-se") e em "avam" (ex., "preparavam-se"), nao carecendo de reconstituicao, subtraiu-se apenas o pronome clitico. Para as formas verbais seguidas dos pronomes "lo", "la", "los" ou "las" adoptamos um procedimento semelhante mas a frequencia foi contabilizada nos pronomes pessoais "o", "a", "os" e "as", respectivamente.

Depois de definidos os sistemas de anotacao morfo-sintactica e de classificacao de lemas e formas no P-PAL, procedemos a um conjunto de procedimentos de limpeza e de verificacao automatica e manual da informacao. Atendendo ao elevado numero de erros ortograficos e morfo-sintacticos existentes decorrentes de uma anotacao automatizada e nao revista nos corpora da Linguateca, para rentabilizar as verificacoes ao lexico extraido no P-PAL, implementamos um conjunto de procedimentos complementares. Numa primeira fase usamos o analisador morfologico JSpell (Simoes & Almeida, 2001) para verificacao automatica da ortografia e da informacao morfo-sintactica das formas e lemas dos corpora da Linguateca, que depois cruzamos com a informacao do corpus CORLEX, que foi verificado manualmente. Esta primeira verificacao automatizada permitiu eliminar numeros e palavras com caracteres nao convencionais, identificar palavras novas ou erros de ortografia e detectar categorias nao reconhecidas (e que, por isso, poderiam representar erros de anotacao morfo-sintactica). As entradas e etiquetas nao constantes no JSpell ou no CORLEX foram verificadas manualmente e corrigidas se necessario. Estas verificacoes e correccoes foram realizadas sequencialmente e iniciaram-se pelo CETEMPublico que, pela sua dimensao, permitiu criar uma base de erros ortograficos e morfo-sintacticos comuns. O desenvolvimento desta base de erros foi essencial, acrescentando gradualmente informacao de cada corpus. Cruzando essa base nos corpora seguintes, diminuimos progressivamente o volume de verificacoes manuais a realizar.

Os pares palavra/categoria nao reconhecidos pelos procedimentos descritos acima foram verificados manualmente e re-etiquetados. Assim, por exemplo, no CETEMPublico registaram-se ocorrencias da entrada "bocado" anotada como V. Visto que a palavra apenas podera ocorrer na lingua com a funcao de N, alteramos a sua categoria. Registamos ainda ocorrencias da palavra "sobre" como ADV. Ora, sabendo que na lingua a palavra pode ocorrer como PREP e V e porque o elevado numero de incidencias inviabilizava a sua desambiguacao contextual, optamos por atribuir, nestes casos, todas as categorias que a palavra pode assumir. Assim, se no P-PAL uma dada entrada estiver associada a mais do que uma categoria, devera ter-se em conta que as ocorrencias originais nos corpora podem corresponder a qualquer uma ou a todas as categorias a ela associadas. Um exemplo concreto de uma adaptacao semelhante e a forma "se", que no CETEMPublico apresenta valores de frequencia para cinco categorias distintas e que foi integrada no P-PAL como uma unica entrada associada as categorias CONJ subordinada e PRON pessoal.

Noutros casos a ambiguidade sintactica gerou ambiguidade na lematizacao. As formas verbais "fora", "vendo" e "vimos", por exemplo, extraidas da lista de lemas e resultantes de erros de lematizacao das bases originais, podem corresponder aos lemas "ser/ir", "vender/vendar/ ver" e "ver/vir", respectivamente. Na impossibilidade de verificacao manual destas ocorrencias, optamos pela exclusao destas palavras da base de lemas, sob pena de sobrevalorizamos a frequencia de algum desses lemas. Estas palavras constam assim como entradas na base de formas mas as suas frequencias nao foram associadas a nenhum lema.

Por ultimo, cabe referir o tratamento as vacilacoes entre a hifenizacao e a disjuncao (ex., "fim-de-semana" vs. "fim de semana") e a identificacao e lematizacao dos compostos disjuntos. A primeira tarefa passou pela identificacao de todas as palavras hifenizadas que constituem lemas nos corpora originais e na analise da sua lematizacao. Os itens multilexicais disjuntos foram decompostos em unidades separadas, sendo a frequencia atribuida a cada um dos seus constituintes. Por exemplo, a frequencia de "agua de colonia" (forma ou lema), foi adicionada as frequencias das entradas "agua", "de" e "colonia". Contudo, nas situacoes em que um dos itens constituintes nao ocorre isoladamente na lingua (ex., "verdiano" em "cabo verdiano", "iorquino" em "nova iorquino" e "versa" em "vice versa"), essas palavras foram eliminadas da base. As unidades multilexicais hifenizadas foram incluidas como entrada propria, pelo que "agua-de-colonia" constitui entrada tanto na base de formas como de lemas no P-PAL. Como resultado deste processo de verificacoes foram eliminadas dos oito corpora originais 4.422.753 ocorrencias de formas e 1.402.546 ocorrencias de lemas.

Resultados

O conjunto de procedimentos desenvolvidos na analise, tratamento e compilacao dos oito corpora que integram o P-PAL permitiu obter um lexico constituido por 208.642 formas e 52.404 lemas, cuja distribuicao por extensao de palavra (numero de letras) se apresenta na Figura 2.

Como podemos observar na Figura 2, o P-PAL inclui, na base de formas, palavras que variam de 1 a 31 letras e, na base de lemas, palavras que variam de 1 a 24 letras. A maioria das palavras no P-PAL apresenta entre 7 a 11 letras que constituem 63,5% e 61,5% do lexico de formas e lemas, respectivamente. A extensao media das palavras no P-PAL situa-se na base de formas em 9,9 letras (DP = 2,97) e na base de lemas em 9,3 letras (DP = 2,96).

A Figura 3 apresenta a distribuicao acumulada das frequencias lexicais (por milhao de ocorrencias) do P-PAL por extensao de palavra (numero de letras) na base de formas e lemas.

[FIGURA 2 OMITIR]

[FIGURA 3 OMITIR]

A analise a distribuicao das frequencias acumuladas revela uma distribuicao tipo Poisson. Assim, a medida que avancamos na extensao de palavras (i.e., no numero de letras que as integram) a probabilidade da sua ocorrencia vai decrescendo de uma forma quase linear tanto em formas como em lemas, situando-se o ponto de corte em ambos casos em tomo das 5 letras. A partir desse valor verifica-se uma quebra significativa nos valores de frequencias acumuladas. Cabe no entanto assinalar que mais de 50% das frequencias lexicais ocorrem em palavras com tres ou menos letras no lexico de lemas (53,5%) e em palavras com quatro ou menos letras no lexico de formas (56,3%).

Com efeito, como se observa na Figura 3, as palavras de uma letra constituem as mais frequentes do lexico de lemas (entre as quais as palavras funcionais "a", "e" e "o" com uma frequencia por milhao de palavras de 88.046,59, 84.061,31 e 80.466,16, respectivamente). No lexico de formas as palavras de duas letras integram o conjunto das palavras mais frequentes, entre as quais se encontram as palavras funcionais "de" e "em" (com uma frequencia por milhao de 46.474,75 e 12.561,91, respectivamente). Seguem-se, de forma muito aproximada, as palavras de uma letra (e que incluem, a semelhanca do observado para os lemas, as palavras funcionais "a", "a" e "o", ainda que com uma distribuicao de frequencias distinta--39.164,26, 87.551,52 e 30.020,17, respectivamente--as quais acresce a contraccao "a" com 5.050,34 ocorrencias e a forma verbal "e" com 7.391,74 ocorrencias). As formas do P-PAL apresentam uma frequencia lexical por milhao de palavras que varia entre 0 (palavras que ocorrem apenas uma vez no corpus--47.154 palavras) e 87.551,52 por milhao de ocorrencias, com uma frequencia media de 4,69 (DP = 272,18). A palavra mais frequente corresponde a palavra funcional "e". Na base de lemas, a frequencia varia entre 0 (5.246 palavras) e 89.567,61 por milhao de ocorrencias, com uma frequencia media de 18,93 (DP = 788,44). O lema mais frequente corresponde a palavra funcional "de".

Porque o P-PAL resulta, como vimos, da compilacao de oito corpora de diferentes tipos (escrito e oral) e generos linguisticos (jornalistico, literario, tecnico etc.), procedemos a uma analise de correlacao produto-momento Pearson entre a medida de frequencia lexical obtida no P-PAL e as obtidas em cada um dos oito corpora que lhe deram origem. A Tabela 2 apresenta as correlacoes obtidas na base de formas (porcao superior da tabela a cinzento) e de lemas (porcao inferior da tabela).

Como se observa na Tabela 2, as correlacoes entre a medida de frequencia do P-PAL e as restantes medidas de frequencia oriundas de cada corpus sao positivas e estatisticamente significativas tanto na base de lemas como na de formas, situando-se acima de 0,80 (excepcao feita a correlacao observada entre o corpus Museu Pessoa e Natura/Minho no caso das formas--r =0,75). Cabe no entanto assinalar a existencia de correlacoes mais elevadas entre a medida de frequencia do P-PAL e o corpus jornalistico CETEMPublico tanto na base de formas como na de lemas (r = 0,99), o que nao e de estranhar se considerarmos o peso que esse corpus representa no P-PAL (cf. Figura 1). Seguem-se, na base de formas, o corpus jornalistico Avante! e o literario Vercial, ambos com uma correlacao situada nos 0,90. Na base de lemas, o CORLEX assume-se como o segundo corpus mais associado a medida de frequencia do P-PAL (r = 0,95). As correlacoes menos elevadas (ainda que mesmo assim situadas num intervalo de elevada correlacao) observam-se entre a medida de frequencia do P-PAL e a do corpus jornalistico Natura/Minho, tanto na base de formas (r = 0,83) como na de lemas, embora neste ultimo caso este corpus se associe ao ECI-EE (apresentando em ambos casos uma correlacao de 0,87). De assinalar ainda que, sendo um corpus de linguagem essencialmente escrita, o P-PAL apresenta elevada correlacao com o corpus oral Museu Pessoa, com valores de correlacao de 0,84 na base de formas e 0,85 na base de lemas.

Discussao

Neste trabalho apresentamos os procedimentos de compilacao, analise e tratamento de oito corpora do PE contemporaneo de livre acesso e etiquetados morfossintaticamente (sete disponibilizados pela Linguateca e um pelo CLUL), com vista a criacao de um corpus de grandes dimensoes e diversificado na sua composicao interna para a extraccao de uma nova medida de frequencia lexical disponibilizada a partir da aplicacao P-PAL (http://p-pal. di.uminho.pt/about/tools). Os procedimentos de compilacao, analise e tratamento da informacao oriunda dos diferentes corpora implicaram uma reclassificacao morfo-sintactica e a adopcao de criterios de lematizacao que permitissem a criacao de um sistema de classificacao comum e rentabilizassem a informacao original disponibilizada a partir de cada um deles. Por este procedimento, e inspirados na proposta do Dicionario da Lingua Portuguesa Contemporanea de Casteleiro (2001), o P-PAL contempla 10 categorias morfossintacticas principais distribuidas em duas bases lexicais distintas compostas por 52.404 palavras lematizadas e 208.642 palavras nao lematizadas (formas) do PE contemporaneo.

De assinalar o tratamento dado as contraccoes, as unidades multilexicais disjuntas (i.e., nao hifenizadas, onde se incluem as locucoes, as expressoes idiomaticas ou as colocacoes), as palavras formadas por derivacao prefixai (cujas particulas nao possuam existencia propria na lingua), e aos verbos flexionados e hifenizados com pronomes cliticos que, ocorrendo na lingua, nao constituem, no P-PAL, uma unidade lexical unica. Nestes casos procedemos, como vimos, a decomposicao da palavra ou da unidade multilexical, nos seus elementos constituintes e a atribuicao do valor de frequencia original a cada um dos lemas ou formas reconstituidos. Consideramos que este procedimento, ainda que mais dispendioso do ponto de vista do tratamento da informacao, podera constituir um elemento importante na fiabilidade da medida de frequencia obtida. Com efeito, a exposicao a esse tipo de palavras, comuns na lingua portuguesa, nao devera ser negligenciada neste tipo de medida, sob pena de se subestimar a sua ocorrencia e de se introduzir erro adicional numa medida que procura, como vimos, reflectir o uso efectivo que os falantes fazem da lingua.

Estes procedimentos, a semelhanca das tarefas de limpeza e verificacao da informacao, permitiram obter um corpus de grandes dimensoes (mais de 227 milhoes de palavras) o que, atendendo as recomendacoes mais recentes da literatura (ex., Brysbaert et al., 2011; Brysbaert & New, 2009; Lee, 2003; Sardinha, 2004; Sinclair, 2005) podera, desde logo, concorrer para a qualidade da medida de frequencia lexical aqui extraida. Em todo o caso, a semelhanca de varios projectos internacionais (ex., English Lexicon Project--ver Balota et al., 2007), estudos futuros deverao comprovar a qualidade desta medida a partir, por exemplo, da recolha de tempos de reconhecimento e/ou nomeacao de um vasto conjunto de palavras com vista a determinacao do seu poder preditivo. Estudos deste tipo sao tanto mais relevantes quanto a investigacao internacional mais recente comprova, como vimos, que a frequencia de uso de palavras se assume como a variavel mais potente na explicacao do desempenho linguistico dos sujeitos (ex., Balota et al., 2007; Brysbaert et al., 2011; Brysbaert & Cortese, 2011; Ferrand et al., 2010; Keuleers et al., 2010; Thompson & Desroches, 2009).

De assinalar tambem que, embora no corpus do P-PAL predominem registos de linguagem escrita, o que poderia colocar em causa a representatividade da lingua que pretendiamos obter com a diversidade de generos e tipos discursivos integrados, a analise de correlacao desenvolvida, tomando as frequencias de cada um dos oito corpora, revela no entanto que a medida de frequencia do P-PAL apresenta correlacao elevada nao so com a medida de frequencia de todos os corpora escritos que lhe deram origem, mas tambem com o corpus oral Museu Pessoa (situando-se acima de 0,80 em ambos os casos). Estes valores parecem evidenciar, a semelhanca do observado noutras linguas (ex., Alonso, Fernandez, & Diez, 2011; Pastizzo & Carbonne, 2007), que as frequencias lexicais computadas para a linguagem escrita no PE poderao ser tomadas como um bom indicador das frequencias obtidas a partir da linguagem oral, e que o facto de o P-PAL integrar essencialmente informacao oriunda de registos de linguagem escrita (e, dentro destes, de tipo jornalistico), podera nao constituir em si mesmo uma limitacao a sua validade. Alias, a inclusao no P-PAL de outros corpora permitiu enriquecer fortemente a sua diversidade linguistica, dado que do corpus oral Museu Pessoa foram incorporadas no P-PAL apenas 14.259 formas e 6.934 lemas o que constitui somente 6,8% e 13,2% do lexico total respectivo. A inclusao dos restantes corpora escritos permitiu assim contribuir de forma significativa para a diversidade lexical do P-PAL e para a obtencao de um lexico representativo do PE contemporaneo, tal como se pretendia.

A analise a distribuicao das entradas lexicais do P-PAL (formas e lemas) por extensao de palavra permitiu verificar tambem que, comparativamente a outras linguas, o PE apresenta, em media, palavras de maior extensao (cf. Hatzigeorgiu, Mikros, & Carayannis, 2001; Riedemann, 1996; Ziegler, 2000). Esta situacao reflecte de algum modo o facto de o Portugues ser uma lingua sintetica, morfologicamente rica, na qual novas palavras podem ser formadas mediante a juncao de morfemas ja existentes por prefixacao e/ou sufixacao, como em "en-trincheira-mento" (derivacao) ou "cant-a-va-mos" (flexao), ou mediante a juncao de palavras ou radicais (composicao), como "malmequer". A este numero ha ainda a acrescentar a integracao de palavras compostas hifenizadas (tanto compostos morfologicos ex., "luso-brasileiro"-; compostos morfossintaticos--ex., "surdo-mudo"- como conjuntos ou encontros ocasionais --ex., "integracionistas-centralizadoras") que no caso dos lemas constituem 1.770 entradas (3,4% do lexico total) e no caso das formas 18.911 entradas (9,1% do lexico total). A inclusao destas palavras faz incrementar a extensao media das palavras no P-PAL, de tal forma que se excluidas, a extensao das palavras oscilaria no caso das formas entre um minimo de 1 e um maximo de 24 letras, com uma media de 9,6 letras (DP = 2,65) e no caso dos lemas entre um minimo de 1 e um maximo de 22, com uma media de 9,2 letras (DP = 2,94).

Embora a literatura sobre os efeitos de extensao no reconhecimento visual de palavras seja inconsistente (ver New, Ferrand, Pallier, & Brysbaert, 2006 para uma revisao), os estudos realizados ate ao momento foram maioritariamente conduzidos ora em linguas opacas (ex., ingles), ora em linguas transparentes (ex., espanhol), deixando por esclarecer o que se passa com linguas semi-transparentes, como o PE. Alem disso, a esmagadora maioria desses estudos recorreram a palavras monossilabicas de pequena extensao pelo que se questiona ate que ponto nao so os dados obtidos em linguas opacas ou transparentes se podem generalizar a outras linguas, como o facto de os resultados obtidos no mesmo idioma para palavras de pequena extensao poderem nao ser generalizaveis para palavras de maiores extensoes (Soares, Costa, et al., 2012). Mais investigacao devera pois ser desenvolvida para testar esses efeitos.

A analise a distribuicao de frequencias acumuladas revelou, como esperado, que a medida que a extensao de palavras aumenta, a probabilidade da sua ocorrencia vai decrescendo de uma forma quase linear. A semelhanca do observado noutras linguas (ver Grotjahn & Altmann, 1993; Sigurd, Eeg-Olofsson, & van de Weijer, 2004; Wimmer & Altmann, 1996), esta relacao comprova tambem no PE a lei de Zipf segundo a qual as palavras mais frequentemente usadas numa lingua sao aquelas que requerem menos esforco no seu uso/utilizacao. No P-PAL mais de 50% das frequencias lexicais ocorrem em palavras de tres ou menos letras no lexico de lemas e de quatro ou menos letras no lexico de formas. Dentro dessas, as palavras funcionais assumem os valores de frequencia lexical mais elevados. Por ultimo, resta assinalar que o P-PAL disponibiliza ainda um conjunto de outras medidas como o grau de similitude ortografica e fonologica entre palavras (i.e., medidas de vizinhanca). Estas medidas assumem elevada relevancia na literatura, dada a constatacao empirica de que o processamento de uma dada palavra conduz a activacao automatica de outras palavras similares, o que consequentemente afecta o seu acesso lexical (ver Andrews, 1997). As medidas de similitude ortografica do P-PAL incluem, tanto na base de formas como de lemas, a medida standar de densidade de vizinhanca de Coltheart, Davelaar, Jonasson e Besner (1977), que reflecte o numero de palavras existentes no lexico que diferem da palavra alvo pela substituicao de. uma letra mantendo as restantes constantes nas mesmas posicoes (ex., a forma "alma" tem como vizinhos "alba", "alca", "alfa", "alga", "alia", "almo", "alta", "alva", "arma", "asma" e "alua", apresentando assim um valor de N = 11). Estas medidas contemplam ainda a distribuicao das frequencias desses vizinhos (ex., a media de frequencia da vizinhanca de "alma" e de 14,51, sendo que "alta" se releva o vizinho com a frequencia mais elevada com 111.32 ocorrencias por milhao de palavras contra os 57,63 da palavra alvo "alma"). O P-PAL inclui ainda medidas de densidade e frequencia dos vizinhos gerados por adicao (i.e., juncao de uma letra a palavra alvo--ex., "alma" possui "calma" e "palma" como vizinhos por adicao, cujas frequencias de ocorrencia sao inferiores a de "alma"--25,60 e 1,20 respectivamente), subtraccao (i.e., eliminacao de uma letra a palavra alvo--ex., "alma" apresenta "ala" e "ama" como vizinhos por subtraccao, sendo que estes apresentam tambem frequencias de ocorrencia inferiores a de "alma"--16,09 e 9,39 respectivamente) e transposicao de letras (i.e., alteracao da posicao relativa de alguma das letras da palavra alvo--ex., "alma" apresenta "lama" e "alam" como vizinhos por transposicao, que apresentam tambem frequencias lexicais inferiores a "alma"--10,67 e 0,27 ocorrencias por milhao de palavras, respectivamente). Estas medidas de similitude ortografica assumem tambem elevada importancia com contexto da investigacao mais recente (ver Charles-Luce & Luce, 1990; Davis & Taft, 2005; Perea & Lupker, 2004). A semelhanca das restantes linguas, as palavras que integram o P-PAL variam nessas metricas (ver Soares et al., 2011; Soares, Nascimento, et al., 2012), pelo que os investigadores deverao atender a essas caracteristicas no controlo e/ou manipulacao dos estimulos na conducao das suas investigacoes.

Conclusao

Em conclusao podemos afirmar que o PE dispoe na actualidade de um novo lexico de frequencias que, partindo da rentabilizacao de corpora ja existentes, permitiu a constituicao de um corpus de grandes dimensoes (mais de 227 milhoes de palavras) e diversificado na sua composicao interna. Ele inclui, ainda que de forma nao equitativa, registos da linguagem oral e escrita oriundos dos mais variados generos, desde o jornalistico, o literario e o tecnico-cientifico ao didactico, o que no nosso entender contribui de forma significativa para o enriquecimento da variedade lexical do seu corpus e, consequentemente, para a representacao da lingua e a afirmacao da validade das medidas de frequencia extraidas a partir dele.

Pelo potencial que oferece a investigacao, ao disponibilizar numa aplicacao informatica amigavel de acesso gratuito nao so um novo indice de frequencia lexical mas todo um conjunto de outros indices sobre as palavras do PE nao disponiveis ate entao (ex., indices de similitude ortografica, fonologica, fonografica, silabica) consideramos que o P-PAL se assume como uma ferramenta sem par, de valor inestimavel a promocao e a internacionalizacao da investigacao em Portugal.

Recebido: 20/06/2012

1a revisao: 04/09/2012

2a revisao: 02/10/2012

3a revisao: 30/10/2012

Aceite final: 07/11/2012

Referencias

Alonso, M. A., Fernandez, A., & Diez, E. (2011). Oral frequency norms for 67,979 Spanish words. Behavior Research Methods, 43,449-458.

Andrews, S. (1997). The role of orthographic similarity in lexical retrieval: Resolving neighborhood conflicts. Psychonomic Bulletin and Review, 4, 439-461.

Baayen, R. H., Piepenbrock, R., & Gulikers, L. (1995). The CELEX lexical database (Release 2) [CD-ROM]. Philadelphia, PA: Linguistic Data Consortium, University of Pennsylvania.

Bacelar do Nascimento, M. F., Pereira, L. A. S., & Saramago, J. (2000). Portuguese Corpora at CLUL. In M. Gavrilidou, G. Carayannis, S. Markantonatou, S. Piperidis, & G. Steinhaouer (Eds.), Second International Conference on Language Resources and Evaluation--Proceedings: Vol. 2 (pp. 1603-1607). Athens, Greece: European Language Resources Association.

Balota, D. A., & Chumbley, J. I. (1985). The locus of word-frequency effects in the pronunciation task: Access and/or production? Journal of Memory and Language, 24, 89-106.

Balota, D. A., Cortese, M. J., Sergent-Marshall, S. D., Spieler, D. H., & Yap, M. J. (2004). Visual word recognition of single-syllable words. Journal of Experimental Psychology: General, 133, 283-316.

Balota, D. A., Yap, M. J., Cortese, M. J., Flutchison, K. A., Kessler, B., Loftis, B., ... Treiman, R. (2007). The English Lexicon Project. Behavior Research Methods, 39, 445-459.

Boudelaa, S., & Marslen-Wilson, W. D. (2010). Aralex: A lexical database for modem standard Arabic. Behavior Research Methods, 42, 481-487.

Brysbaert, M., Buchmeier, M., Conrad, M., Jacobs, A. M., Bolte, J., & Bohl, A. (2011). The word frequency effect: A review of recent developments and implications for the choice of frequency estimates in German. Experimental Psychology, 58, 412-424.

Brysbaert, M., & Cortese, M. J. (2011). Do the effects of subjective frequency and age of acquisition survive better word frequency norms? Quarterly Journal of Experimental Psychology, 64, 545-559.

Brysbaert, M., & New, B. (2009). Moving beyond Kucera and Francis: A critical evaluation of current word frequency norms and the introduction of a new and improved word frequency measure for American English. Behavior Research Methods, Instruments & Computers, 41, 977-990.

Burgess, C., & Livesay, K. (1998). The effect of corpus size in predicting reaction time in a basic word recognition task: Moving on from Kucera and Francis. Behavior Research Methods, Instruments, & Computers, 30, 212-211.

Carroll, J. B., Davies, P., & Richman, B. (Eds.). (1971). The American Heritage word-frequency book. Boston, MA: Houghton Mifflin.

Casteleiro, J. M. (Ed.). (2001). Dicionario da Lingua Portuguesa Contemporanea da Academia das Ciencias de Lisboa. Lisboa, Portugal: Academia das Ciencias de Lisboa.

Cattell, J. M. (1886). The time it takes to see and name objects. Mind, 11, 63-65.

Charles-Luce, J., & Luce, P. A. (1990). Similarity neighbourhoods of words in young children's lexicons. Journal of Child Language, 17, 205-215.

Coltheart, M. (1981). The MRC psycholinguistic database. Quarterly Journal of Experimental Psychology, 33(A), 497-505.

Coltheart, M., Davelaar, E., Jonasson, J. F., & Besner, D. (1977). Access to the internal lexicon. In S. Domic (Ed.), Attention & Performance VI (pp. 535-555). Hillsdale, NJ: Erlbaum.

Content, A., Mousty, P., & Radeau, M. (1990). BRULEX. Une base de donnees lexicales informatisee pour le francais ecrit et parle. L 'Annee Psychologique, 90, 551-566.

Costa, L., Santos, D., & Cardoso, N. (Eds.). (2008). Perspectivas sobre a Linguateca. Actas do Encontro Linguateca: 10 anos. Aveiro, Portugal: Linguateca.

Dahan, D., Magnuson, J. S., & Tanenhaus, M. K. (2001). Time course of frequency effects in spoken-word recognition: Evidence from eye movements. Cognitive Psychology, 42, 317-367.

Davis, C. J. (2005). N-Watch: A program for deriving neighborhood size and other psycholinguistic statistics. Behavior Research Methods, 37(1), 65-70.

Davis, C. J., & Perea, M. (2005). BuscaPalabras: A program for deriving orthographic and phonological neighborhood statistics and other psycholinguistic indices in Spanish. Behavior Research Methods, 37(4), 665-671.

Davis, C. J., & Taft, M. (2005). More words in the neighborhood: Interference in lexical decision due to deletion neighbors. Psychonomic Bulletin & Review, 12, 904-910.

Ferrand, L., New, B., Brysbaert, M., Keuleers, E., Bonin, P., Meot, A., ... Pallier, C. (2010). The French Lexicon Project: Lexical decision data for 38,840 French words and 38,840 pseudowords. Behavior Research Methods, 42(2), 488-496.

Forster, K., & Chambers, S. (1973). Lexical access and naming time. Journal of Verbal Learning and Verbal Behavior, 12, 627-635.

Forster, K. I., & Hector, J. (2002). Cascaded versus noncascaded models of lexical and semantic processing: The turple effect. Memory & Cognition, 30(1), 1106-1117.

Forster, K. I., & Shen, D. (1996). No enemies in the neighborhood: Absence of inhibitory neighborhood effects in lexical decision and semantic categorization. Journal of Experimental Psychology: Learning Memory and Cognition, 22(3), 696713.

Grotjahn, R., & Altmann, G. (1993). Modelling the distribution of word length. In R. Kohler, & B. B. Rieger (Eds.), Contributions to quantitative linguistics (pp. 141-153). Dordrecht, Netherlands: Kluwer.

Hatzigeorgiu, N., Mikros, G., & Carayannis, G. (2001). Word length, word frequencies and Zipf's Law in the Greek language. Journal of Quantitative Linguistics, 8, 175-185.

Keuleers, E., Diependaele, K., & Brysbaert, M. (2010). Practice effects in large-scale visual word recognition studies: A lexical decision study on 14,000 Dutch mono- and disyllabic words and nonwords. Frontiers in Psychology, 1.

Ktori, M., van Heuven, W. J. B., & Pitchford, N. J. (2008). GreekLex: A lexical database of Modem Greek. Behavior Research Methods, 40(3), 773-783.

Kucera, M., & Francis,W. N. (1967). Computational analysis of present-day American English. Providence, RI: Brown University Press.

Lee, C. J. (2003). Evidence-based selection of word frequency lists. Journal ofSpeech-Language Pathology and Audiology, 27(3), 172-175.

Lund, K., & Burgess, C. (1996). Producing high-dimensional semantic spaces from lexical co-occurrence. Behavior Research Methods, Instrumentation, and Computers, 28, 203-208.

Michel, J. B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., The Google Books Team,.. .Aiden, E. L. (2011). Quantitative analysis of culture using millions of digitized books. Science, 331, 176-182.

Murray, W. S., & Forster, K. I. (2004). Serial mechanisms in lexical access: The rank hypothesis. Psychological Review, 777,721-756.

New, B., Ferrand, L., Pallier, C., & Brysbaert, M. (2006). Reexamining word length effects in visual word recognition: New evidence from the English Lexicon Project. Psychonomic Bulletin & Review, 73(1), 45-52.

New, B., Pallier, C., Brysbaert, M., & Ferrand, L. (2004). Lexique 2: A new French lexical database. Behavior Research Methods, Instruments, & Computers, 36(3), 516-524.

Pastizzo, M. J., & Carbone, R. F. (2007). Spoken word frequency counts based on 1.6 million words in American English. Behavior Research Methods, 39, 1025-1028.

Perea, M., & Lupker, S. J. (2004). Can CANISO activate CASINO? Transposed-letter similarity effects with nonadjacent letter positions. Journal of Memory & Language, 51,231-246.

Portugues Fundamental. (1984). Vocabulario e Gramatica (Vol. 1). Lisboa, Portugal: Instituto Nacional de Investigacao Cientifica.

Riedemann, H. (1996). Word-length distribution in English press texts. Journal of Quantitative Linguistics, 3(3), 265-271.

Sardinha, B. T. (2004). Linguistica de corpus. Barueri, SP: Manole.

Sebastian-Galles, N., Marti, M. A., Cuetos, F., & Carreiras, M. (2000). LEXESP: Lexico informatizado del espahol. Barcelona, Espana: Adiciones de la Universitat de Barcelona.

Simoes, A. M., & Almeida, J. J. (2001). Jspell: Um modulo de analise morfologica para uso em Processamento de Linguagem Natural. In A. Goncalves & C. N. Correia (Eds.), Actas do Encontro Nacional da Associacao Portuguesa de Linguistica (pp. 485-495). Lisboa, Portugal: Associacao Portuguesa de Linguistica.

Sigurd, B., Eeg-Olofsson, M., & van de Weijer, J. (2004). Word length, sentence length and frequency--Zipf revisited. Studia Linguistica, 59(1), 37-52.

Sinclair, J. (2005). Corpus and text: Basic Principles. In M. Wynne (Ed.), Developing Linguistic Corpora: A Guide to Good Practice (pp. 1-16). Oxford, UK: Oxbow Books.

Soares, A. P., Comesana, M., Iriarte, A., Almeida, J. J., Simoes, A., Costa, A., ... Machado, J. (2010). P-PAL: Uma base lexical com indices psicolinguisticos do Portugues Europeu. Linguamatica, 2(3), 61-12.

Soares, A. P., Comesana, M., Iriarte, A., Almeida, J. J., Simoes, A., Costa, A., ... Machado, J. (2011). Procura-PALavras (P-PAL): A web application for a new European Portuguese lexical database. Poster presented at the 17th meeting of European Society of Cognitive Psychology, San Sebastian, Spain.

Soares, A. P., Costa, A., Machado, J., Iriarte, A., Simoes, A., Almeida, J. J., ... Comesana, M. (2012). Procura-PALavras (P-PAL): Uma aplicacao web para uma nova base lexical do portugues europeu. Poster apresentado no 7 Encontro da Associacao Portuguesa de Psicologia Experimental, Lisboa, Portugal.

Soares, A. P., Nascimento, A., Silva, A. M., Costa, A., Machado, J., Comesana, M., ... Perea, M. (2012). Efeitos de extensao e frequencia lexical no reconhecimento visual de palavras do Portugues Europeu. Poster apresentado no III Seminario de Investigacao em Psicologia da Universidade do Minho, Braga, Portugal.

Thompson, G. L., & Desrochers, A. (2009). Corroborating biased indicators: Global and local agreement among objective and subjective estimates of printed word frequency. Behavior Research Methods, 41(2), 452-471.

Thorndike, E. L., & Lorge, I. (1944). The teacher's word book of 30,000 words. New York: Teachers College, Columbia University.

Zeno, S. M., Ivens, S. H., Millard, R. T., & Duvvuri, R. (1995). The educator's wordfrequency guide. Brewster, NY: Touchstone Applied Science.

Zevin, J. D., & Seidenberg, M. S. (2002). Age of acquisition effects in word reading and other tasks. Journal of Memory & Language, 47, 1-29.

Ziegler, A. (2000). Word length in romance languages: A complemental contribution. Journal of Quantitative Linguistics, 7(1), 65-68.

Wimmer, G., & Altmann, G. (1996). The theory of word length: Some results and generalizations. Glottometrika, 15,112-133.

Ana Paula Soares *, Alvaro Iriarte, Jose Joao de Almeida, Alberto Simoes, Ana Costa, Patricia Franca, Joao Machado & Montserrat Comesana

Universidade do Minho, Braga, Distrito de Braga, Portugal

* Endereco para correspondencia: Departamento de Psicologia Basica, Escola de Psicologia, Universidade do Minho, Campus de Gualtar, Braga, Portugal 4710-057.

E-mail: asoares@psi.uminho.pt.

Agradecemos a FCT (Fundacao para a Ciencia e a Tecnologia), ao QREN (Quadro de Referencia Estrategica Nacional) e ao COMPETE (Programa Operacional Factores de Competitividade), integrado no Fundo Europeu de Desenvolvimento Regional (FEDER), o financiamento deste projecto (PTDC/PSI-PCO/104679/2008).

Agradecemos a Linguateca, em particular a Doutora Diana Santos, pela colaboracao na disponibilizacao do corpus Vercial por seculos.

Agradecemos ainda a Doutora Maria Fernanda Bacelar do Nascimento e ao Centro de Linguistica da Universidade de Lisboa (CLUL) pelo envio das fontes do subcorpus literario do CORLEX.
Tabela 1
Sistemas de Classificagao Morfo-Sintactica Adoptados nos Corpora
da Linguateca, no CORLEX e no P-PAL

Corpora da Linguateca
Nome (N)
Nome proprio (PROP) e com
designapao comercial "&" (KC)

Determinante (DET)       Artigo
(Artigos, Pronomes,        Definido (artd)
Adjectivos)                Indefinido (arti)

                         Relativo (rel)
                         Interrogativo (interr)

Pronome pessoal (PERS)

Especificador (SPEC)     Demonstrative (dem)
(Pronomes, Adjectivos)   Possessivo (poss)
                         Interrogativo (interr)
                         Relativo (rel)

Numeral (NUM)            Cardinal (card)
                         Ordinal (ord)
                         Fraccionario (fract)

Adjectivo (ADJ)
Verbo (V)                Principal
                           Verbo intransitivo (vi)
                           Verbo transitivo (vt)
                           Verbo transitivo directo (vtd)

                         Copulativo
Adverbio (ADV)             vK e vtK

Conjunfao                Subordinativa (KS)
                         Coordenada (KC)

Interjeifao (IN)
Contracfao (CONT)

Divisao de itens         1 elemento da contracpao (sam-)
  multilexicais (MWE)    2 elemento da contracpao (-sam)

Corpora da Linguateca    CORLEX                 P-PAL
Nome (N)                 Nome (N)               Nome (N)
Nome proprio (PROP) e com
designapao comercial "&" (KC)

Determinante (DET)                              Artigo (ARTG)
(Artigos, Pronomes,                               Definido (DEF)
Adjectivos)                                       Indefinido (IND)

                         Artigo (T)             Determinante (DET)
                           Definido (Td)          Demonstrativo (DEM)
                           Indefinido (Ti)        Possessivo (POSS)
                                                  Indefinido (IND)
                                                  Relativo (REL)
                                                  Interrogativo (INT)
Pronome pessoal (PERS)

Especificador (SPEC)     Pronome (P)            Pronome (PRON)
(Pronomes, Adjectivos)     Pessoal (Pp)           Pessoal (PESS)
                           Demonstrativo (Pd)     Demonstrativo (DEM)
                           Indefinido (Pi)        Indefinido (IND)
                           Possessivo (Po)        Possessivo (POSS)
                           Interrogativo (Pt)     Interrogativo (INT)
                           Relativo (Pr)          Relativo (REL)

                                                Numeral (NUM)
                                                  Cardinal (CARD)
                                                  Ordinal (ORD)
                                                  Multiplicativo (MULT)
                                                  Fraccionario (FRAC)

Numeral (NUM)            Numeral (M)            Quantificador (QUANT)
                                                  Universal (UNI)
                                                  Existencial (EXIS)
                                                  Relativo (REL)
                                                  Interrogativo (INT)

Adjectivo (ADJ)          Adjectivo (A)          Adjectivo (ADJ)
Verbo (V)
                         Verbo (V)              Verbo (V)

Adverbio (ADV)           Adverbio (R)           Preposigao (PREP)
                                                Adverbio (ADV)
                                                  Interrogativo (INTR)
                                                  Subordinativa (SUB)

Conjunfao                Conjuncao (C)          Conjungao (CONJ)
                                                  Coordenada (COOR)

Interjeifao (IN)         Interjeigao (I)
Contracfao (CONT)        Conjunccao (+)         Interjeigao (INT)

Divisao de itens         Elemento de
  multilexicais (MWE)      Locucao (L)

Tabela 2 Correlacoes Lineares (Pearson) entre as Medidas de
Frequencia por Milhao de  Palavras Obtidas no P-PAL,
CETEMPublico, Avante!, DiaCLA VE, Natura-Minho, ECI-EE,
Museu da Pessoa, Vercial e CORLEXpara a Base de Formas
(porcao de cima) e de  Lemas (porcao de baixo)

                P-PAL    CETEM     Avante!   DiaCLAVE
                         Publico

                                formas

P-PAL           --       0,99 *    0,90 *    0,87 *
CETEMPublico    0,99 *   --        0,89 *    0,85 *
Avante!         0,89 *   0,87 *    --        0,99 *
DiaCLAVE        0,88 *   0,86 *    0,99 *    --
Natura/Minho    0,87 *   0,86 *    0,96 *    0,97 *
ECI-EE          0,87 *   0,86 *    0,97 *    0,98 *
Museu Pessoa    0,85 *   0,84 *    0,90 *    0,90 *
Vercial         0,90 *   0,89 *    0,98 *    0,98 *
CORLEX          0,95 *   0,93 *    0,91 *    0,91 *

                                lemas

                Natura/   ECI-EE   Museu    Vercial   CORLEX
                Minho              Pessoa

                                   formas

P-PAL           0,83 *    0,87 *   0,84 *   0,90 *    0,89 *
CETEMPublico    0,82 *    0,86 *   0,82 *   0,87 *    0,87 *
Avante!         0,90 *    0,95 *   0,88 *   0,95 *    0,99 *
DiaCLAVE        0,90 *    0,95 *   0,88 *   0,95 *    0,99 *
Natura/Minho    --        0,89 *   0,75 *   0,80 *    0,88 *
ECI-EE          0,98 *    --       0,81 *   0,88 *    0,95 *
Museu Pessoa    0,86 *    0,85 *   --       0,95 *    0,90 *
Vercial         0,93 *    0,94 *   0,94 *   --        0,96 *
CORLEX          0,90 *    0,89 *   0,85 *   0,91 *    --

                                   lemas

* p < 0,001.
COPYRIGHT 2014 Federal University of Rio Grande do Sul (JFRGS)
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2014 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Title Annotation:articulo en portugues
Author:Soares, Ana Paula; Iriarte, Alvaro; de Almeida, Jose Joao; Simoes, Alberto; Costa, Ana; Franca, Patr
Publication:Psicologia: Reflexao & Critica
Date:Jan 1, 2014
Words:11413
Previous Article:O papel do alerta nas memorias verdadeiras e falsas para informacoes centrais e perifericas.
Next Article:Variaveis que podem interferir no seguir regras de participantes flexiveis e inflexiveis.
Topics:

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters