Créditos

Léxico do Português Brasileiro

O Léxico do Português Brasileiro nasceu de uma ideia anotada em um postit no começo do meu Doutorado Pleno no Exterior, em Lyon, na França. Faço um Doutorado em psicolinguística, tendo como objetivo investigar o processamento morfológico flexional verbal no português brasileiro, no francês e em bilíngues com português brasileiro como língua materna e francês como língua estrangeira. Comecei as experiências com o francês em 2012, selecionando os estímulos através do corpus Lexique, que oferece informações psicolinguísticas e metalinguísticas para a seleção das palavras (frequencia da forma, número de letras, número de vizinhos, forma invertida, estrutura CVCV, entre outras). Em 2013, quando fui preparar as experiências em português brasileiro, deparei-me com a falta de existência de um corpus psicolinguístico do português brasileiro. Nessa procura, encontrei o site do Linguateca , que disponibiliza uma série de corpora do portuguës, como o NILC, foi neste momento que anotei "fazer o Léxico do Português Brasileiro" em um postit.

Construção do Léxico do Português Brasileiro

Em 2014, com os conceitos organizados, comecei a construção do Léxico do Português Brasileiro, que pode ser dividida em quatro etapas: 1) construção do corpus com as palavras e informações psicolinguística e metalinguísticas, 2) desenvolvimento da página na internet HTML para a interface entre o usuário e o banco de dados, 3) importação do corpus para um banco de dados MySQL em um servidor na internet e, 4) programação funcional em PHP dos recursos e ferramentas do Léxico do Português Brasileiro. Em seguida, criei as demais páginas downloads, ferramentas, atualizações, créditos, etc. Atualmente, tenho trabalhado na página dos motores de geração de pseudopalavras do português brasileiro, assim como na página de linguística estatística.

Versão Alfa

A criação do Léxico do Português Brasileiro foi conceptualizada em três versões: 1) Alfa (2014), 2) Beta (2015) e, 3) Delta (2016). A presente versão Alfa foi inaugurada em 25/03/2014, marcando o nascimento do Léxico do Português Brasileiro e a criação do primeiro corpus psicolinguístico do português brasileiro. A versão Alfa é um corpus ortográfico, com informações processadas a partir das formas ortográficas do português brasileiro. A versão Beta disponibilizará informações: a) fonológicas, b) silábicas e, c) dos lemas. Enfim, a versão Delta oferecerá: a) informações morfológicas, b) informações de alomorfia, c) informações de aquisição da palavra, d) motor de pronúncia das palavras, e, na medida do possível, e) medidas de tempo de reação do reconhecimento de um grande número de palavras e pseudopalavras do português brasileiro, seguindo os modelos dos Lexicon Projects.

Autor

O Léxico do Português Brasileiro está sendo desenvolvido por Gustavo Lopez Estivalet durante a realização de seu Doutorado, financiado com bolsa de Doutorado Pleno no Exterior (GDE) do Programa Ciências sem Fronteiras (CsF) do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), Brasil, entre 2012 e 2016. Gustavo Lopez Estivalet realiza seu Doutorado na França, na cidade de Lyon, na Université Claude Barnard Lyon 1 (UCBL) na École Doctorale de Neurosciences et Cognition (ED NSCo) junto ao Laboratoire sur le Langage, le Cerveau et la Cognition (L2C2), localizado no Institut de Sciences Cognitives (ISC), sendo orientado pela Prof. Dr. Fanny Meunier, que por sua vez são financiados pelo Conseil National de la Recherche Scientifique (CNRS).

Corpus do NILC/São Carlos

O Léxico do Português Brasileiro foi desenvolvido a partir do corpus do Núcleo Interinstitucional de Linguística Computacional (NILC), sediado no Instituto de Ciências Matemáticas e de Computação (ICMC), da Universidade de São Paulo na cidade de São Carlos (USP/São Carlos). O NILC é disponibilizado no site do Linguateca sob a rúbrica Acesso a corpora/Disponibilização de corpora (AC/DC), com acesso aberto e livre sob a rúbrica NILC/São Carlos. A estrutura e os dados quantitativos do NILC são encontrados site do Linguateca sob a rúbrica descrição do corpus do NILC/São Carlos. A descrição completa do NILC é encontrada no site do Linguateca sob a rúbrica descendência do corpus do NILC/São Carlos. Os 13 arquivos (6 arquivos de formas: adjetivos, advérbios, gramaticais, nomes, numerais e verbos; e 7 arquivos de lemas: adjetivos, advérbios, gramaticais, nomes, nomes próprios, numerais e verbos) do NILC foram baixados em formato .txt do site do Linguateca sob as rúbricas listas de formas do corpus NILC/São Carlos e listas de lemas do corpus NILC/São Carlos. Informações pormenorizadas sobre o NILC são obtidas nos artigos:

link Pinheiro, G. M., & Aluísio, S. M. (2003). Corpus NILC: descrição e análise crítica com vistas ao projeto Lacio-Web. Série de Relatórios do Núcleo Interinstitucional de Lingüística Computacional NILC - ICMC - USP. São Carlos, SP: Universidade Federal de São Carlos (UFSCar).
link Maria das Graças Volpe Nunes, Claudete M. Ghiraldelo, Gisele Montilha, Marcelo A. S. Turine, Maria Cristina F. de Oliveira, Ricardo Hasegawa, Ronaldo T. Martins & Osvaldo N. Oliveira Jr. Desenvolvimento de um sistema de revisão gramatical automática para o português do Brasil. In Anais do II Encontro para o Processamento de Português Escrito e Falado (Curitiba, PR, 21-22 de Outubro de 1996), Curitiba: CEFET-PR, pp. 71-80.
link Maria das Graças Volpe Nunes, Fabiano M. Costa Vieira, Cláudia Zavaglia, Cássia R. C. Sossolote, & Josélia Hernandez. A construção de um léxico para o português do Brasil: lições aprendidas e perspectivas. In Anais do II Encontro para o Processamento de Português Escrito e Falado (Curitiba, PR, 21-22 de Outubro de 1996), Curitiba: CEFET-PR, pp. 61-70.

Linguateca

Qual o estatuto jurídico dos documentos, ferramentas e materiais de trabalho disponibilizados pela Linguateca?
"Todo o material que disponibilizamos não é restrito a nenhum grupo e foi autorizado (nos termos em que o disponibilizamos) pelos respectivos autores ou detentores de direitos de autor. De recurso para recurso as condições são diferentes, estando especificadas na documentação de cada um deles. As ferramentas criadas pela Linguateca são disponibilizadas nos termos da Licença pública geral GNU. Há que ter, no entanto, em atenção a diferença fundamental entre o que de facto disponibilizamos e o que é apenas por nós catalogado. No primeiro caso na secção "Acesso a Recursos", no segundo caso na secção "Catálogo de Recursos". As condições de utilização destes últimos devem ser confirmadas junto dos respectivos autores."

Lexique

O Léxico do Português Brasileiro foi inspirado no corpus psicolinguístico do francês Lexique, criado e mantido pelos Prof. Dr. Boris New e Prof. Dr. Cristophe Pallier. O Lexique já ofereceu informações sobre as palavras do francês a uma série de estudos e é um ótimo exemplo de corpus psicolinguístico. A descrição detalhada do Lexique pode ser encontrada no Manuel du Lexique e nos artigos:

link New, B., Pallier, C., Brysbaert, M., & Ferrand, L. (2004). Lexique 2: A new French lexical database. Behavior Research Methods, Instruments, & Computers, 36(3), 516-524. doi: 10.3758/bf03195598.
link Matos, R., Ferrand, L., Pallier, C., & New, B. (2001). Une base de données lexicales du français contemporain sur internet: LEXIQUE™//A lexical database for contemporary french: LEXIQUE™. L'Année Psychologique, 447-462. doi: 10.3406/psy.2001.1341.

Programa e Pacotes R

O Léxico do Português Brasileiro foi desenvolvido com o programa R a partir dos dados linguísticos dos arquivos .txt do NILC. O número de vizinhos ortográficos (Coltheart's N) e a distância de Levenshtein ortográfica (OLD20) foram calculados a partir das funções coltheart.N e old20 disponibilizadas no pacote: vwr desenvolvido pelo Prof. Dr. Emmanuel Keuleers. Uma série de funções do pacote: languageR desenvolvido pelo Prof. Dr. R. Harald Baayen também foram utilizadas no desenvolvimento do Léxico do Português Brasileiro.

Licença Creative Commons

Léxico do Português Brasileiro de Gustavo Lopez Estivalet está licenciado com uma Licença Creative Commons - Atribuição-NãoComercial-CompartilhaIgual 4.0 Internacional.
Baseado no trabalho disponível em http://www.linguateca.pt/acesso/corpus.php?corpus=SAOCARLOS.
Podem estar disponíveis autorizações adicionais às concedidas no âmbito desta licença em http://www.lexicodoportugues.com/credits.php.

Agradecimentos

Para a realização e êxito do Léxico do Português Brasileiro, agradeço ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), pela bolsa de Doutorado Pleno no Exterior (GDE) do Programa Ciências sem Fronteiras (CsF). Agradeço a minha orientadora de doutorado Prof. Dr. Fanny Meunier e ao Prof. Dr. Michel Hoen, que compreenderam a importância do desenvolvimento de um corpus psicolinguístico do português brasileiro. Agradeço às professoras do NILC Prof. Dr. Sandra M. Aluísio e Prof. Dr. Maria das Graças Volpe Nunes pelo auxílio nos materiais, informações e discussões sobre o NILC, assim como o apoio, a motivação e o reconhecimento da realização deste trabalho. Agradeço aos colegas de trabalho Léo Varnet e Emmanuel Trouche pelas discussões dos scripts e algorítmos para o desenvolvimento do Léxico do Português Brasileiro. Agradeço à comunidade de internautas que trabalha com o desenvolvimento de páginas na internet e gerenciamento de banco de dados pelos foruns de discussões e tutoriais disponibilizados. Enfim, agradeço à Prof. Dr. Mailce Borges Mota, e à melhor professora de português Prof. Lise Lopez. Enfim, agradeço à Luanda Lins por compreender a importância deste projeto e minha motivação em realizá-lo. Muito obrigado a todos!

Contato

contato@lexicodoportugues.com