Pesquisa

Home
Ensino
Pesquisa
Publicações
Formação
Outros Links
CV Lattes
Contato

Projetos de Pesquisa & Desenvolvimento

 

Venho atuando, principalmente, na área de Lingüística Computacional, com projetos nas seguintes subáreas:

  •  Tradução automática (UNL, XUNL, PULØ, EPT-WEB, UNLWordNet, Crátilo);

  •  Recuperação e extração de informações em páginas da Web (Tropologicum, Crisol, Irene, UNL-EOLSS Interface);

  •  Revisão gramatical automática (ReGra, Pasquale Explica); 

  •  Análise de língua natural (Curupira, Hermeto); e

  •  Recursos para o tratamento computacional da língua portuguesa (Diadorim, Frasemário, PLN-BR).

Subsidiariamente, atuo também na área de Ensino-Aprendizagem de Língua Materna na Educação Básica, com projetos relacionados ao mapeamento e à análise das práticas de ensino de Língua Portuguesa no ensino fundamental e no ensino médio (Arcalabouço, Escoloscópio, Catiti).

 

Projetos em desenvolvimento (em ordem alfabética)

Projetos desenvolvidos (em ordem alfabética)


Arcalabouço

 

O projeto ARCALABOUÇO se propõe a analisar as relações epistemológicas entre Linguística e Linguística Computacional. O projeto procura investigar a apropriação, por cientistas da computação, de categorias descritivas desenvolvidas por cientistas da linguagem, de forma a mimetizar, na máquina, o comportamento linguístico humano. Em sua primeira edição, o projeto está especificamente voltado para o domínio da Tradução Automática, em que o sucesso recente de modelos de base puramente estatística (ou seja, sem vínculo com a Linguística) tem problematizado a pertinência e a relevância de uma interface entre as ciências da linguagem e as ciências da computação.

Apoio:

 

Voltar


Catiti (2008)

 

O projeto CATITI foi um projeto de pesquisa e extensão educacional mantido pela Coordenação do Curso de Letras da Universidade Presbiteriana Mackenzie, em parceria com os professores responsáveis pelas disciplinas de Metodologia do Ensino de Língua Portuguesa e de Estágio Supervisionado em Língua Portuguesa. O objetivo geral do projeto era a modelagem, a implementação, o povoamento e a anotação do Catiti, repositório formado exclusivamente por textos produzidos, em língua portuguesa, por adolescentes de 11 a 18 anos, matriculados na rede pública ou particular de ensino do município de São Paulo. Os textos, produzidos a partir de uma mesma proposta e armazenados em uma base eletrônica de documentos, foram coletados, digitados, digitalizados, analisados e avaliados por alunos estagiários de Letras, de forma a compor um corpus de análise apropriável para a investigação das práticas de textualização efetivamente mobilizadas por jovens em processo de escolarização básica. Esperava-se, do Catiti, que viesse a permitir o acompanhamento transversal e longitudinal do desempenho textual de estudantes paulistanos; que viesse a subsidiar trabalhos de conclusão do curso de Letras voltados para a análise da produção escrita em língua materna; e que viesse a contribuir para a formulação de políticas de aperfeiçoamento das práticas de leitura e produção de textos na educação básica. O projeto foi descontinuado desde que deixei a coordenação do Curso, em setembro de 2008.

 

Voltar


Crátilo (2006-2008) (Fapesp 05/04410-2)

 

O projeto visou ao desenvolvimento dos recursos lingüístico-computacionais (dicionário e gramática) necessários para a geração automática, em língua portuguesa, de uma versão do Crátilo, de Platão, produzida em Universal Networking Language (UNL). O projeto foi subdividido em duas diferentes etapas: (1) a codificação humana, de inglês para UNL, da versão do diálogo platônico traduzida diretamente do grego por Benjamin Jovett; e (2) a decodificação automática, de UNL para português, da versão derivada de (1). Para o primeiro movimento, todo o texto foi representado, manualmente, em UNL, constituindo um hipergrafo, em que os itens lexicais da língua inglesa corresponderam a nodos (Universal Words), e as relações de dependência entre os nodos foram expressas por meio de relações binárias orientadas retiradas do repertório dos casos semânticos previstos na versão 2005 da especificação UNL. Adicionalmente, os nodos foram anotados por atributos específicos, responsáveis pela veiculação de informações de natureza dêitica. O segundo movimento envolveu a especificação e a implementação do dicionário e da gramática de geração UNL-português, que serviram de parâmetros para o processo de decodificação automática, de UNL para o português, segundo os protocolos de desenvolvimento de recursos lingüístico-computacionais sugeridos pela UNDL Foundation.

Apoio:

 

Voltar


Crisol

O projeto Crisol, em desenvolvimento, é uma seqüência do Tropologicum, desenvolvido no biênio 2006-2007. O objetivo é novamente o desenvolvimento de uma interface gráfica para o refinamento de buscas em páginas da Web produzidas em português do Brasil. Diferentemente do Tropologicum, cujos resultados são apresentados em formato de estrutura arbórea e de árvore, o Crisol busca retextualizar os dados fornecidos pelos motores de busca, de forma a ampliar e a aperfeiçoar as possibilidades de navegação dos usuários.

 

Apoio:

 

Voltar


Curupira (2002-2004)

 

O projeto CURUPIRA teve por objetivo o desenvolvimento de um analisador sintático automático para o português do Brasil, resultado da emancipação do parser embutido no Projeto ReGra.

 

Apoio:

 

 

Voltar


Diadorim (2000-2002) (Fapesp 00/03294)

 

O projeto DIADORIM, desenvolvido entre 2000 e 2002, com apoio FAPESP (Proc. 00/03294), teve por objetivo o desenvolvimento de uma base de dados lexicais para o português do Brasil, cujos resultados finais podem ser verificados em consulta à plataforma disponibilizada em http://www.nilc.icmc.usp.br:8800/Comeco.asp.

 

Apoio:

 

 

Voltar


Escoloscópio

 

O projeto ESCOLOSCÓPIO tem por objetivo geral o recenseamento das práticas de ensino de língua portuguesa, de língua estrangeira e de literatura na rede pública e particular da mesorregião sul do estado de Minas Gerais. Seu objetivo específico é o povoamento de uma base eletrônica de dados que possa servir de corpus de investigação para os alunos de graduação e de pós-graduação da Universidade do Vale do Sapucaí.

.

Apoio:

 

Voltar


EPT-WEB (2002-2005) (CNPq 551485/2001-9)

 

O projeto EPT-WEB teve por objetivo a construção de um sistema de tradução automática bilíngüe unidirecional (de inglês para português), baseado em interlíngua (UNL), especializado em manchetes e lides da primeira página de um diário americano, o The New York Times. O sistema foi batizado de POLICARPO, e teve apoio do CPNq (Proc. # 551485/2001-9).

Apoio:

Logomarca CNPq

 

Voltar


Frasemário

 

O projeto FRASEMÁRIO tem por objetivo o povoamento de uma base de combinatórias lexicais do português brasileiro. O projeto pretende compilar frasemas completos (expressões idiomáticas), semifrasemas (colocações) e quasifrasemas (lexias complexas), de forma a reunir expressões fixas que, em razão de sua singularidade semântica, tornam-se relativamente autônomas e recorrentes no uso da língua. As entradas vêm sendo compiladas por  alunos de Letras, que associam, a cada verbete, a freqüência de ocorrência no Google; o estatuto de dicionarização (considerados os dicionários Aurélio e Houaiss); a classificação; a definição; a  abonação; e a análise. 

 

Voltar


Hermeto (2004-2006)

 

O projeto HERMETO visou ao desenvolvimento de uma ferramenta de análise semântica de enunciados produzidos em língua natural. A ferramenta aceitava, como dados de entrada, sentenças em inglês ou português, para as quais provia a representação em notação UNL. O HERMETO constituía, originalmente, um dos módulos de dois outros sistemas de tradução automática que vinham sendo desenvolvidos no âmbito do NILC: o Projeto PULØ e o Projeto EPT-WEB. No entanto, e em face da complexidade do processo de análise, terminou por constituir uma plataforma autônoma, capaz de converter quaisquer estruturas de dados do tipo lista (como a estrutura superficial das sentenças das línguas naturais) em estruturas de dados do tipo rede (como a representação em UNL).

Apoio:

 

Voltar


Irene (in English)

 

O projeto IRENE (Information Retriever and Extractor for Named Entities) visa ao desenvolvimento de uma enciclopédia dinâmica especializada em nomes próprios (antropônimos e topônimos, principalmente), cujos dados seriam extraídos, em tempo real, dos resultados dos motores de busca.

 

Apoio:

 

Voltar


letras.etc.br

 

O projeto letras.etc.br - de pesquisa e de extensão educacional - tem por objetivo geral o mapeamento da área de Letras, aqui entendida como um território sociodiscursivo colonizado por mais de um milhão de profissionais ou quase-profissionais brasileiros. Nossos objetivos específicos estão relacionados à reconstituição das condições sócio-históricas de produção de Letras como área do conhecimento, como curso de nível superior e como campo de atuação profissional. Partimos do pressuposto de que a área de Letras, como lugar de produção, de circulação e de aplicação do conhecimento sobre a língua e a literatura, é produto sócio-histórico de uma formação ideológica específica, que forja uma identidade técnico-científica que não apenas "profissionaliza" os profissionais da área e impõe-lhes a delimitação de seus objetos, de seus objetivos, de seus métodos e de suas demais práticas - que instala, pois, o "repetível" de Letras -, mas que faz com que se reconheçam como tal, ou seja, como "profissionais" e como "de Letras", em oposição a outras possíveis categorizações e filiações.

Apoio:

 

Voltar

 


Macklecto (2007-2008)

 

O projeto MackLecto, desenvolvido como parte da prática de ensino da disciplina de Sociolingüística, teve por objetivo a análise sociolingüística de depoimentos orais de alunos regularmente matriculados em cursos de graduação da Universidade Presbiteriana Mackenzie. O projeto, que acompanhou os protocolos de investigação propostos pela teoria da variação e da mudança lingüística (sociolingüística variacionista), envolveu a gravação de depoimentos de pelo menos 3 minutos de duração de universitários dos mais diferentes cursos de graduação, sem restrições em relação a sexo, idade, origem e formação; a transcrição dos depoimentos segundo as regras do Projeto NURC; a identificação, no corpus transcrito, de fenômenos em variação; o envelopamento da variação, com a determinação da variável e das variantes; a determinação dos fatores condicionares da variação; e o encaixamento (lingüístico ou extralingüístico) da variável.  

 

Voltar


Pasquale Explica (2004)

 

O projeto Pasquale Explica teve por objetivo o desenvolvimento de um sistema de processamento de requisições de busca sobre tópicos gramaticais, de forma a remeter o usuário a textos explicativos específicos  (gravações de áudio de Pasquale Cipro Neto) que versavam sobre pontos de gramática normativa da língua portuguesa. O módulo integrou um sistema lançado comercialmente em 2005 com o título de Pasquale Explica.

 

 

Apoio:

 

 

Voltar


PLN-BR (2006-2007) (CNPq 550388/2005-2)

 

O projeto Recursos e Ferramentas para a Recuperação de Informação em Bases Textuais em Português do Brasil teve por objetivo geral a construção de um espaço interinstitucional de interação e intercâmbio de práticas de análise e investigação lingüístico-computacional acerca da representação e da recuperação de informação de natureza semântica e pragmático-discursiva veiculada por enunciados produzidos em português brasileiro. Subdividido em 7 subprojetos relativamente autônomos, mas que compartilhavam o mesmo ponto de partida - qual seja, o tratamento da informação mobilizada em um mesmo corpus do português do Brasil - o  projeto vinculou pesquisadores vinculados à Universidade de São Paulo (USP), campus de São Carlos; à Universidade Federal de São Carlos (UFSCar); à Universidade Estadual Paulista (UNESP), campus de Araraquara; à Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS); à Pontifícia Universidade Católica do Rio de Janeiro (PUCRJ); à Universidade do Vale do Rio dos Sinos (UNISINOS); e à Universidade Presbiteriana Mackenzie.

Apoio:

Logomarca CNPq

 

 

 

Voltar


PULØ (2002-2003)

 

O projeto PULØ (Portuguese-UNL-LIST deOralizer) visou ao desenvolvimento de um sistema de tradução automática bimodal entre uma língua oral-auditiva e uma representação pró-gestual-visual. O projeto visava à tradução, de forma unidirecional, de uma sentença de partida em português a uma sentença de chegada em LIST, versão linearizada de libras, a língua brasileira de sinais.

 

Apoio:

 

 

Voltar


Regra (1993-2008)

 

O projeto ReGra teve por objetivo o desenvolvimento de um aconselhador ortográfico e de um revisor gramatical e de estilo para o português brasileiro. O Projeto, parceria da USP com a Itautec-Philco, foi desenvolvido no período de 1993 a 2008, e resultou no desenvolvimento de um produto que, em 2000, foi licenciado para a Microsoft e incorporado às suas ferramentas de auxílio à escrita. O projeto teve o apoio de várias agências de fomento: entre 1997 e 1998, foi co-financiado pela FAPESP (PITE, Proc. 97/02608-1); entre 1999 e 2001, contou com o apoio da FINEP (PADCT-CE, Proc. 88-98-059100-02-01); e em 2001 voltou a ter apoio da FAFESP (PITE, Proc. 00/10688-0). O projeto recebeu também dois prêmios: Peão da Tecnologia (1998), concedido pela Fundação Parque de Alta Tecnologia de São Carlos; e Inovação Tecnológica (1999), concedido pela Alcatel.

Apoio:

Logomarca CNPq

 

Voltar


Tropologicum (2006-2007)

 

O objetivo geral deste projeto foi o desenvolvimento de uma interface gráfica para o refinamento de buscas em páginas da Web produzidas em português do Brasil. Esta interface, batizada de TROPOLOGICUM pelo seu caráter simultaneamente figurativo (tropo) e lingüístico (lógico), processa a requisição e os parâmetros de busca fornecidos pelo usuário; envia-os aos motores de busca já existentes (como o Google e o Yahoo); recupera e processa lingüisticamente os resultados, de forma a extrair o feixe de relações sintático-semânticas que envolvem o termo objeto da busca; povoa, a partir dos resultados obtidos, uma base de conhecimentos específica para o termo investigado; e exibe os resultados por meio de uma representação gráfica navegável de árvore hiperbólica, a partir da qual o usuário pode determinar, com mais precisão, qual das instanciações do termo mais se aproxima do seu objeto de investigação. O sistema torna mais intuitivos e visualmente atraentes os mecanismos de refinamento de busca hoje existentes, muitos dos quais ainda requerem a manipulação de operadores booleanos; agrega inteligência lingüística ao processo, permitindo a constituição de diferenciais hoje não observados, como a clara identificação da classe gramatical do item, além de eventuais flexões e variantes lingüísticas; e oferece a possibilidade de construção de filtros semânticos (por domínio e conteúdo) que tendem a tornar mais exatos e menos dispendiosos os processos de localização de informação.

Apoio:

 

Voltar


Universal Networking Language (1996-) (in English)

 

O projeto UNL tem por objetivo o desenvolvimento de sistemas de recuperação de informação e tradução automática baseados em  um formalismo semântico (a Universal Networking Language) que vem sendo desenvolvido, desde 1996, pela Universidade das Nações Unidas (United Nations University), em Tóquio, e, mais recentemente, pela Fundação UNDL, em Genebra, na Suíça. Trata-se de um projeto multilateral, que congrega várias equipes de pesquisa e desenvolvimento espalhadas por todo o mundo, e que compreende, em seu estágio atual, mais de 14 diferentes línguas.

Apoio:

 

Voltar


UNL EOLSS Interface (2006-2007) (in English)

 

O projeto UNL EOLSS Interface teve por objetivo o desenvolvimento de uma plataforma de navegação, de busca e de consulta à EOLSS (Encyclopedia of Life Support Systems). O projeto envolveu a representação dos metadados da EOLSS sob a forma de um grande hipergrafo UNL, cujos nodos correspondiam aos títulos, autores, instituições, cidades e países presentes no compêndio de 16 enciclopédias integradas. O inter-relacionamento dos nodos foi feito por meio de relações binárias orientadas de UNL, e desenvolveu-se, para visualização e exploração da estrutura, uma interface baseada em árvores hiperbólicas. 

Apoio:

 

Voltar


UNL WordNet (2005-2007) (in English)

 

O projeto UNL WordNet teve por objetivo a importação do repositório da WordNet 2.1; sua tradução para UNL; e a representação das relações interlexicais pertinentes por meio de relações binárias orientadas de UNL.

 

 

Apoio:

 

Voltar


XUNL (in English)

 

O projeto XUNL tem por objetivo a revisão da especificação da Universal Networking Language (UNL), alterando sua unidade de representação (da sentença para o enunciado), seus operadores de representação (o conjunto de UWs, relações e atributos) e sua sintaxe de representação (incorporando um esquema XML).

 

Voltar


Home | Ensino | Pesquisa | Publicações | Formação | Outros Links | CV Lattes | Contato

 

Para comentários, sugestões, críticas, dúvidas ou problemas relativos a este site, entre em contato com Ronaldo Martins.

Última atualização em 07/11/2010