







 |
Venho
atuando, principalmente, na área de Lingüística Computacional,
com projetos nas seguintes subáreas:
-
Tradução
automática (UNL, XUNL, PULØ, EPT-WEB, UNLWordNet, Crátilo);
-
Recuperação
e extração de informações em páginas da Web (Tropologicum,
Crisol, Irene, UNL-EOLSS Interface);
-
Revisão
gramatical automática (ReGra, Pasquale Explica);
-
Análise
de língua natural (Curupira, Hermeto); e
-
Recursos
para o tratamento computacional da língua portuguesa (Diadorim,
Frasemário, PLN-BR).
Subsidiariamente, atuo também na área de Ensino-Aprendizagem de
Língua Materna na Educação Básica, com projetos relacionados ao
mapeamento e à análise das práticas de ensino de Língua Portuguesa
no ensino fundamental e no ensino médio (Arcalabouço, Escoloscópio,
Catiti).
Projetos em desenvolvimento
(em ordem alfabética)
Projetos desenvolvidos (em ordem alfabética)
Arcalabouço
O
projeto ARCALABOUÇO se propõe a analisar as relações epistemológicas
entre Linguística e Linguística Computacional. O projeto procura investigar a
apropriação, por cientistas da computação, de categorias descritivas
desenvolvidas por cientistas da linguagem, de forma a mimetizar, na máquina, o
comportamento linguístico humano. Em sua primeira edição, o projeto está
especificamente voltado para o domínio da Tradução Automática, em que o sucesso
recente de modelos de base puramente estatística (ou seja, sem vínculo com a
Linguística) tem problematizado a pertinência e a relevância de uma interface
entre as ciências da linguagem e as ciências da computação.
Apoio:


Catiti (2008)
O
projeto CATITI
foi um projeto de pesquisa e extensão educacional
mantido pela Coordenação do Curso de Letras da Universidade Presbiteriana
Mackenzie, em parceria com os professores responsáveis pelas disciplinas de
Metodologia do Ensino de Língua Portuguesa e de Estágio Supervisionado em Língua
Portuguesa. O objetivo geral do projeto era a modelagem, a implementação, o
povoamento e a anotação do Catiti, repositório formado exclusivamente por textos
produzidos, em língua portuguesa, por adolescentes de 11 a 18 anos, matriculados
na rede pública ou particular de ensino do município de São Paulo. Os textos,
produzidos a partir de uma mesma proposta e armazenados em
uma base eletrônica de documentos, foram coletados, digitados, digitalizados,
analisados e avaliados por alunos estagiários de Letras, de forma a compor um
corpus de análise apropriável para a investigação das práticas de textualização
efetivamente mobilizadas por jovens em processo de escolarização básica. Esperava-se,
do Catiti, que viesse a permitir o acompanhamento transversal e longitudinal do
desempenho textual de estudantes paulistanos; que viesse a subsidiar trabalhos de
conclusão do curso de Letras voltados para a análise da produção escrita em
língua materna; e que viesse a contribuir para a formulação de políticas de
aperfeiçoamento das práticas de leitura e produção de textos na educação básica.
O projeto foi descontinuado desde que deixei a coordenação do Curso, em setembro
de 2008.

Crátilo (2006-2008)
(Fapesp 05/04410-2)
O
projeto visou ao desenvolvimento dos recursos lingüístico-computacionais (dicionário
e gramática) necessários para a geração automática, em língua portuguesa, de uma
versão do Crátilo, de Platão, produzida em Universal Networking Language (UNL).
O projeto foi subdividido em duas diferentes etapas: (1) a codificação humana,
de inglês para UNL, da versão do diálogo platônico traduzida diretamente do
grego por Benjamin Jovett; e (2) a decodificação automática, de UNL para
português, da versão derivada de (1). Para o primeiro movimento, todo o texto
foi representado, manualmente, em UNL, constituindo um hipergrafo, em que os
itens lexicais da língua inglesa corresponderam a nodos (Universal Words), e as
relações de dependência entre os nodos foram expressas por meio de relações
binárias orientadas retiradas do repertório dos casos semânticos previstos na
versão 2005 da
especificação UNL. Adicionalmente, os nodos foram anotados por atributos
específicos, responsáveis pela veiculação de informações de natureza dêitica. O
segundo movimento envolveu a especificação e a implementação do dicionário e da
gramática de geração UNL-português, que serviram de parâmetros para o processo
de decodificação automática, de UNL para o português, segundo os protocolos de
desenvolvimento de recursos lingüístico-computacionais sugeridos pela UNDL
Foundation.
Apoio:


Crisol

O
projeto Crisol, em desenvolvimento, é uma seqüência do
Tropologicum, desenvolvido no biênio 2006-2007. O objetivo é novamente o
desenvolvimento de uma interface gráfica para o refinamento de buscas em páginas
da Web produzidas em português do Brasil. Diferentemente do Tropologicum, cujos
resultados são apresentados em formato de estrutura arbórea e de árvore, o
Crisol busca retextualizar os dados fornecidos pelos motores de busca, de forma
a ampliar e a aperfeiçoar as possibilidades de navegação dos usuários.
Apoio:


Curupira (2002-2004)
O
projeto
CURUPIRA
teve
por
objetivo
o
desenvolvimento
de
um
analisador
sintático
automático
para
o
português
do Brasil, resultado da
emancipação
do parser
embutido
no
Projeto
ReGra.
Apoio:


Diadorim (2000-2002)
(Fapesp 00/03294)
O
projeto
DIADORIM,
desenvolvido
entre
2000 e 2002,
com
apoio
FAPESP (Proc. 00/03294), teve
por
objetivo
o
desenvolvimento
de uma
base
de
dados
lexicais
para
o
português
do Brasil,
cujos
resultados
finais
podem
ser
verificados
em
consulta à
plataforma
disponibilizada
em
http://www.nilc.icmc.usp.br:8800/Comeco.asp.
Apoio:


Escoloscópio

O projeto ESCOLOSCÓPIO tem por
objetivo geral o recenseamento das práticas de ensino de língua
portuguesa, de língua estrangeira e de literatura na rede pública e
particular da mesorregião sul do estado de Minas Gerais. Seu objetivo específico é o
povoamento de uma base eletrônica de dados que possa servir de
corpus de investigação para os alunos de graduação e de
pós-graduação da Universidade do Vale do Sapucaí.
.
Apoio:


EPT-WEB (2002-2005)
(CNPq 551485/2001-9)
O
projeto
EPT-WEB teve
por
objetivo
a
construção
de
um
sistema
de
tradução
automática
bilíngüe
unidirecional
(de
inglês
para
português),
baseado
em
interlíngua (UNL), especializado
em
manchetes
e
lides
da
primeira
página
de
um
diário
americano,
o The New York
Times.
O
sistema
foi
batizado
de POLICARPO, e teve
apoio
do
CPNq (Proc. #
551485/2001-9).
Apoio:


Frasemário
O
projeto FRASEMÁRIO tem por objetivo o
povoamento de uma base de combinatórias lexicais do português brasileiro. O projeto
pretende compilar frasemas completos (expressões idiomáticas), semifrasemas (colocações)
e quasifrasemas (lexias complexas), de forma a reunir expressões fixas
que, em razão de sua singularidade semântica, tornam-se relativamente autônomas
e recorrentes no uso da língua. As entradas vêm sendo
compiladas por alunos de Letras, que associam, a cada verbete, a freqüência de ocorrência no
Google; o
estatuto de dicionarização (considerados os dicionários Aurélio e Houaiss); a
classificação; a definição; a abonação; e a análise.

Hermeto (2004-2006)
O
projeto
HERMETO
visou
ao
desenvolvimento
de uma
ferramenta
de
análise
semântica
de
enunciados
produzidos
em
língua
natural.
A
ferramenta
aceitava,
como
dados
de
entrada,
sentenças
em
inglês
ou
português,
para
as
quais
provia a
representação
em
notação
UNL. O HERMETO constituía,
originalmente,
um
dos
módulos
de
dois
outros
sistemas
de
tradução
automática
que
vinham sendo
desenvolvidos
no
âmbito
do NILC: o
Projeto
PULØ e o
Projeto
EPT-WEB. No
entanto,
e
em
face
da complexidade do
processo
de
análise,
terminou
por
constituir
uma
plataforma
autônoma,
capaz
de
converter
quaisquer
estruturas
de
dados
do
tipo
lista
(como
a
estrutura
superficial
das
sentenças
das
línguas
naturais)
em
estruturas
de
dados
do
tipo
rede
(como
a
representação
em
UNL).
Apoio:


Irene
(in English)
O
projeto
IRENE (Information
Retriever and Extractor for Named Entities) visa ao desenvolvimento de uma
enciclopédia dinâmica especializada em nomes próprios (antropônimos e topônimos,
principalmente), cujos dados seriam extraídos, em tempo real, dos resultados dos
motores de busca.
Apoio:


letras.etc.br
O
projeto letras.etc.br - de pesquisa e de
extensão educacional - tem por objetivo geral o mapeamento da área de
Letras, aqui entendida como um território sociodiscursivo colonizado por mais de
um milhão de profissionais ou quase-profissionais brasileiros. Nossos objetivos
específicos estão relacionados à reconstituição das condições sócio-históricas
de produção de Letras como área do conhecimento, como curso de nível superior e
como campo de atuação profissional. Partimos do pressuposto de que a área de
Letras, como lugar de produção, de circulação e de aplicação do conhecimento
sobre a língua e a literatura, é produto sócio-histórico de uma formação
ideológica específica, que forja uma identidade técnico-científica que não
apenas "profissionaliza" os profissionais da área e impõe-lhes a delimitação de
seus objetos, de seus objetivos, de seus métodos e de suas demais práticas - que
instala, pois, o "repetível" de Letras -, mas que faz com que se reconheçam como
tal, ou seja, como "profissionais" e como "de Letras", em oposição a outras
possíveis categorizações e filiações.
Apoio:


Macklecto (2007-2008)
O
projeto
MackLecto,
desenvolvido como parte da prática de ensino da disciplina de Sociolingüística,
teve por objetivo a análise sociolingüística de depoimentos orais de alunos
regularmente matriculados em cursos de graduação da Universidade Presbiteriana
Mackenzie. O projeto, que acompanhou os protocolos de investigação propostos pela
teoria da variação e da mudança lingüística (sociolingüística variacionista),
envolveu a gravação de depoimentos de pelo menos 3 minutos de duração
de
universitários dos mais diferentes cursos de graduação, sem restrições em
relação a sexo, idade, origem e formação; a transcrição dos depoimentos segundo
as regras do Projeto NURC; a identificação, no corpus transcrito, de fenômenos
em variação; o envelopamento da variação, com a determinação da variável e das
variantes; a determinação dos fatores condicionares da variação; e o
encaixamento (lingüístico ou extralingüístico) da variável.

Pasquale Explica (2004)
O
projeto Pasquale Explica teve
por objetivo o desenvolvimento de um sistema de processamento de requisições de
busca sobre tópicos gramaticais, de forma a remeter o usuário a textos
explicativos específicos
(gravações
de áudio de Pasquale Cipro Neto) que versavam sobre pontos de gramática
normativa da língua portuguesa. O módulo integrou um sistema lançado
comercialmente em 2005 com o título de Pasquale Explica.
Apoio:


PLN-BR (2006-2007)
(CNPq
550388/2005-2)
O
projeto
Recursos e Ferramentas para a Recuperação de Informação em Bases Textuais em
Português do Brasil teve
por objetivo geral a
construção
de um espaço interinstitucional de interação e intercâmbio de práticas de
análise e investigação lingüístico-computacional acerca da representação e da
recuperação de informação de natureza semântica e pragmático-discursiva
veiculada por enunciados produzidos em português brasileiro. Subdividido em 7
subprojetos relativamente autônomos, mas que compartilhavam o mesmo ponto de
partida - qual seja, o tratamento da informação mobilizada em um mesmo corpus
do português do Brasil - o projeto vinculou pesquisadores vinculados à
Universidade de São Paulo (USP), campus de São Carlos; à Universidade
Federal de São Carlos (UFSCar); à Universidade Estadual Paulista (UNESP),
campus de Araraquara; à Pontifícia Universidade Católica do Rio Grande do
Sul (PUCRS); à Pontifícia Universidade Católica do Rio de Janeiro (PUCRJ); à
Universidade do Vale do Rio dos Sinos (UNISINOS); e à Universidade Presbiteriana
Mackenzie.
Apoio:


PULØ (2002-2003)

O
projeto
PULØ (Portuguese-UNL-LIST deOralizer)
visou
ao
desenvolvimento
de
um
sistema
de
tradução
automática
bimodal entre
uma
língua
oral-auditiva e uma
representação
pró-gestual-visual. O
projeto
visava à tradução,
de
forma
unidirecional,
de
uma
sentença
de
partida
em
português
a uma
sentença
de
chegada
em
LIST,
versão
linearizada de
libras,
a
língua
brasileira
de
sinais.
Apoio:


Regra (1993-2008)
O
projeto
ReGra
teve
por
objetivo
o
desenvolvimento
de
um
aconselhador ortográfico e de
um
revisor
gramatical
e de
estilo
para
o
português
brasileiro.
O
Projeto,
parceria
da USP
com
a Itautec-Philco, foi desenvolvido no período de
1993 a 2008, e resultou no
desenvolvimento
de
um
produto
que,
em
2000, foi
licenciado
para
a Microsoft e incorporado às
suas
ferramentas
de
auxílio
à
escrita.
O
projeto
teve o
apoio
de várias
agências
de
fomento:
entre
1997 e 1998, foi co-financiado
pela
FAPESP (PITE, Proc. 97/02608-1);
entre
1999 e 2001, contou
com
o
apoio
da FINEP (PADCT-CE, Proc. 88-98-059100-02-01); e
em
2001 voltou a
ter
apoio
da FAFESP (PITE, Proc. 00/10688-0). O
projeto
recebeu
também
dois
prêmios:
Peão
da
Tecnologia
(1998), concedido
pela
Fundação
Parque
de
Alta
Tecnologia
de
São
Carlos; e
Inovação
Tecnológica
(1999), concedido
pela
Alcatel.
Apoio:


Tropologicum (2006-2007)

O objetivo geral deste
projeto foi o desenvolvimento de uma interface gráfica para o refinamento de
buscas em páginas da Web produzidas em português do Brasil. Esta interface,
batizada de TROPOLOGICUM pelo seu caráter simultaneamente figurativo (tropo) e
lingüístico (lógico), processa a requisição e os parâmetros de busca fornecidos
pelo usuário; envia-os aos motores de busca já existentes (como o Google e o
Yahoo); recupera e processa lingüisticamente os resultados, de forma a extrair o
feixe de relações sintático-semânticas que envolvem o termo objeto da busca;
povoa, a partir dos resultados obtidos, uma base de conhecimentos específica
para o termo investigado; e exibe os resultados por meio de uma representação
gráfica navegável de árvore hiperbólica, a partir da qual o usuário pode
determinar, com mais precisão, qual das instanciações do termo mais se aproxima
do seu objeto de investigação. O sistema torna mais intuitivos e visualmente
atraentes os mecanismos de refinamento de busca hoje existentes, muitos dos
quais ainda requerem a manipulação de operadores booleanos; agrega inteligência
lingüística ao processo, permitindo a constituição de diferenciais hoje não
observados, como a clara identificação da classe gramatical do item, além de
eventuais flexões e variantes lingüísticas; e oferece a possibilidade de
construção de filtros semânticos (por domínio e conteúdo) que tendem a tornar
mais exatos e menos dispendiosos os processos de localização de informação.
Apoio:


Universal
Networking Language (1996-)
(in English)
O
projeto
UNL tem
por
objetivo
o
desenvolvimento
de
sistemas
de
recuperação
de
informação
e
tradução
automática
baseados
em
um
formalismo
semântico
(a
Universal
Networking Language)
que
vem sendo
desenvolvido,
desde
1996,
pela
Universidade
das
Nações
Unidas (United Nations University),
em
Tóquio, e,
mais
recentemente,
pela
Fundação
UNDL,
em
Genebra,
na
Suíça.
Trata-se de
um
projeto
multilateral,
que
congrega várias
equipes
de
pesquisa
e
desenvolvimento
espalhadas
por
todo
o
mundo,
e
que
compreende,
em
seu
estágio
atual,
mais
de 14
diferentes
línguas.
Apoio:


UNL EOLSS Interface (2006-2007)
(in English)
O
projeto
UNL EOLSS Interface teve por objetivo o desenvolvimento de uma plataforma de
navegação, de busca e de consulta à EOLSS (Encyclopedia of Life Support
Systems). O projeto envolveu a representação dos metadados da EOLSS sob a forma
de um grande hipergrafo UNL, cujos nodos correspondiam aos títulos, autores,
instituições, cidades e países presentes no compêndio de 16 enciclopédias
integradas. O inter-relacionamento dos nodos foi feito por meio de relações
binárias orientadas de UNL, e desenvolveu-se, para visualização e exploração da
estrutura, uma interface baseada em árvores hiperbólicas.
Apoio:


UNL WordNet (2005-2007)
(in English)
O
projeto
UNL WordNet teve por objetivo a importação do repositório da WordNet 2.1;
sua tradução para UNL; e a representação das relações interlexicais pertinentes
por meio de relações binárias orientadas de UNL.
Apoio:


XUNL
(in English)
O
projeto
XUNL tem por objetivo a revisão da
especificação da Universal Networking Language (UNL), alterando sua unidade de
representação (da sentença para o enunciado), seus operadores de representação
(o conjunto de UWs, relações e atributos) e sua sintaxe de representação
(incorporando um esquema XML).

|