Perl Brasil

Pesquisar

Documentação

Artigos

Planeta

Eventos


FISL 10 - Software Livre, a tecnologia que liberta

Comunidade

r2 - 05 Dec 2008 - AndreCarneiro

ESALQ - Perl em Bioinformática

Um projeto no ESALQ (Escola Superior de Agricultura Luis de Queiroz)/USP, no departamento de fitopatologia, no laboratório de genética molecular, tinha como objetivo encontrar genes comparando duas bactérias, leifsonya xyli xyli, e leifsonya xyli cynodontis, para tentar encontrar genes que pudessem ajudar a resolver uma doença em cana-de-açúcar.

André Garcia Carneiro, então pesquisador do ESALQ, conta: "Nós usávamos um pacote pronto de software para a montagem das sequências, que se chamava Phred / Phrap / Consed, que fazia uma pré-organização dos arquivos em formato FASTA, e tinha um modo gráfico (Consed) que ajudava a visualizar essas montagens, para identificar 'falhas' nas sequências de montagens, que teriam que ser corrigidas. Essas falhas são conhecidas como 'gaps'. Eventualmente, utilizávamos outro sistema para fazer as montagens, que era compatível com o Consed, ou seja, as sequências que ele geravam poderiam ser visualizadas no Consed, graças ao formato FASTA.

Para resolver o problema dos 'gaps'(um dos problemas mais comuns), utilizávamos um sistema de banco de dados de genomas público (GeneBank? ), onde submetíamos parte das sequências 'problemáticas' para que ele nos retornassem outros arquivos FASTA, para completar as sequencias (não necessariamente dos mesmos organismos). Inicialmente, fazia isso de forma manual, utilizando o site, através de um sistema chamado BLAST. O Blast, basicamente recebia a sequência que eu passava para ele e retornava arquivos FASTA que possivelmente poderiam ser úteis. Para medir isso, existem vários parâmetros de 'erro' e porcentagens de 'match', que tinha que observar para completar a montagens das sequências. Inicialmente eu fazia isso utilizando ferramentas públicas de pesquisa no próprio site do Gene Bank e em outros sites, mas isso era trabalhoso, e tedioso, até que descobri o BioPerl, que permitiu automatizar boa parte do processo."

O BioPerl é um projeto que reúne inúmeras ferramentas úteis para quem trabalha com bioinformática, sendo que uma delas é o módulo para tratar arquivos FASTA, e para se comunicar com bancos de dados que tem interface com o BLAST. "Isto facilitou muito a minha vida e permitiu que eu conseguisse fazer diversas ferramentas de auxílio à montagens e monitoramento das montagens que os pesquisadores me pediam" conta André. "Como perl tem um motor excelente para tratar expressões regulares, e diversos parsers disponíveis, e uma imensidão de módulos no CPAN, utiliza-se perl nesse meio para praticamente tudo. Desde o processamento de sequências, até visualização de imagens, banco de dados, documentação com LATEX, enfim... perl oferece um 'leque' de soluções robustas, maduras(já que sempre se usou Perl para resolver problemas de bioinformática), eficientes e extremamente abrangentes para resolver problemas relacionados com bioinformática, não só por ser bom para lidar com arquivos texto, mas pela variedade de soluções a diversos problemas, inclusive que envolve processamento de textos. "