ESALQ - Perl em Bioinformática
Um projeto no ESALQ (Escola Superior de Agricultura Luis de
Queiroz)/USP, no departamento de fitopatologia, no laboratório de
genética molecular, tinha como objetivo encontrar genes comparando
duas bactérias, leifsonya xyli xyli, e leifsonya xyli cynodontis,
para tentar encontrar genes que pudessem ajudar a resolver uma doença
em cana-de-açúcar.
André Garcia Carneiro, então pesquisador do ESALQ, conta: "Nós
usávamos um pacote pronto de software para a montagem das
sequências, que se chamava Phred / Phrap / Consed, que fazia uma
pré-organização dos arquivos em formato FASTA, e tinha um modo
gráfico (Consed) que ajudava a
visualizar essas montagens, para identificar 'falhas' nas sequências de montagens, que teriam que ser corrigidas. Essas falhas são conhecidas como 'gaps'. Eventualmente, utilizávamos outro sistema para fazer as montagens, que era compatível com o Consed, ou seja, as sequências que ele geravam poderiam ser visualizadas no Consed, graças ao formato FASTA.
Para resolver o problema dos 'gaps'(um dos problemas mais comuns), utilizávamos
um sistema de banco de dados de genomas público (
GeneBank? ), onde
submetíamos parte das sequências 'problemáticas' para que ele nos retornassem outros
arquivos FASTA, para completar as sequencias (não necessariamente dos
mesmos organismos). Inicialmente, fazia isso de forma manual,
utilizando o site, através de um sistema chamado BLAST. O Blast,
basicamente recebia a sequência que eu passava para ele e retornava
arquivos FASTA que possivelmente poderiam ser úteis. Para medir isso,
existem vários parâmetros de 'erro' e porcentagens de 'match', que
tinha que observar para completar a montagens das sequências.
Inicialmente eu fazia isso utilizando ferramentas públicas de pesquisa
no próprio site do Gene Bank e em outros sites, mas isso era
trabalhoso, e tedioso, até que descobri o BioPerl, que permitiu automatizar boa parte do processo."
O BioPerl é um projeto que reúne inúmeras ferramentas úteis para quem
trabalha com bioinformática, sendo que uma delas é o módulo para
tratar arquivos FASTA, e para se comunicar com bancos de dados que tem
interface com o BLAST. "Isto facilitou muito a minha vida e permitiu
que eu conseguisse fazer diversas ferramentas de auxílio à montagens e monitoramento das
montagens que os pesquisadores me pediam" conta André. "Como perl tem
um motor excelente para tratar expressões regulares, e diversos
parsers disponíveis, e uma imensidão de módulos no CPAN, utiliza-se
perl nesse meio para praticamente tudo. Desde o processamento de
sequências, até visualização de imagens, banco de dados, documentação
com LATEX, enfim... perl oferece um 'leque' de soluções robustas, maduras(já que sempre se usou Perl para resolver problemas de bioinformática), eficientes e extremamente abrangentes para resolver problemas relacionados com bioinformática, não só por ser bom para lidar com arquivos texto, mas pela variedade de soluções a diversos problemas, inclusive que envolve processamento de textos. "