-Coleta:para a análise de dados ser
satisfatória, a amostragem tem de ser muito vasta e diversificada. Quanto mais
metadados forem coletados em um mesmo habitat, mais ricas e precisas serão as
informações obtidas: por exemplo, se houver alguma espécie dominante no
habitat, e não houver um número de amostras suficiente, a dominância de tal
espécie pode afetar as análises, pois uma representação maior significa uma
maior chance de montar contigs.
-Obtenção de sequências:Uma vez que as amostras
foram coletadas, é preciso isolar o DNA desses exemplares: nessa etapa, o
protocolo utilizado na extração depende do tipo de amostra que está sendo
analisada. Uma vez que o DNA metagenômico foi extraído, ele é clonado (via
reação em cadeia da polimerase – PCR) e os fragmentos amplificados (produtos de
PCR) são inseridos dentro de um vetor que pode ser um plasmídeo, cosmídeo, BAC,
etc.Esses vetores contendo os fragmentos de amplificação são inseridos em
bactérias, num processo chamado de transformação para contruir uma biblioteca
metagenômica. Com a biblioteca pronta, um screening (prospecção) é feito por
clones positivos, que uma vez encontrados são sequenciados.
- Montagem de genomas:A montagem para análises de
metagenômica pode ser fieta de duas maneiras diferentes: ou por um método
chamado de “montagem baseada em
referência” que é feito por algoritmos rápidos como o Newbler, AMOS e o
MIRA e tem como característica principal o fato de as regiões divergentes (como
inserções, deleções e polimorfismos) não são cobertas. O outro método é o de montagem “de novo” que é realizado por
softwares como o Velvet, MetaVelvet, SOAP, etc. Esse método é baseado nos
gráficos de Bruijn, útil na eliminação de erros e repetições.
Mesmo
com algoritmos avançados, a montagem de metagenomas ainda apresenta certas
limitações: como o problema da amostragem ser incompleta acarretando em genomas
incompletos, a formação de quimeras (sequências de espécies diferentes), etc.
Os
algoritmos empregam dois tipos de informações em uma sequência de DNA para
montar genomas : a classificação composicional e a similaridade.
A classificação composicional se baseia
na propriedade que os genomas tem de ter sua composição de nucleotídeos
conservada, portanto isso reflete na composição dos fragmentos de sequência dos
genomas.
- Parâmetros
analisados: o conteúdo de CG, o uso de códons, e sítios de reconhecimento (para
rRNA 5S ou 16S)
- Ferramentas
de boinformática utilizadas: Phylopythia, S-GSCM, TACAO, etc.
A similaridade das sequências, ou seja,
comparam leituras curtas com sequências codificadoras de bancos de dados
públicos e então determina um ancestral
comum mais tardio (LCA) de um organismo alvo.
- Ferramentas utilizadas:
IMG/M, MG-RAST, etc.
-Análise de dados:como as informações em metagenômica são cada vez mais abundantes, banco de
dados são necessários para cobrir as
informações taxonômicas e funcionais, ou seja, para a análise de dados
metagenômicos são necessárias plataformas computacionais complexas combinadas
com programas de pesquisa de similaridade adaptados a esses dados.
- Anotação
metagnômica: pode se dar pela análise
de contigs longos (>30000 pb) ou de contigs curtos.
Análise de contigs curtos:
são necessárias duas fases de análise: a primeira de identificação de possíveis
genes, feita com algortimos como o FragGeneScan, MetaGeneMark, MetaGeneAnotador,
enquanto na segunda fase é atribuída função para o gene e é feito o agrupamento
taxonômico.
Análise via pipeline:
Pipeline é um sistema aberto que trabalha linearmente e que processa
automaticamente as sequências de metagenomas, faz comparações com bases de
dados existentes, computa reconstruções filogenéticas e classifica funcionalmente
potenciais genes, um exemplo de pipeline é o MG-RAST que utiliza bancos de dados como o GO (gene onthology), o
KEGG, entre outros. Outro pipeline utilizado é o CAMERA que oferece um esquema de anotação mais flexível e também
requer o uso do mesmo worflow para análise.
Nenhum comentário:
Postar um comentário