Análise multivarida e correlacões no Genes

Post on 29-Jun-2015

1.704 views 0 download

Transcript of Análise multivarida e correlacões no Genes

Correlações e Análises MultivariadasCorrelações e Análises Multivariadas

Cristiano LemesCristiano Lemes

Análises que serão abordadasAnálises que serão abordadas

• Análise de Variância:Análise de Variância:– Correlações Fenotípica, Genotípica e ResidualCorrelações Fenotípica, Genotípica e Residual

• Correlações: Correlações: – Simples ou de Pearson; Simples ou de Pearson; – Teste MantelTeste Mantel– Correlações de Spearman Correlações de Spearman – Dispersão GráficaDispersão Gráfica

• Análises de TrilhaAnálises de Trilha– Análise de trilha simplesAnálise de trilha simples– Análise de trilha com colinearidade Análise de trilha com colinearidade

Análises que serão abordadasAnálises que serão abordadas• Métodos de Agrupamento:Métodos de Agrupamento:

– Variáveis Canônicas Variáveis Canônicas – Componentes Principais Componentes Principais – Tocher (método de otimização)Tocher (método de otimização)– Correlação cofenética Correlação cofenética – Transformar matriz de similaridade em dissimilaridadeTransformar matriz de similaridade em dissimilaridade

• Dissimilaridade:Dissimilaridade:– Distância Euclidiana (baseada no arquivo de medias)Distância Euclidiana (baseada no arquivo de medias)– Distância Mahalabonis (considera as repetições)Distância Mahalabonis (considera as repetições)

• Bootstrap e ponto de corte em dendogramas.Bootstrap e ponto de corte em dendogramas.

• Dissimilaridade através de marcadores:Dissimilaridade através de marcadores:– morfológicosmorfológicos– molecularesmoleculares– Analise combinada (morfológico+molecular).Analise combinada (morfológico+molecular).

Análise de VariânciaAnálise de VariânciaTem o objetivo de avaliar se as diferenças observadas entre as médias das Tem o objetivo de avaliar se as diferenças observadas entre as médias das

amostras são estatisticamente significantes. amostras são estatisticamente significantes.

- Tabular os dados no Excel;- Tabular os dados no Excel;- Usar PONTO no lugar de VÍRGULA para separar as casas decimais (Ctrl + L - Usar PONTO no lugar de VÍRGULA para separar as casas decimais (Ctrl + L

ou em configurações locais);ou em configurações locais);- De preferência organizar as análises em planilhas do mesmo arquivo;- De preferência organizar as análises em planilhas do mesmo arquivo;

Clicar em “Entrada de dados”Clicar em “Entrada de dados”

Clicar em “NOVO”Clicar em “NOVO”

Colar o conjuto de dados aquiColar o conjuto de dados aqui

Posteriormente salvar isso clicando no Posteriormente salvar isso clicando no local indicado pela setalocal indicado pela seta

Seguir os passos conforme esta inlustrado acima Seguir os passos conforme esta inlustrado acima

Clicar aqui para abrir Clicar aqui para abrir o arquivo a ser o arquivo a ser

analisadoanalisado

Clicar em “Abrir”Clicar em “Abrir”

Abrir o arquivo Abrir o arquivo

Depois de abrir, Depois de abrir, clicar em Sair clicar em Sair

O próximo passo e clicar emO próximo passo e clicar em

““Declaração de Parâmetros” Declaração de Parâmetros”

Completar os itens Completar os itens solicitados conforme os solicitados conforme os dados do experimento a dados do experimento a

ser analisadoser analisado

Em seguida clicar em Em seguida clicar em retornarretornar

Nomear as variaveis a serem Nomear as variaveis a serem analisadasanalisadas

Criar um novo arquivo Criar um novo arquivo com o nome das com o nome das

variáveis variáveis

Clicar em “Nome das Variáveis” e seguir os passos acima ate Clicar em “Nome das Variáveis” e seguir os passos acima ate encontrar o arquivo com o nome das mesmas criado encontrar o arquivo com o nome das mesmas criado

anteriormenteanteriormente

Localizar o arquivo Localizar o arquivo

Posteriormente clicar Posteriormente clicar em finalizarem finalizar

Clicar em “ANOVA” Clicar em “ANOVA” para rodar a análise para rodar a análise

Exportar análise para o Exportar análise para o Excel Excel

Ao final dessa saída da ANOVA Ao final dessa saída da ANOVA encontram-se as matrizes de encontram-se as matrizes de

correlação Fenotípica, correlação Fenotípica, Genotípica e ResidualGenotípica e Residual

Recomenda-se colar essa análise em um nova Recomenda-se colar essa análise em um nova planilha do arquivo original dos dados planilha do arquivo original dos dados

- Em seguida voltar ao Genes e clicar em “Finalizar” análise- Em seguida voltar ao Genes e clicar em “Finalizar” análise

- Salvar as matrizes de interesse que estao disponíveis para - Salvar as matrizes de interesse que estao disponíveis para serem usada em análises posteriores serem usada em análises posteriores

- Clicar em “Processar”- Clicar em “Processar”

Pode-se também solicitar Pode-se também solicitar apenas o “Resumo” da Anova apenas o “Resumo” da Anova

CorrelaçõesCorrelaçõesPermite avaliar a magnitude e o sentido Permite avaliar a magnitude e o sentido das relações entre caracteres.das relações entre caracteres.

- Correlações rfe, rge e rre;Correlações rfe, rge e rre;

- Correlações Simples (Pearson): feita a Correlações Simples (Pearson): feita a partir do arquivo de medias, (DAD.med);partir do arquivo de medias, (DAD.med);

-Teste Mantel: permite testar a Teste Mantel: permite testar a significâncias de associações em várias significâncias de associações em várias simulações;simulações;

- Correlação de Spearman: para dados Correlação de Spearman: para dados não paramétricos não paramétricos

Dispersão Gráfica: permite a Dispersão Gráfica: permite a visualização das associações visualização das associações entre caracteres baseado nas entre caracteres baseado nas correlações simples dos correlações simples dos mesmosmesmos

Abrir arquivo de médiasAbrir arquivo de médias

- Declarar ParâmetrosDeclarar Parâmetros

- Dar um nome para o arquivo de Dar um nome para o arquivo de saídasaída

- O campo “Código para Valores O campo “Código para Valores Perdidos” não precisa ser preenchidoPerdidos” não precisa ser preenchido

- RetornarRetornar

- Nomear as variáveis Nomear as variáveis

Na sequência clicar em “Processar”Na sequência clicar em “Processar”

Clicar em “OK” na janela que aparece depoisClicar em “OK” na janela que aparece depois

Encontrar o menor valor Encontrar o menor valor de correlação significativo de correlação significativo para o nível de para o nível de sgnificância adotado. sgnificância adotado.

- Encontrar o arquivo de Saída - Encontrar o arquivo de Saída

- Exportá-lo para o Excel- Exportá-lo para o Excel

Teste Mantel Teste Mantel

Usar o mesmo arquivo de médias para rodar o teste MantelUsar o mesmo arquivo de médias para rodar o teste Mantel

- Nomear um arquivo de saída- Nomear um arquivo de saída

-Definir um número de Definir um número de simulaçõessimulações

- ProcessarProcessar

Correlação de SpearmanCorrelação de Spearman

- Usar o mesmo arquivo Usar o mesmo arquivo de médias de médias

- Renomear o arquivo de Renomear o arquivo de saídasaída

- Localizar o arquivo de saida e Localizar o arquivo de saida e exportá-lo para o Excelexportá-lo para o Excel

- Formatar os dadosFormatar os dados

- Identificar cada coluna com suas Identificar cada coluna com suas respectivas variáveis respectivas variáveis

SpearmanSpearman

PearsonPearson

Dispersão GráficaDispersão Gráfica

Usar o mesmo arquivo de médias para visualizar a dispersão gráficaUsar o mesmo arquivo de médias para visualizar a dispersão gráfica

Análise de TrilhaAnálise de Trilha

Analisa o efeito direto de uma variável independente (x) sobre uma variável dependente (y) após a remoção da influência de todas as

outras variáveis independentes (xi) incluídas na análise.

Abrir o arquivo de correlações fenotípicas “rfe.dat”Abrir o arquivo de correlações fenotípicas “rfe.dat”

-Declarar Parâmetros Declarar Parâmetros

- Informar o número variáveis do arquivo “rfe.dat”Informar o número variáveis do arquivo “rfe.dat”

- Nomear as variáveis Nomear as variáveis

-Clicar em “Processar”Clicar em “Processar”

- Informar as Variáveis e em seguida clicar em “Prosseguir”Informar as Variáveis e em seguida clicar em “Prosseguir”

- Analisar o arquivo de saídaAnalisar o arquivo de saída

- Exportá-lo para o ExcelExportá-lo para o Excel

Análise de Trilha com ColineariedadeAnálise de Trilha com Colineariedade

Abrir o arquivo de correlações fenotípicas “rfe.dat”Abrir o arquivo de correlações fenotípicas “rfe.dat”

-Declarar Parâmetros Declarar Parâmetros

- Informar o número variáveis Informar o número variáveis do arquivo “rfe.dat”do arquivo “rfe.dat”

- Nomear as variáveis Nomear as variáveis

Deve-se escolher o menor valor de “K” para o qual a maioria dos coeficientes Deve-se escolher o menor valor de “K” para o qual a maioria dos coeficientes de trilha, associados aos vários caracteres esteje estabilizado.de trilha, associados aos vários caracteres esteje estabilizado.

Variáveis CanônicasVariáveis Canônicas- Técnica de Dispersão GráficaTécnica de Dispersão Gráfica- exige experimento com delineamento experimental (repetições)exige experimento com delineamento experimental (repetições)- Para serem representativos as 2 primeiras variáveis devem explicar Para serem representativos as 2 primeiras variáveis devem explicar

pelo menos 80% da variação original dos dados;pelo menos 80% da variação original dos dados;

- Abrir arquivo de médiasAbrir arquivo de médias

- Em “Dispersão” completar com o “cre”Em “Dispersão” completar com o “cre”

- Declarar o número de variáveisDeclarar o número de variáveis

- Nomear variáveisNomear variáveis

Nesse caso Nesse caso as 2 as 2

primeiras primeiras variáveis variáveis explicam explicam mais de mais de 80% da 80% da variação variação

original dos original dos dadosdados

Componentes Principais Componentes Principais - Técnica de Dispersão GráficaTécnica de Dispersão Gráfica- Permitem a identificação da divergência genéticaPermitem a identificação da divergência genética- Não exige experimentos com delineamento experimental (usa-se apenas o arquivo de médias)Não exige experimentos com delineamento experimental (usa-se apenas o arquivo de médias)- Para ser representativo os 2 primeiros componentes devem explicar pelo menos 80% da Para ser representativo os 2 primeiros componentes devem explicar pelo menos 80% da

variação original dos dados.variação original dos dados.

Nesse caso os Nesse caso os 2 primeiros 2 primeiros

componentes componentes explicam explicam

mais de 80% mais de 80% da variação da variação original dos original dos

dadosdados

TocherTocher- Método de AgrupamentoMétodo de Agrupamento

- A média das medidas de distância dentro de cada grupo deve ser menor A média das medidas de distância dentro de cada grupo deve ser menor do que as distâncias médias entre quaisquer grupodo que as distâncias médias entre quaisquer grupo

- Não permite comparar acessos dentro do mesmo do mesmo grupoNão permite comparar acessos dentro do mesmo do mesmo grupo

Dissimilaridade - Distância de EuclidianaDissimilaridade - Distância de Euclidiana- Experimentos que não contemplam delineamentoExperimentos que não contemplam delineamento

- Análise feita apartir do arquivo de médiasAnálise feita apartir do arquivo de médias

- Matriz de Distância Genética ou dendogramasMatriz de Distância Genética ou dendogramas

- Saída do DendogramaSaída do Dendograma

- Desvantagem do Genes, ausência de mecanismos de formataçãoDesvantagem do Genes, ausência de mecanismos de formatação

Dissimilaridade - Distância de MahalanobisDissimilaridade - Distância de Mahalanobis- Leva em conta as variâncias e covariâncias e correlações residuais - Leva em conta as variâncias e covariâncias e correlações residuais

entre os caracteres aferidos.entre os caracteres aferidos.

- Considera as repetições experimentais- Considera as repetições experimentais

-Nomear as VariáveisNomear as Variáveis

- Gerar MatrizGerar Matriz

-Processar AgrupamentoProcessar Agrupamento

-Fazer BootstrapFazer Bootstrap

-Testa a consistência das bifurcações em porcentagem a partir de um Testa a consistência das bifurcações em porcentagem a partir de um número determinado de simulaçõesnúmero determinado de simulações

Contribuição Relativa dos Caracteres – Singh 1981Contribuição Relativa dos Caracteres – Singh 1981

Identificação dos caracteres que mais contribuíram para a Identificação dos caracteres que mais contribuíram para a

dissimilaridade genéticadissimilaridade genética

Dendograma gerado a partir da matriz de distância de MahalanobisDendograma gerado a partir da matriz de distância de Mahalanobis

Correlação Cofenética Correlação Cofenética Mede a correlação (ajuste) entre a matriz de distância original e as distâncias Mede a correlação (ajuste) entre a matriz de distância original e as distâncias apresentadas no dendrograma.apresentadas no dendrograma.

Muito importante quando são realizadas inferências com base no Muito importante quando são realizadas inferências com base no dendrogramadendrograma

Abrir a “matriz de distância genética” que se deseja analisar Abrir a “matriz de distância genética” que se deseja analisar

Cosntruindo dendogramas no NtsysCosntruindo dendogramas no Ntsys

- Abrir a “matriz de distância - Abrir a “matriz de distância genética” no Genes genética” no Genes

- Exportá-lo para o Excel Exportá-lo para o Excel

- Formatá-lo conforme o Formatá-lo conforme o modelo ao ladomodelo ao lado

- - No NTSYS, em No NTSYS, em clusteringclustering, clicar em , clicar em SAHNSAHN, e no , e no Imput fileImput file abrir a matriz de abrir a matriz de

dissimilaridade (Excel)dissimilaridade (Excel)- -

No No output tree fileoutput tree file, digitar , digitar um nome de saída um nome de saída

(exemplo DE = (exemplo DE = dendrograma) dendrograma)

Em Em Clustering methodsClustering methods deixar UPGMAdeixar UPGMA; aí ; aí pedir para rodar (Compute), Com isso vai pedir para rodar (Compute), Com isso vai abrir uma janela de escritas que pode ser abrir uma janela de escritas que pode ser

fechada, e após deves buscar no canto fechada, e após deves buscar no canto inferior esquerdo da janela uma figura inferior esquerdo da janela uma figura pequena em forma de dendrograma: pequena em forma de dendrograma:

Clicando nela aparece a FIGURA que pode Clicando nela aparece a FIGURA que pode ser formatada conforme interesse, sendo ser formatada conforme interesse, sendo

salva formato salva formato metafilemetafile..

Conforme exposto acima, o programa Ntsys possui vários Conforme exposto acima, o programa Ntsys possui vários mecanismos que podem ser ajustados para formatar os mecanismos que podem ser ajustados para formatar os

dendogramas da mais adequada a cada situaçãodendogramas da mais adequada a cada situação

Dendograma feito no NtsysDendograma feito no Ntsys

Matriz Mahalanobis - NtsysMatriz Mahalanobis - Ntsys

Idem passos anteriores para Idem passos anteriores para construção do dendograma a partir construção do dendograma a partir da matriz de Distância Euclidianada matriz de Distância Euclidiana

CCC no NtsysCCC no Ntsys

Lembrar do arquivo de Lembrar do arquivo de saída que foi salvo saída que foi salvo

anteriormenteanteriormente

- Antes de começar o cálculo do CCC refazer analise de dissimilaridade - Antes de começar o cálculo do CCC refazer analise de dissimilaridade no Ntsys, substituindo o nome dos genótipos por letras.no Ntsys, substituindo o nome dos genótipos por letras.

- Calcular a matriz cofenética a partir do dentrograma que foi salvo - Calcular a matriz cofenética a partir do dentrograma que foi salvo (DE). Isto é feito no mesmo local (DE). Isto é feito no mesmo local clusteringclustering, clicar em , clicar em Cophenetic Cophenetic valuesvalues, e em , e em Imput tree fileImput tree file abrir o DE e na abrir o DE e na Output Coph fileOutput Coph file, colocar , colocar um nome de saída (COEF de cofenético). um nome de saída (COEF de cofenético).

- Feito isso clicar em “Compute”.- Feito isso clicar em “Compute”.

-Depois, clicar em -Depois, clicar em Graphics,Graphics, em seguida em em seguida em Matrix comprison plotMatrix comprison plot, e no , e no Input Input file 1 (X)file 1 (X) abrir a matriz de dissimilaridade do Excel, aquela do inicio, e no abrir a matriz de dissimilaridade do Excel, aquela do inicio, e no Input Input file 2 (X)file 2 (X), abrir a matriz cofenética de nome salvo (COEF). , abrir a matriz cofenética de nome salvo (COEF). - No - No Input file 3 (X)Input file 3 (X) não vai nada. No não vai nada. No Number of permutationsNumber of permutations, digitar 1000. , digitar 1000. (feito isso pedir para rodar). Vai abrir um gráfico que quando fechado aparece (feito isso pedir para rodar). Vai abrir um gráfico que quando fechado aparece uma janela de escritas, e em uma delas aparece o valor da correlação entre as uma janela de escritas, e em uma delas aparece o valor da correlação entre as matrizes e que é o valor cofenético.matrizes e que é o valor cofenético.

Cálculo de Similaridade Genética a partir de Cálculo de Similaridade Genética a partir de Marcadores MolecularesMarcadores Moleculares

- Juntar todos os marcadores polimórficos em única planilha do Excel - Juntar todos os marcadores polimórficos em única planilha do Excel

- Colocar nome dos genótipos e números de códigos (exemplo 1=cálculo - Colocar nome dos genótipos e números de códigos (exemplo 1=cálculo da similaridade; 10=número de genótipos; 182=número de da similaridade; 10=número de genótipos; 182=número de marcadores utilizados)marcadores utilizados)

- No NTSYS: entrar em - No NTSYS: entrar em SimilaritySimilarity, depois em , depois em quantitative date quantitative date e e no Input file one buscar a planilha de dados do Excel com os no Input file one buscar a planilha de dados do Excel com os códigos, genótipos e marcadores.códigos, genótipos e marcadores.- Deixar clicado - Deixar clicado X em By rows, Coefficient X em By rows, Coefficient clicar em clicar em DICEDICE, e em , e em Output file escrever qualquer nome de saída do arquivo de Output file escrever qualquer nome de saída do arquivo de similaridade (só escrever o nome que ele salva no mesmo lugar similaridade (só escrever o nome que ele salva no mesmo lugar que foi buscada a planilha de dados anterior. que foi buscada a planilha de dados anterior. - Rodar a análise - Rodar a análise (compute)(compute)

Transformá-la em Transformá-la em dissimilaridade genética dissimilaridade genética (1 menos os valores de (1 menos os valores de

similaridade que abrirem similaridade que abrirem

Após, sem números em Após, sem números em formato de fórmula, inserir uma formato de fórmula, inserir uma coluna e duas linhas, colocando coluna e duas linhas, colocando o nome dos genótipos em forma o nome dos genótipos em forma de matriz, porém, nas primeiras de matriz, porém, nas primeiras

três células da linha digitar os três células da linha digitar os códigos: 2=indica cálculo de códigos: 2=indica cálculo de

dissimilaridade, 10 e 10= dissimilaridade, 10 e 10= indicam a dimensão da matriz.indicam a dimensão da matriz.