Análise multivarida e correlacões no Genes
-
Upload
cristiano-lemes-da-silva -
Category
Data & Analytics
-
view
1.704 -
download
0
Transcript of Análise multivarida e correlacões no Genes
Correlações e Análises MultivariadasCorrelações e Análises Multivariadas
Cristiano LemesCristiano Lemes
Análises que serão abordadasAnálises que serão abordadas
• Análise de Variância:Análise de Variância:– Correlações Fenotípica, Genotípica e ResidualCorrelações Fenotípica, Genotípica e Residual
• Correlações: Correlações: – Simples ou de Pearson; Simples ou de Pearson; – Teste MantelTeste Mantel– Correlações de Spearman Correlações de Spearman – Dispersão GráficaDispersão Gráfica
• Análises de TrilhaAnálises de Trilha– Análise de trilha simplesAnálise de trilha simples– Análise de trilha com colinearidade Análise de trilha com colinearidade
Análises que serão abordadasAnálises que serão abordadas• Métodos de Agrupamento:Métodos de Agrupamento:
– Variáveis Canônicas Variáveis Canônicas – Componentes Principais Componentes Principais – Tocher (método de otimização)Tocher (método de otimização)– Correlação cofenética Correlação cofenética – Transformar matriz de similaridade em dissimilaridadeTransformar matriz de similaridade em dissimilaridade
• Dissimilaridade:Dissimilaridade:– Distância Euclidiana (baseada no arquivo de medias)Distância Euclidiana (baseada no arquivo de medias)– Distância Mahalabonis (considera as repetições)Distância Mahalabonis (considera as repetições)
• Bootstrap e ponto de corte em dendogramas.Bootstrap e ponto de corte em dendogramas.
• Dissimilaridade através de marcadores:Dissimilaridade através de marcadores:– morfológicosmorfológicos– molecularesmoleculares– Analise combinada (morfológico+molecular).Analise combinada (morfológico+molecular).
Análise de VariânciaAnálise de VariânciaTem o objetivo de avaliar se as diferenças observadas entre as médias das Tem o objetivo de avaliar se as diferenças observadas entre as médias das
amostras são estatisticamente significantes. amostras são estatisticamente significantes.
- Tabular os dados no Excel;- Tabular os dados no Excel;- Usar PONTO no lugar de VÍRGULA para separar as casas decimais (Ctrl + L - Usar PONTO no lugar de VÍRGULA para separar as casas decimais (Ctrl + L
ou em configurações locais);ou em configurações locais);- De preferência organizar as análises em planilhas do mesmo arquivo;- De preferência organizar as análises em planilhas do mesmo arquivo;
Clicar em “Entrada de dados”Clicar em “Entrada de dados”
Clicar em “NOVO”Clicar em “NOVO”
Colar o conjuto de dados aquiColar o conjuto de dados aqui
Posteriormente salvar isso clicando no Posteriormente salvar isso clicando no local indicado pela setalocal indicado pela seta
Seguir os passos conforme esta inlustrado acima Seguir os passos conforme esta inlustrado acima
Clicar aqui para abrir Clicar aqui para abrir o arquivo a ser o arquivo a ser
analisadoanalisado
Clicar em “Abrir”Clicar em “Abrir”
Abrir o arquivo Abrir o arquivo
Depois de abrir, Depois de abrir, clicar em Sair clicar em Sair
O próximo passo e clicar emO próximo passo e clicar em
““Declaração de Parâmetros” Declaração de Parâmetros”
Completar os itens Completar os itens solicitados conforme os solicitados conforme os dados do experimento a dados do experimento a
ser analisadoser analisado
Em seguida clicar em Em seguida clicar em retornarretornar
Nomear as variaveis a serem Nomear as variaveis a serem analisadasanalisadas
Criar um novo arquivo Criar um novo arquivo com o nome das com o nome das
variáveis variáveis
Clicar em “Nome das Variáveis” e seguir os passos acima ate Clicar em “Nome das Variáveis” e seguir os passos acima ate encontrar o arquivo com o nome das mesmas criado encontrar o arquivo com o nome das mesmas criado
anteriormenteanteriormente
Localizar o arquivo Localizar o arquivo
Posteriormente clicar Posteriormente clicar em finalizarem finalizar
Clicar em “ANOVA” Clicar em “ANOVA” para rodar a análise para rodar a análise
Exportar análise para o Exportar análise para o Excel Excel
Ao final dessa saída da ANOVA Ao final dessa saída da ANOVA encontram-se as matrizes de encontram-se as matrizes de
correlação Fenotípica, correlação Fenotípica, Genotípica e ResidualGenotípica e Residual
Recomenda-se colar essa análise em um nova Recomenda-se colar essa análise em um nova planilha do arquivo original dos dados planilha do arquivo original dos dados
- Em seguida voltar ao Genes e clicar em “Finalizar” análise- Em seguida voltar ao Genes e clicar em “Finalizar” análise
- Salvar as matrizes de interesse que estao disponíveis para - Salvar as matrizes de interesse que estao disponíveis para serem usada em análises posteriores serem usada em análises posteriores
- Clicar em “Processar”- Clicar em “Processar”
Pode-se também solicitar Pode-se também solicitar apenas o “Resumo” da Anova apenas o “Resumo” da Anova
CorrelaçõesCorrelaçõesPermite avaliar a magnitude e o sentido Permite avaliar a magnitude e o sentido das relações entre caracteres.das relações entre caracteres.
- Correlações rfe, rge e rre;Correlações rfe, rge e rre;
- Correlações Simples (Pearson): feita a Correlações Simples (Pearson): feita a partir do arquivo de medias, (DAD.med);partir do arquivo de medias, (DAD.med);
-Teste Mantel: permite testar a Teste Mantel: permite testar a significâncias de associações em várias significâncias de associações em várias simulações;simulações;
- Correlação de Spearman: para dados Correlação de Spearman: para dados não paramétricos não paramétricos
Dispersão Gráfica: permite a Dispersão Gráfica: permite a visualização das associações visualização das associações entre caracteres baseado nas entre caracteres baseado nas correlações simples dos correlações simples dos mesmosmesmos
Abrir arquivo de médiasAbrir arquivo de médias
- Declarar ParâmetrosDeclarar Parâmetros
- Dar um nome para o arquivo de Dar um nome para o arquivo de saídasaída
- O campo “Código para Valores O campo “Código para Valores Perdidos” não precisa ser preenchidoPerdidos” não precisa ser preenchido
- RetornarRetornar
- Nomear as variáveis Nomear as variáveis
Na sequência clicar em “Processar”Na sequência clicar em “Processar”
Clicar em “OK” na janela que aparece depoisClicar em “OK” na janela que aparece depois
Encontrar o menor valor Encontrar o menor valor de correlação significativo de correlação significativo para o nível de para o nível de sgnificância adotado. sgnificância adotado.
- Encontrar o arquivo de Saída - Encontrar o arquivo de Saída
- Exportá-lo para o Excel- Exportá-lo para o Excel
Teste Mantel Teste Mantel
Usar o mesmo arquivo de médias para rodar o teste MantelUsar o mesmo arquivo de médias para rodar o teste Mantel
- Nomear um arquivo de saída- Nomear um arquivo de saída
-Definir um número de Definir um número de simulaçõessimulações
- ProcessarProcessar
Correlação de SpearmanCorrelação de Spearman
- Usar o mesmo arquivo Usar o mesmo arquivo de médias de médias
- Renomear o arquivo de Renomear o arquivo de saídasaída
- Localizar o arquivo de saida e Localizar o arquivo de saida e exportá-lo para o Excelexportá-lo para o Excel
- Formatar os dadosFormatar os dados
- Identificar cada coluna com suas Identificar cada coluna com suas respectivas variáveis respectivas variáveis
SpearmanSpearman
PearsonPearson
Dispersão GráficaDispersão Gráfica
Usar o mesmo arquivo de médias para visualizar a dispersão gráficaUsar o mesmo arquivo de médias para visualizar a dispersão gráfica
Análise de TrilhaAnálise de Trilha
Analisa o efeito direto de uma variável independente (x) sobre uma variável dependente (y) após a remoção da influência de todas as
outras variáveis independentes (xi) incluídas na análise.
Abrir o arquivo de correlações fenotípicas “rfe.dat”Abrir o arquivo de correlações fenotípicas “rfe.dat”
-Declarar Parâmetros Declarar Parâmetros
- Informar o número variáveis do arquivo “rfe.dat”Informar o número variáveis do arquivo “rfe.dat”
- Nomear as variáveis Nomear as variáveis
-Clicar em “Processar”Clicar em “Processar”
- Informar as Variáveis e em seguida clicar em “Prosseguir”Informar as Variáveis e em seguida clicar em “Prosseguir”
- Analisar o arquivo de saídaAnalisar o arquivo de saída
- Exportá-lo para o ExcelExportá-lo para o Excel
Análise de Trilha com ColineariedadeAnálise de Trilha com Colineariedade
Abrir o arquivo de correlações fenotípicas “rfe.dat”Abrir o arquivo de correlações fenotípicas “rfe.dat”
-Declarar Parâmetros Declarar Parâmetros
- Informar o número variáveis Informar o número variáveis do arquivo “rfe.dat”do arquivo “rfe.dat”
- Nomear as variáveis Nomear as variáveis
Deve-se escolher o menor valor de “K” para o qual a maioria dos coeficientes Deve-se escolher o menor valor de “K” para o qual a maioria dos coeficientes de trilha, associados aos vários caracteres esteje estabilizado.de trilha, associados aos vários caracteres esteje estabilizado.
Variáveis CanônicasVariáveis Canônicas- Técnica de Dispersão GráficaTécnica de Dispersão Gráfica- exige experimento com delineamento experimental (repetições)exige experimento com delineamento experimental (repetições)- Para serem representativos as 2 primeiras variáveis devem explicar Para serem representativos as 2 primeiras variáveis devem explicar
pelo menos 80% da variação original dos dados;pelo menos 80% da variação original dos dados;
- Abrir arquivo de médiasAbrir arquivo de médias
- Em “Dispersão” completar com o “cre”Em “Dispersão” completar com o “cre”
- Declarar o número de variáveisDeclarar o número de variáveis
- Nomear variáveisNomear variáveis
Nesse caso Nesse caso as 2 as 2
primeiras primeiras variáveis variáveis explicam explicam mais de mais de 80% da 80% da variação variação
original dos original dos dadosdados
Componentes Principais Componentes Principais - Técnica de Dispersão GráficaTécnica de Dispersão Gráfica- Permitem a identificação da divergência genéticaPermitem a identificação da divergência genética- Não exige experimentos com delineamento experimental (usa-se apenas o arquivo de médias)Não exige experimentos com delineamento experimental (usa-se apenas o arquivo de médias)- Para ser representativo os 2 primeiros componentes devem explicar pelo menos 80% da Para ser representativo os 2 primeiros componentes devem explicar pelo menos 80% da
variação original dos dados.variação original dos dados.
Nesse caso os Nesse caso os 2 primeiros 2 primeiros
componentes componentes explicam explicam
mais de 80% mais de 80% da variação da variação original dos original dos
dadosdados
TocherTocher- Método de AgrupamentoMétodo de Agrupamento
- A média das medidas de distância dentro de cada grupo deve ser menor A média das medidas de distância dentro de cada grupo deve ser menor do que as distâncias médias entre quaisquer grupodo que as distâncias médias entre quaisquer grupo
- Não permite comparar acessos dentro do mesmo do mesmo grupoNão permite comparar acessos dentro do mesmo do mesmo grupo
Dissimilaridade - Distância de EuclidianaDissimilaridade - Distância de Euclidiana- Experimentos que não contemplam delineamentoExperimentos que não contemplam delineamento
- Análise feita apartir do arquivo de médiasAnálise feita apartir do arquivo de médias
- Matriz de Distância Genética ou dendogramasMatriz de Distância Genética ou dendogramas
- Saída do DendogramaSaída do Dendograma
- Desvantagem do Genes, ausência de mecanismos de formataçãoDesvantagem do Genes, ausência de mecanismos de formatação
Dissimilaridade - Distância de MahalanobisDissimilaridade - Distância de Mahalanobis- Leva em conta as variâncias e covariâncias e correlações residuais - Leva em conta as variâncias e covariâncias e correlações residuais
entre os caracteres aferidos.entre os caracteres aferidos.
- Considera as repetições experimentais- Considera as repetições experimentais
-Nomear as VariáveisNomear as Variáveis
- Gerar MatrizGerar Matriz
-Processar AgrupamentoProcessar Agrupamento
-Fazer BootstrapFazer Bootstrap
-Testa a consistência das bifurcações em porcentagem a partir de um Testa a consistência das bifurcações em porcentagem a partir de um número determinado de simulaçõesnúmero determinado de simulações
Contribuição Relativa dos Caracteres – Singh 1981Contribuição Relativa dos Caracteres – Singh 1981
Identificação dos caracteres que mais contribuíram para a Identificação dos caracteres que mais contribuíram para a
dissimilaridade genéticadissimilaridade genética
Dendograma gerado a partir da matriz de distância de MahalanobisDendograma gerado a partir da matriz de distância de Mahalanobis
Correlação Cofenética Correlação Cofenética Mede a correlação (ajuste) entre a matriz de distância original e as distâncias Mede a correlação (ajuste) entre a matriz de distância original e as distâncias apresentadas no dendrograma.apresentadas no dendrograma.
Muito importante quando são realizadas inferências com base no Muito importante quando são realizadas inferências com base no dendrogramadendrograma
Abrir a “matriz de distância genética” que se deseja analisar Abrir a “matriz de distância genética” que se deseja analisar
Cosntruindo dendogramas no NtsysCosntruindo dendogramas no Ntsys
- Abrir a “matriz de distância - Abrir a “matriz de distância genética” no Genes genética” no Genes
- Exportá-lo para o Excel Exportá-lo para o Excel
- Formatá-lo conforme o Formatá-lo conforme o modelo ao ladomodelo ao lado
- - No NTSYS, em No NTSYS, em clusteringclustering, clicar em , clicar em SAHNSAHN, e no , e no Imput fileImput file abrir a matriz de abrir a matriz de
dissimilaridade (Excel)dissimilaridade (Excel)- -
No No output tree fileoutput tree file, digitar , digitar um nome de saída um nome de saída
(exemplo DE = (exemplo DE = dendrograma) dendrograma)
Em Em Clustering methodsClustering methods deixar UPGMAdeixar UPGMA; aí ; aí pedir para rodar (Compute), Com isso vai pedir para rodar (Compute), Com isso vai abrir uma janela de escritas que pode ser abrir uma janela de escritas que pode ser
fechada, e após deves buscar no canto fechada, e após deves buscar no canto inferior esquerdo da janela uma figura inferior esquerdo da janela uma figura pequena em forma de dendrograma: pequena em forma de dendrograma:
Clicando nela aparece a FIGURA que pode Clicando nela aparece a FIGURA que pode ser formatada conforme interesse, sendo ser formatada conforme interesse, sendo
salva formato salva formato metafilemetafile..
Conforme exposto acima, o programa Ntsys possui vários Conforme exposto acima, o programa Ntsys possui vários mecanismos que podem ser ajustados para formatar os mecanismos que podem ser ajustados para formatar os
dendogramas da mais adequada a cada situaçãodendogramas da mais adequada a cada situação
Dendograma feito no NtsysDendograma feito no Ntsys
Matriz Mahalanobis - NtsysMatriz Mahalanobis - Ntsys
Idem passos anteriores para Idem passos anteriores para construção do dendograma a partir construção do dendograma a partir da matriz de Distância Euclidianada matriz de Distância Euclidiana
CCC no NtsysCCC no Ntsys
Lembrar do arquivo de Lembrar do arquivo de saída que foi salvo saída que foi salvo
anteriormenteanteriormente
- Antes de começar o cálculo do CCC refazer analise de dissimilaridade - Antes de começar o cálculo do CCC refazer analise de dissimilaridade no Ntsys, substituindo o nome dos genótipos por letras.no Ntsys, substituindo o nome dos genótipos por letras.
- Calcular a matriz cofenética a partir do dentrograma que foi salvo - Calcular a matriz cofenética a partir do dentrograma que foi salvo (DE). Isto é feito no mesmo local (DE). Isto é feito no mesmo local clusteringclustering, clicar em , clicar em Cophenetic Cophenetic valuesvalues, e em , e em Imput tree fileImput tree file abrir o DE e na abrir o DE e na Output Coph fileOutput Coph file, colocar , colocar um nome de saída (COEF de cofenético). um nome de saída (COEF de cofenético).
- Feito isso clicar em “Compute”.- Feito isso clicar em “Compute”.
-Depois, clicar em -Depois, clicar em Graphics,Graphics, em seguida em em seguida em Matrix comprison plotMatrix comprison plot, e no , e no Input Input file 1 (X)file 1 (X) abrir a matriz de dissimilaridade do Excel, aquela do inicio, e no abrir a matriz de dissimilaridade do Excel, aquela do inicio, e no Input Input file 2 (X)file 2 (X), abrir a matriz cofenética de nome salvo (COEF). , abrir a matriz cofenética de nome salvo (COEF). - No - No Input file 3 (X)Input file 3 (X) não vai nada. No não vai nada. No Number of permutationsNumber of permutations, digitar 1000. , digitar 1000. (feito isso pedir para rodar). Vai abrir um gráfico que quando fechado aparece (feito isso pedir para rodar). Vai abrir um gráfico que quando fechado aparece uma janela de escritas, e em uma delas aparece o valor da correlação entre as uma janela de escritas, e em uma delas aparece o valor da correlação entre as matrizes e que é o valor cofenético.matrizes e que é o valor cofenético.
Cálculo de Similaridade Genética a partir de Cálculo de Similaridade Genética a partir de Marcadores MolecularesMarcadores Moleculares
- Juntar todos os marcadores polimórficos em única planilha do Excel - Juntar todos os marcadores polimórficos em única planilha do Excel
- Colocar nome dos genótipos e números de códigos (exemplo 1=cálculo - Colocar nome dos genótipos e números de códigos (exemplo 1=cálculo da similaridade; 10=número de genótipos; 182=número de da similaridade; 10=número de genótipos; 182=número de marcadores utilizados)marcadores utilizados)
- No NTSYS: entrar em - No NTSYS: entrar em SimilaritySimilarity, depois em , depois em quantitative date quantitative date e e no Input file one buscar a planilha de dados do Excel com os no Input file one buscar a planilha de dados do Excel com os códigos, genótipos e marcadores.códigos, genótipos e marcadores.- Deixar clicado - Deixar clicado X em By rows, Coefficient X em By rows, Coefficient clicar em clicar em DICEDICE, e em , e em Output file escrever qualquer nome de saída do arquivo de Output file escrever qualquer nome de saída do arquivo de similaridade (só escrever o nome que ele salva no mesmo lugar similaridade (só escrever o nome que ele salva no mesmo lugar que foi buscada a planilha de dados anterior. que foi buscada a planilha de dados anterior. - Rodar a análise - Rodar a análise (compute)(compute)
Transformá-la em Transformá-la em dissimilaridade genética dissimilaridade genética (1 menos os valores de (1 menos os valores de
similaridade que abrirem similaridade que abrirem
Após, sem números em Após, sem números em formato de fórmula, inserir uma formato de fórmula, inserir uma coluna e duas linhas, colocando coluna e duas linhas, colocando o nome dos genótipos em forma o nome dos genótipos em forma de matriz, porém, nas primeiras de matriz, porém, nas primeiras
três células da linha digitar os três células da linha digitar os códigos: 2=indica cálculo de códigos: 2=indica cálculo de
dissimilaridade, 10 e 10= dissimilaridade, 10 e 10= indicam a dimensão da matriz.indicam a dimensão da matriz.