Short Courses | RBras 2016

MC1: Tools for missing data and sensitivity analysis (Duration: 4 hours)
Geert Molenberghs (Universiteit Hasselt, Belgium)

Abstract: A brief review is given of longitudinal methodology, centering on the linear mixed model and generalized estimating equations. A framework to handle incomplete data is sketched. This includes: missing data patterns, missing data mechanisms, modeling frameworks, and inferential frameworks. It is argued why historic but overly simple methods should generally not be used. Standard methods under missingness at random are discussed, in particular direct (or ignorable) likelihood, weighted estimating equations, and multiple imputations. Aspects of sensitivity analysis are discussed.

MC2: An introduction to modern statistical methods for analysis of gene-environment interactions (Duration: 2 hours)
Bhramar Mukherjee (University of Michigan, USA)

Abstract: In this two hour short course we will discuss analysis of gene-environment interaction in case-control and longitudinal studies. We will start with a general discussion regarding definition of statistical interaction versus biological interaction and then focus specifically on characterization of gene-environment interaction. Various methods for discovery of gene-environment interaction in genomewide studies including case-control, case-only, empirical Bayes, two-step and hybrid methods will be discussed. Methods will be compared in terms of simulation studies and illustrated with data examples. We will then discuss how to capture the temporal dynamics of gene-environment interaction in longitudinal studies with time-varying exposure.

MC3: Modelos de Regressão para Dados de Contagem com o R (Duration: 4 hours)
Walmes Marques Zeviani (UFPR) , Eduardo Elias Ribeiro Junior (UFPR), Cesar Augusto Taconeli (UFPR)

Abstract: Dados de contagens configuram variáveis aleatórias que assumem valores inteiros não negativos, sendo presentes em praticamente todas as áreas da ciência. No entanto, métodos de inferência, e, particularmente, modelos de regressão para dados de contagens estão bem aquém em relação à quantidade disponível para a análise de dados contínuos. Nesse contexto, pretendemos neste minicurso apresentar diferentes modelos de regressão para análise de dados de contagens, discutir suas principais propriedades e ilustrar suas aplicações em dados reais por meio do software R. Dentre os modelos considerados estão o modelo Poisson, algumas extensões para acomodação de super (ou sub) dispersão (Quasi-Poisson, COM-Poisson, Count-Gamma, Binomial-Nagativo), modelos para dados inflacionados de zeros e com a inclusão de efeitos aleatórios.

MC4: Como você compara seus modelos? Quais os critérios você conhece? Saiba quais são suas opções e conheça a Medida L (Duration: 4 hours)
Elayne Penha Veiga (UFLA), Mario Javier Ferrua Vivanco (UFLA)

Abstract: Serão apresentados os critérios mais utilizados, tais como AIC (Akaike, 1974), AICc (Sugiura, 1978) e BIC (Schwarz, 1978), bem como uma opção, ainda pouco difundida, baseada no preditivismo: a Medida L (Ibrahim e Laud, 1994), cuja preocupação é a predição de valores advindos de um mesmo experimento ou de experimentos semelhantes usando de conceitos como Densidade Preditiva em sua definição, e com este, comparando o que é predito ao que é observado para fazer a escolha entre modelos. Serão apresentados também, resultados de trabalhos (Emiliano et al, 2013) quanto à performance destes critérios em diferentes modelos. Ainda, exemplos de comparações de modelos (no software R) com os diferentes critérios serão apresentados.

MC5: Pesquisa reproduzível com o R: de documentos dinâmicos à pacotes (Duration: 4 hours)
Fernando Mayer (UFPR), Walmes Zeviani (UFPR)

Abstract: Pesquisa reproduzível é a ideia geral onde análise de dados, e de maneira mais geral, descobertas científicas, devem ser publicadas contendo os dados e o código de análise, para que outras pessoas possam verificar os resultados e até mesmo continuar a construir ideias sobre eles. A necessidade da reproducibilidade vem crescendo drasticamente, ao mesmo tempo que as análises de dados estão se tornando mais complexas, envolvendo grandes bases de dados e alto processamento computacional. A reproducibilidade torna um resultado de uma pesquisa mais útil para qualquer pessoa, pois os dados e o código que realmente geraram os resultados estão disponíveis. Este curso será focado nas ferramentas para análise estatística documentada, que permitem que cientistas publiquem suas análises em um único documento que irá permitir que outros cientistas executem a mesma análise e obtenham os mesmos resultados. O objetivo é fornecer os conceitos e ferramentas por trás da comunicação de análises de dados modernas, de maneira reproduzível. A importância de reproducibilidade na ciência é altamente reconhecida hoje em dia, mas ainda não é largamente praticada como deveria ser. Um dos motivos é que muitos cientistas não adotaram ainda as ferramentas necessárias para a pesquisa reproduzível. Neste curso serão discutidos os princípios gerais para a pesquisa reproduzível, mas o foco será prioritariamente no uso das ferramentas relevantes. Particularmente, será demonstrado como gerar relatórios dinâmicos com o R, e de maneira mais aprofundada, como criar pacotes do R contendo dados, análises e funções, com a intenção de facilitar a distribuição de comunicações científicas. Para isso, serão utilizados alguns pacotes modernos e auxiliares do R, como `knitr`, `rmarkdown`, `devtools`, e `roxygen2`. A intenção é que os atendentes do curso saiam preparados para utilizar essas ferramentas em suas próprias pesquisas, ajudando a ampliar a forma como se faz pesquisa reproduzível atualmente.

MC6: Geoestatística para análise e modelagem de dados biométricos (Duration: 4 hours)
Mário Sebastiao Tuzine (Instituto Superior Politécnico De Gaza, Mozambique), Anderson Pedro Batista (UFLA), José Márcio de Mello (UFLA)

Abstract: Um dos princípios que a teoria de amostragem clássica se baseia é a “casualização”, cabe a este princípio neutralizar os efeitos da correlação espacial. Os objetivos deste curso são de apresentar os principais usos de técnicas geoestatísticas para análise e modelagem de informações obtidas em levantamentos biométricos, através da espacialização dos mensuradas em campo. O conteúdo proposto versa sobre conceitos básicos de geoestatística para análise e modelagem de dados biométricos, dando ênfase a levantamentos agronômicos, florestais, zootécnicos e saúde. Os temas abordados são: Análise exploratória de dados ; Análise gráfica de Dados; Correlação entre variáveis; Avaliação da dependência espacial, Modelagem variográfica, Krigagem e Inferência com base na estrutura de dependência espacial. Toda conceituação estatística e o uso de técnicas geoestatística, dará ênfase a problemas biometrico com recurso ao pacote estatístico R extensão geoR.

MC7: Diagrama de Hasse no planejamento de experimentos e na análise de dados (Duration: 4 hours)
Clarice Demétrio (ESALQ, USP) e Renata Alcarde Sermarini (ESALQ, USP)

Abstract: O interesse em um considerável número de tratamentos somado a diversas estruturas de controle local pode dar origem a delineamentos complexos, dificultando o planejamento do experimento, bem como sua análise. Nesse ponto, vê-se a necessidade de uma ferramenta que proporcione uma melhor compreensão do experimento, facilitando seu procedimento como um todo. Uma ferramenta que se encaixa em tais qualidades recebe o nome de diagrama de Hasse. Trata-se da representação gráfica das estruturas dos tratamentos e das parcelas, que podem ser construídas por meio de conversas com o pesquisador ou simplesmente da leitura do problema. Ainda, o diagrama auxilia na obtenção do número de graus de liberdade de cada fator, tendo como pressuposto a ortogonalidade entre os fatores, auxilia também na obtenção das somas de quadrados, da razão apropriada para o teste F e do modelo linear estatístico.

MC8: Análise de dados genéticos: Um problema de Big Data a cada novo paciente (Duration: 4 hours)
Marcus Nunes (UFRN)

Abstract: Ferramentas de sequenciamento genético tem se tornados mais e mais baratas com o passar do tempo. Devido a isto, experimentos genéticos tem ficado mais comuns. A quantidade de dados gerada por cada sujeito destes experimentos é imensa, fazendo com que um conjunto de problemas de Big Data seja gerado a cada novo experimento. Esta característica dos experimentos genéticos cria novas oportunidades de contribuição para quem trabalha com estatística. Desta forma, a área necessita de pessoal especializado e com conhecimento multidisciplinar para que estes dados sejam analisados corretamente. Neste curso veremos alguns dos principais desafios estatísticos desta área, como a não-normalidade dos dados e o problema das comparações múltiplas. Apresentaremos algumas das características das tecnologias de sequenciamento genético disponíveis no mercado. Também veremos como delinear experimentos nesta área e quais modelos matemáticos utilizar para realizar testes de diferenciação de expressão gênica. Por fim, veremos como resolver problemas genéticos na prática, utilizando o R e outros programas de computador específicos para este tipo de análise.

MC9: Redução de dimensionalidade – Aplicações à genômica (Duration: 4 hours)
Júlia M Pavan Soler (IME/USP) e Adèle H Ribeiro (IME/USP)

Abstract: Muitos problemas de redução de dimensionalidade em Estatística têm sido solucionados por meio de métodos baseados na decomposição em valores singulares de matrizes, o caso mais comum sendo a Análise de Componentes Principais. Contudo, em espaços restritos a n<<p (centenas de milhares de variáveis genéticas observadas em um número reduzido de unidades amostrais), bem como em espaços estruturados envolvendo amostras dependentes e/ou amostras pareadas, soluções clássicas não se aplicam. Além disso, o problema de redução de dimensionalidade aparece na teoria de inferência causal. Os modelos gráficos probabilísticos direcionados, que representam independências e dependências condicionais entre variáveis a partir de grafos direcionados, têm sido particularmente usados para a construção de redes causais de genótipos-fenótipos em estudos observacionais. O aprendizado dessa estrutura causal se baseia em princípios como d-separação e aleatorização Mendeliana e em variáveis instrumentais. Neste minicurso trataremos de situações como estas trazendo motivações da área de mapeamento genético. Dados serão gerados e analisados usando os recursos do R.