
6 Transformação
Com os dados organizados, avançamos para a etapa de transformação. Essa fase abrange diversas operações e, por isso, está dividida em 6 parte conforme o tema. Dependendo do tipo de dado presente em cada variável, utilizamos diferentes pacotes do tidyverse
, especializados em aspectos específicos da transformação. A seguir estão listados os temas, com os respectivos pacotes, que trataremos adiante.
Funções essenciais: o pacote
dplyr
apresenta as principais funções de transformação dos dados. Apresenta funções que nos permite realizar operações entre colunas, calcular medidas-resumo, filtrar linhas, criar e selecionar novas colunas, dentre outras. Dominando essas funções, conseguimos resolver a maioria dos assuntos relacionados à etapa de transformação dos dados.Dados relacionais: apresenta as ferramentas para unir dois ou mais data frames. Essas funções também são parte do pacote
dplyr
.Números: aprofundaremos alguns conceitos relacionados a vetores numéricos.
Data e Tempo: tratam de dados cujas variáveis são do tipo data e tempo. Para isso, utilizaremos as funcionalidades do pacote
lubridate
.Fatores: apresentaremos o pacote
forcats
para tratar de dados do tipo fator, tema introduzido na Seção 3.7.Texto: com o pacote
stringr
veremos como realizar manipulações de textos a partir de expressões regulares.Valores ausentes: apresentaremos algumas soluções para tratar de valores ausentes.

Na maioria dos casos, as funcionalidades de transformação dos dados são utilizadas em conjunto com diversas outras. Para integrá-las, o R apresenta um operador muito útil: o pipe. No Capítulo 7, apresentaremos este importante operador.
Recomendo aos iniciantes em R que comece os estudos desta etapa pelo Capítulo 7, que aborda as funções básicas e essenciais de transformação, a fim de consolidar tais conceitos. Posteriormente, o leitor se sentirá mais capacitado em explorar os demais capítulos desta etapa conforme a necessidade e interesse.