Descripción de datos de manera gráfica usando R

En esta breve nota exploraremos la funcionalidades de la librería summarytools, del paquete estadístico R, el cual es de acceso libre y se puede obtener aquí.

Para obtener una tabla de descripción de datos con número total de casos, valores mínimos, máximos y promedio, frecuencias, datos válidos y perdidos, así como la gráfica de barras correspondiente existen diversas opciones en R. Una de ellas es la que ofrece la librería summarytools, la cual se puede descargar con el comando install.packages, como lo veremos más adelante. El manual detallado de summarytools se halla en este sitio y los ejemplos se encuentran explicados en este lugar.

Usaremos la base de datos abiertos del covid19 del gobierno federal en México, con un recopilación del 12 de abril de 2020 en adelante (histórico) y el del día, los cuales debemos desempaquetar, pues vienen en formato zip y ya fuera de la compresión, se presentan en terminación csv. Para este ejemplo usaremos los datos del 24 de abril. Ya que abrimos R, instalamos el paquete:

### Not run

install.packages("summarytools")       

library("summarytools") 

base <- read.csv("200424COVID19MEXICO.csv")
dim(base)
names(base)

### Usando la librería car, podemos recodificar:

library(car)

### Este es sólo un ejemplo que deriva de los descriptores y catálogos…

### …de las bases de datos abiertos de la Secretaría de Salud.

base$Mujer<-(base$SEXO)
base$Mujer<-recode(base$Mujer,"1=1;2=0")

base$Hospitalizado<-(base$TIPO_PACIENTE)
base$Hospitalizado<-recode(base$Hospitalizado,"1=0;2=1")

base$uci<-(base$UCI)
base$uci<-recode(base$uci,"1=1;2=0;97=0;99=0")

### Y así sucesivamente… Ahora, una vez lista la base,

### se procede a su descripción.

### Se genera la tabla de estadísticas de tendencia central:

descr(base)

### Pero si preferimos las variables en renglones, hay que invertir…

descr(base, transpose=TRUE)

### Si se quiere agregar gráficas para cada variable, entonces usamos:

dfSummary(base)

### El comando dfSummary detecta si se trata de

### variables continuas o discretas.

### Si se trabaja con R base como yo, entonces…

### … lo mejor es guardar el resultado de df Summary en un objeto…

### … al cual le llamé va:

va <- dfSummary(base)

### Esto es porque el método para ver el resultado sólo funciona en…

### … RStudio, Markdown o en formato html.

### Con el comando view podemos guardar nuestro objeto en el folder…

### … de nuestra preferencia en formato html, para uso posterior:

view(va, file = "~/covid19/24abr20.html")

### y el resultado será un archivo html.

### End

Así podemos analizar nuestros datos con un solo golpe de vista, iniciando con lo más sencillo, que es conocer los descriptivos de cada una de las variables, para luego proceder a realizar cualquier tipo de análisis. El ejemplo de una parte de la visualización se muestra al final de esta nota.

sumtools1

About Alejandro Diaz Dominguez

Professor, School of Government at Tecnológico de Monterrey. PhD in Political Science at Vanderbilt University. [religion and politics, R, surveys, electoral management bodies] Twitter: @alejdiazd https://orcid.org/0000-0002-3856-5686 View all posts by Alejandro Diaz Dominguez

One response to “Descripción de datos de manera gráfica usando R

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: