Para importar diversas bases de datos a R

En R es posible importar y leer distintos tipos de archivos con bases de datos del más diverso origen. En este post presento algunas de las más comunes (txt, csv, xls, xlsx, dbf, por, sav, dta, tab).

Para importar un archivo de texto con terminación .txt

library(foreign)
objeto1<-read.table("path/to/file.txt")

Para importar un archivo de valores separados por comas con terminación .csv

objeto2<-read.csv("path/to/file.csv")

Para importar un archivo de excel con terminación .xls o .xlsx
se sugiere la librería readxl de Hadley Wickham y Jennifer Bryan, et al

install.packages("readxl")
library(readxl)
objeto3<-read_excel("path/to/file.xls", sheet =2)
objeto4<-read_excel("path/to/file.xlsx", sheet =3)

Para importar archivos de SPSS y STATA
se sugiere la librería haven de Hadley Wickham

install.packages("haven")
library(haven)

Para importar un archivo de spss con terminación .sav o .por

objeto5<-read_por("path/to/file.por")
objeto6<-read_sav("path/to/file.sav")


En general para SPSS:

objeto7<-read_spss("path/to/file.sav")

Para importar un archivo de STATA con terminación .dta

objeto8<-read_dta("path/to/file.dta")

En general para STATA:

objeto9<-read_stata("path/to/file.dta")

Para importar un archivo con terminación .dbf

library("foreign")
base_covid <- read.dbf("ECOVID0720.dbf")

Es una encuesta del INEGI levantada a mitad del 2020 sobre la pandemia.

Para importar un archivo con terminación .csv pero sin empezar por el primer renglón y con separaciones:

dip <- read.csv(file="diputaciones.csv", sep="|", skip = 7, header = FALSE)
headers <- read.table(file="diputaciones.csv", sep="|", skip = 6, header=FALSE, nrows=1, as.is = TRUE)
colnames(dip)<- headers

Este es un archivo del prep federal de 2018 que así se podría leer en R.

Para importar un archivo con terminación .tab

objeto <-read.delim("archivo.tab", header = TRUE, sep = "\t", quote = "")
objeto1 <- read.tab("archivo.tab", hearder=TRUE, quote=" ", check.row.ct=TRUE, stringsAsFactors=TRUE)

Por supuesto que es necesario adaptar estas líneas de código para cada caso en lo particular y para guardar archivos en otro formato bastaría con lo siguiente:

library(openxlsx)
library(Rtools)
library(xlsx)
write.csv(objeto, file="nueva_base.csv")
write.xlsx(objeto, file"nueva_base.xlsx")


Authoritarian Recall: Mexico’s Drug War and Subnational Patterns of Opposition to Democracy

Jon Hiskey, Mary Fran T. Malone and I wrote a piece on how the subnational political context mediates the relationship between a crisis and support for non-democratic alternatives. When faced with a violent shock to the system, public attitudes towards democracy depend in part on one’s experiences with non-democratic alternatives and whether these authoritarian options appear to solve the crisis at hand more effectively. In this way, citizens’ support for democracy can depend on how well they think their democracy can address security crisis compared to authoritarian alternatives.

For several years Mexico has been in the midst of just such a crisis, as its war on drug trafficking organisations has brought an unprecedented rise in violence and, in some areas, posed a direct challenge to the state’s capacity to govern. In this context, we add Mexico’s subnational political landscape, which ranges from vibrant, multi-party states to those with continued connections to a dominant one-party past. We leverage these variations in subnational political context and levels of drug-related violence combining state level surveys and aggregate data.

Citation:
Hiskey, Jonathan, Mary Fran T. Malone, and Alejandro Diaz-Dominguez. “Authoritarian Recall: Mexico’s Drug War and Subnational Patterns of Opposition to Democracy.” Journal of Politics in Latin America 12, no. 1 (April 2020): 3-31. https://doi.org/10.1177/1866802X20913287.

This is an open access piece.


¿Qué nos dice el Censo 2020 sobre religión en México?

El blog de Taller de datos de Nexos en línea me publicó este texto sobre los resultados preliminares del Censo 2020 en materia de religión…

Las primeras cifras que más llamaron la atención en materia de religión fueron las comparaciones entre 2010 y 2020: un menor porcentaje de fieles de la iglesia católica (de 82.7 a 77.7 por ciento), un mayor porcentaje de fieles de las iglesias protestantes y evangélicas (de 7.5 a 11.2 por ciento) y sobre todo un mayor porcentaje de personas sin religión (de 4.7 a 8.1 por ciento, con un 2.5 adicional de personas sin adscripción religiosa).

Posterior a ello observamos en las redes sociales diversas compilaciones y visualizaciones en tablas, gráficas y mapas. Este texto se une a dichos esfuerzos. A continuación, se ofrecen tres rubros de análisis preliminares sobre los datos que nos ofrece el Censo 2020: el plano nacional, las realidades estatales y algunos apuntes sobre la competencia religiosa.  Para ello se realizarán comparaciones históricas desde 1895 y más contemporáneas, empleando los datos de los últimos cuatro censos….

Click aquí para seguir leyendo

https://datos.nexos.com.mx/?p=1914


Algunos factores asociados con fallecimientos y hospitalizaciones por covid19 (machine learning)

Una aplicación sencilla de aprendizaje máquina para clasificar factores que inciden en fallecimientos y hospitalizaciones por covid19 en México.

Para seguir leyendo dar click aquí


Perfil de personas que han fallecido por covid19 en México

Durante la pandemia, uno de los análisis descriptivos más difíciles es el relativo a las defunciones. Quizá resulta necesario conocer, de acuerdo con las cifras oficiales, cuál era su perfil demográfico, si se les practicó una prueba, sus condiciones de salud y el tipo de hospital donde recibieron atención.

La forma en que se extrajo la estadística descriptiva que se muestra a continuación fue explicada en una entrada anterior (https://alejandrodiazd.wordpress.com/2020/05/03/descripcion-de-datos-de-manera-grafica-usando-r/), donde se detalló un posible uso de la librería summarytools en el paquete estadístico R, con base en los datos abiertos del gobierno federal, cuya información diaria e histórica del 12 de abril a la fecha también se encuentra referida en dicha entrada (https://www.gob.mx/salud/documentos/datos-abiertos-152127).

La primera tabla muestra que dos tercios de quienes fallecieron por covid19, de acuerdo con los datos oficiales provienen de las USMER del método centinela, pero un tercio no. Ese tercio de pacientes provenían de unidades no USMER.

También se observa que dos tercios dieron positivo en la prueba, un cinco por ciento aún esperaba sus resultados y 29 por ciento tuvo resultados negativos. Al menos eso es lo que arroja la base de datos abiertos del 8 de mayo de 2020.

Al explorar más sobre este dato, se encontró que de las personas fallecidas que dieron negativo en la prueba, 70 por ciento reportaron neumonía. Finalmente, el 35 por ciento de las personas fallecidas eran mujeres y el promedio de edad en las 4,803 defunciones fue 59 años.

Tabla 1. Origen, pruebas y demográficos

undefined

Respecto a las condiciones de salud, se halló que 92 por ciento de las personas fallecidas fueron hospitalizadas, pero el 8 por ciento restante no, es decir, fueron pacientes de carácter ambulatorio. De acuerdo con la base de datos, el 0.2 por ciento (ocho mujeres) fallecieron estando embarazadas.

En relación con las condiciones de salud, destaca ampliamente que el 73 por ciento tenía neumonía. Asimismo, el 43 por ciento tenía hipertensión, el 40 por ciento padecía diabetes, el 26 por ciento obesidad, tabaquismo el 10 por ciento, padecimientos renales el 9 por ciento, epoc el 8 por ciento, así como 8 por ciento también quienes presentaban padecimientos cardiovasculares, enfermedades inmunosupresoras el 6 y asma el 3 por ciento.

Finalmente, sólo el 16 por ciento estuvo en terapia intensiva e intubado el 21 por cierto. Esto significa que sólo para una de cada cinco personas que fallecieron por covid, de acuerdo con los datos abiertos oficiales, se reportó que tuviera respirador.

Tabla 2. Condiciones de embarazo, hospitalización y saludundefined

Por último, tres tipos de hospitales públicos concentraron al 94 por ciento de los fallecimientos: IMSS, Sector Salud e ISSSTE. El 44 por ciento de los decesos se reportó en el IMSS, el 43 por ciento en hospitales del sector salud y 7 por ciento en el ISSSTE. El resto se distribuyen entre hospitales privados (dos por ciento), estatales (dos por ciento) y de Pemex (uno por ciento), entre otros. Ello sugiere que 9 de cada diez decesos han ocurrido en IMSS, Sector Salud e ISSSTE.

Tabla 3. Tipo de hospital

undefined

Finalmente, puede sintetizarse que entre las personas fallecidas:

  • 35 por ciento eran mujeres.
  • 59 años fue la edad promedio.
  • 92 por ciento fue hospitalizado.
  • 70 por ciento de quienes dieron negativo en la prueba reportaban neumonía.
  • Sólo 1 de cada 6 estuvo en cuidados intensivos.
  • Sólo 1 de cada 5 tuvo respirador.
  • 94 por ciento se concentró en IMSS, Sector Salud e ISSSTE.

Este trabajo de descripción requerirá su contraparte en cada una de las entidades federativas, así como reflexiones posteriores respecto a la mejor forma de analizar la información que distribuye el gobierno federal. Desde luego que lo descriptivo es sólo el primer paso en cualquier análisis, pero siempre nos puede ofrecer una idea sobre dónde estamos, antes de emprender una exploración de mayores proporciones en un tema tan complejo.


Descripción de datos de manera gráfica usando R

En esta breve nota exploraremos la funcionalidades de la librería summarytools, del paquete estadístico R, el cual es de acceso libre y se puede obtener aquí.

Para obtener una tabla de descripción de datos con número total de casos, valores mínimos, máximos y promedio, frecuencias, datos válidos y perdidos, así como la gráfica de barras correspondiente existen diversas opciones en R. Una de ellas es la que ofrece la librería summarytools, la cual se puede descargar con el comando install.packages, como lo veremos más adelante. El manual detallado de summarytools se halla en este sitio y los ejemplos se encuentran explicados en este lugar.

Usaremos la base de datos abiertos del covid19 del gobierno federal en México, con un recopilación del 12 de abril de 2020 en adelante (histórico) y el del día, los cuales debemos desempaquetar, pues vienen en formato zip y ya fuera de la compresión, se presentan en terminación csv. Para este ejemplo usaremos los datos del 24 de abril. Ya que abrimos R, instalamos el paquete:

### Not run

install.packages("summarytools")       

library("summarytools") 

base <- read.csv("200424COVID19MEXICO.csv")
dim(base)
names(base)

### Usando la librería car, podemos recodificar:

library(car)

### Este es sólo un ejemplo que deriva de los descriptores y catálogos…

### …de las bases de datos abiertos de la Secretaría de Salud.

base$Mujer<-(base$SEXO)
base$Mujer<-recode(base$Mujer,"1=1;2=0")

base$Hospitalizado<-(base$TIPO_PACIENTE)
base$Hospitalizado<-recode(base$Hospitalizado,"1=0;2=1")

base$uci<-(base$UCI)
base$uci<-recode(base$uci,"1=1;2=0;97=0;99=0")

### Y así sucesivamente… Ahora, una vez lista la base,

### se procede a su descripción.

### Se genera la tabla de estadísticas de tendencia central:

descr(base)

### Pero si preferimos las variables en renglones, hay que invertir…

descr(base, transpose=TRUE)

### Si se quiere agregar gráficas para cada variable, entonces usamos:

dfSummary(base)

### El comando dfSummary detecta si se trata de

### variables continuas o discretas.

### Si se trabaja con R base como yo, entonces…

### … lo mejor es guardar el resultado de df Summary en un objeto…

### … al cual le llamé va:

va <- dfSummary(base)

### Esto es porque el método para ver el resultado sólo funciona en…

### … RStudio, Markdown o en formato html.

### Con el comando view podemos guardar nuestro objeto en el folder…

### … de nuestra preferencia en formato html, para uso posterior:

view(va, file = "~/covid19/24abr20.html")

### y el resultado será un archivo html.

### End

Así podemos analizar nuestros datos con un solo golpe de vista, iniciando con lo más sencillo, que es conocer los descriptivos de cada una de las variables, para luego proceder a realizar cualquier tipo de análisis. El ejemplo de una parte de la visualización se muestra al final de esta nota.

sumtools1


Curvas de casos positivos reportados por entidad federativa

En el sitio http://mexicovid19.mx/ desarrollado por estudiantes y profesores del Tecnológico de Monterrey para visualizar y analizar los datos derivados de covid19 en México, tuvieron a bien publicarme esta breve nota.

El número absoluto de casos reportados como positivos por covid19 varía entre las entidades federativas de México, por lo que es importante conocer, con independencia del número de casos acumulados, cómo se comportan tales datos al ser graficados según la fecha de reporte. Esto nos permite observar una serie de curvas por entidad federativa…

Para seguir leyendo dar click aquí


Acercamiento a las probabilidades de hospitalización por grupo de edad a nivel nacional

En la plataforma www.mexicovid19.mx, la cual es un esfuerzo conjunto de un grupo de estudiantes y profesores del Tecnológico de Monterrey para dar seguimiento y fácil acceso a la información de salud más relevante en el contexto de la pandemia de Coronavirus en México, se publicó esta nota.

En síntesis, dicha nota trata sobre qué grupos de edad resultarían más susceptibles y en qué medida.  Para seguir leyendo dar click aquí.


Tiempo de duplicación de casos positivos reportados por entidad federativa

En la plataforma www.mexicovid19.mx, la cual es un esfuerzo conjunto de un grupo de estudiantes y profesores del Tecnológico de Monterrey para dar seguimiento y fácil acceso a la información de salud más relevante en el contexto de la pandemia de Coronavirus en México, se publicó esta nota.

En síntesis, dicha nota trata de ver en cuántos días los casos positivos llegan al doble por entidad federativa. Para seguir leyendo dar clic aquí


Perfiles del Electorado Nuevoleonés 2018

 

Junto con Carlos Vázquez tuve la oportunidad de coordinar un libro sobre los Perfiles del electorado nuevoleonés que publicó la Comisión Estatal Electoral de Nuevo León hace unos días. En los diversos capítulos se describen y explican algunas aristas de las pasadas elecciones con base en una encuesta en vivienda levantada durante junio de 2018.

El libro se puede dividir en tres partes sustantivas y una metodológica. En las partes sustantivas se hallan tres capítulos sobre votos y elecciones, uno de panorámica general de los hallazgos de la encuesta y dos sobre razones del voto: uno enfocado al partidismo y otro a la ideología.

En la segunda parte, la cual versa sobre ciudadanía, valores y relaciones con los partidos políticos se encuentran un capítulo sobre componentes de la ciudadanía, otro sobre valores morales y dos dedicados al clientelismo. Entre éstos, uno trata sobre los segmentos del electorado que fueron expuestos a compra y a coacción y otro sobre los efectos del clientelismo en la participación electoral.

La última parte sustantiva se compone de dos capítulos sobre los impactos de redes sociales, uno sobre el efecto de medios digitales en información política y capital social y otro sobre uso de WhatsApp, género y conocimiento político. La última sección incluye un breve capítulo sobre detalles específicos del diseño de la muestra de la encuesta analizada.

Este libro, de acceso gratuito (https://www.ceenl.mx/perfiles/documentos/perfiles_libro_2019.pdf) fue posible gracias al trabajo de la Comisión Estatal Electoral, al esfuerzo de quienes escribieron los capítulos referidos, al apoyo de sus respectivas instituciones académicas (en mi caso la Escuela de Gobierno del Tecnológico de Monterrey) y sobre todo a las 1,077 personas que gentilmente cedieron su tiempo para responder a las preguntas contenidas en el cuestionario de la encuesta levantada por la empresa SECTEC, a quien también debe agradecerse tanto su innovador diseño de muestra como su disposición a platicar sobre éste, como lo reseño en el último capítulo sobre la metodología.

Las bases de datos, el cuestionario, los reportes y el libro de códigos también se encuentran disponibles para su acceso y consulta (https://www.ceenl.mx/). Para concluir con este breve post, la riqueza de la encuesta sobre perfiles del electorado nuevoleonés ha permitido que se cuente con análisis detallados en una gran variedad de temas, los cuales son expuestos con claridad para amplias audiencias, sin menoscabo del necesario rigor académico. No me resta sino invitar a su lectura, así como a explorar el cuestionario, los reportes y la base de datos de la encuesta, para ampliar nuestro conocimiento sobre lo acaecido en las elecciones celebradas en 2018 en el estado de Nuevo León.

 

 


%d bloggers like this: