Tag Archives: Data

¿Qué nos dice el Censo 2020 sobre religión en México?

El blog de Taller de datos de Nexos en línea me publicó este texto sobre los resultados preliminares del Censo 2020 en materia de religión…

Las primeras cifras que más llamaron la atención en materia de religión fueron las comparaciones entre 2010 y 2020: un menor porcentaje de fieles de la iglesia católica (de 82.7 a 77.7 por ciento), un mayor porcentaje de fieles de las iglesias protestantes y evangélicas (de 7.5 a 11.2 por ciento) y sobre todo un mayor porcentaje de personas sin religión (de 4.7 a 8.1 por ciento, con un 2.5 adicional de personas sin adscripción religiosa).

Posterior a ello observamos en las redes sociales diversas compilaciones y visualizaciones en tablas, gráficas y mapas. Este texto se une a dichos esfuerzos. A continuación, se ofrecen tres rubros de análisis preliminares sobre los datos que nos ofrece el Censo 2020: el plano nacional, las realidades estatales y algunos apuntes sobre la competencia religiosa.  Para ello se realizarán comparaciones históricas desde 1895 y más contemporáneas, empleando los datos de los últimos cuatro censos….

Click aquí para seguir leyendo

https://datos.nexos.com.mx/?p=1914


Perfil de personas que han fallecido por covid19 en México

Durante la pandemia, uno de los análisis descriptivos más difíciles es el relativo a las defunciones. Quizá resulta necesario conocer, de acuerdo con las cifras oficiales, cuál era su perfil demográfico, si se les practicó una prueba, sus condiciones de salud y el tipo de hospital donde recibieron atención.

La forma en que se extrajo la estadística descriptiva que se muestra a continuación fue explicada en una entrada anterior (https://alejandrodiazd.wordpress.com/2020/05/03/descripcion-de-datos-de-manera-grafica-usando-r/), donde se detalló un posible uso de la librería summarytools en el paquete estadístico R, con base en los datos abiertos del gobierno federal, cuya información diaria e histórica del 12 de abril a la fecha también se encuentra referida en dicha entrada (https://www.gob.mx/salud/documentos/datos-abiertos-152127).

La primera tabla muestra que dos tercios de quienes fallecieron por covid19, de acuerdo con los datos oficiales provienen de las USMER del método centinela, pero un tercio no. Ese tercio de pacientes provenían de unidades no USMER.

También se observa que dos tercios dieron positivo en la prueba, un cinco por ciento aún esperaba sus resultados y 29 por ciento tuvo resultados negativos. Al menos eso es lo que arroja la base de datos abiertos del 8 de mayo de 2020.

Al explorar más sobre este dato, se encontró que de las personas fallecidas que dieron negativo en la prueba, 70 por ciento reportaron neumonía. Finalmente, el 35 por ciento de las personas fallecidas eran mujeres y el promedio de edad en las 4,803 defunciones fue 59 años.

Tabla 1. Origen, pruebas y demográficos

undefined

Respecto a las condiciones de salud, se halló que 92 por ciento de las personas fallecidas fueron hospitalizadas, pero el 8 por ciento restante no, es decir, fueron pacientes de carácter ambulatorio. De acuerdo con la base de datos, el 0.2 por ciento (ocho mujeres) fallecieron estando embarazadas.

En relación con las condiciones de salud, destaca ampliamente que el 73 por ciento tenía neumonía. Asimismo, el 43 por ciento tenía hipertensión, el 40 por ciento padecía diabetes, el 26 por ciento obesidad, tabaquismo el 10 por ciento, padecimientos renales el 9 por ciento, epoc el 8 por ciento, así como 8 por ciento también quienes presentaban padecimientos cardiovasculares, enfermedades inmunosupresoras el 6 y asma el 3 por ciento.

Finalmente, sólo el 16 por ciento estuvo en terapia intensiva e intubado el 21 por cierto. Esto significa que sólo para una de cada cinco personas que fallecieron por covid, de acuerdo con los datos abiertos oficiales, se reportó que tuviera respirador.

Tabla 2. Condiciones de embarazo, hospitalización y saludundefined

Por último, tres tipos de hospitales públicos concentraron al 94 por ciento de los fallecimientos: IMSS, Sector Salud e ISSSTE. El 44 por ciento de los decesos se reportó en el IMSS, el 43 por ciento en hospitales del sector salud y 7 por ciento en el ISSSTE. El resto se distribuyen entre hospitales privados (dos por ciento), estatales (dos por ciento) y de Pemex (uno por ciento), entre otros. Ello sugiere que 9 de cada diez decesos han ocurrido en IMSS, Sector Salud e ISSSTE.

Tabla 3. Tipo de hospital

undefined

Finalmente, puede sintetizarse que entre las personas fallecidas:

  • 35 por ciento eran mujeres.
  • 59 años fue la edad promedio.
  • 92 por ciento fue hospitalizado.
  • 70 por ciento de quienes dieron negativo en la prueba reportaban neumonía.
  • Sólo 1 de cada 6 estuvo en cuidados intensivos.
  • Sólo 1 de cada 5 tuvo respirador.
  • 94 por ciento se concentró en IMSS, Sector Salud e ISSSTE.

Este trabajo de descripción requerirá su contraparte en cada una de las entidades federativas, así como reflexiones posteriores respecto a la mejor forma de analizar la información que distribuye el gobierno federal. Desde luego que lo descriptivo es sólo el primer paso en cualquier análisis, pero siempre nos puede ofrecer una idea sobre dónde estamos, antes de emprender una exploración de mayores proporciones en un tema tan complejo.


Descripción de datos de manera gráfica usando R

En esta breve nota exploraremos la funcionalidades de la librería summarytools, del paquete estadístico R, el cual es de acceso libre y se puede obtener aquí.

Para obtener una tabla de descripción de datos con número total de casos, valores mínimos, máximos y promedio, frecuencias, datos válidos y perdidos, así como la gráfica de barras correspondiente existen diversas opciones en R. Una de ellas es la que ofrece la librería summarytools, la cual se puede descargar con el comando install.packages, como lo veremos más adelante. El manual detallado de summarytools se halla en este sitio y los ejemplos se encuentran explicados en este lugar.

Usaremos la base de datos abiertos del covid19 del gobierno federal en México, con un recopilación del 12 de abril de 2020 en adelante (histórico) y el del día, los cuales debemos desempaquetar, pues vienen en formato zip y ya fuera de la compresión, se presentan en terminación csv. Para este ejemplo usaremos los datos del 24 de abril. Ya que abrimos R, instalamos el paquete:

### Not run

install.packages("summarytools")       

library("summarytools") 

base <- read.csv("200424COVID19MEXICO.csv")
dim(base)
names(base)

### Usando la librería car, podemos recodificar:

library(car)

### Este es sólo un ejemplo que deriva de los descriptores y catálogos…

### …de las bases de datos abiertos de la Secretaría de Salud.

base$Mujer<-(base$SEXO)
base$Mujer<-recode(base$Mujer,"1=1;2=0")

base$Hospitalizado<-(base$TIPO_PACIENTE)
base$Hospitalizado<-recode(base$Hospitalizado,"1=0;2=1")

base$uci<-(base$UCI)
base$uci<-recode(base$uci,"1=1;2=0;97=0;99=0")

### Y así sucesivamente… Ahora, una vez lista la base,

### se procede a su descripción.

### Se genera la tabla de estadísticas de tendencia central:

descr(base)

### Pero si preferimos las variables en renglones, hay que invertir…

descr(base, transpose=TRUE)

### Si se quiere agregar gráficas para cada variable, entonces usamos:

dfSummary(base)

### El comando dfSummary detecta si se trata de

### variables continuas o discretas.

### Si se trabaja con R base como yo, entonces…

### … lo mejor es guardar el resultado de df Summary en un objeto…

### … al cual le llamé va:

va <- dfSummary(base)

### Esto es porque el método para ver el resultado sólo funciona en…

### … RStudio, Markdown o en formato html.

### Con el comando view podemos guardar nuestro objeto en el folder…

### … de nuestra preferencia en formato html, para uso posterior:

view(va, file = "~/covid19/24abr20.html")

### y el resultado será un archivo html.

### End

Así podemos analizar nuestros datos con un solo golpe de vista, iniciando con lo más sencillo, que es conocer los descriptivos de cada una de las variables, para luego proceder a realizar cualquier tipo de análisis. El ejemplo de una parte de la visualización se muestra al final de esta nota.

sumtools1


Curvas de casos positivos reportados por entidad federativa

En el sitio http://mexicovid19.mx/ desarrollado por estudiantes y profesores del Tecnológico de Monterrey para visualizar y analizar los datos derivados de covid19 en México, tuvieron a bien publicarme esta breve nota.

El número absoluto de casos reportados como positivos por covid19 varía entre las entidades federativas de México, por lo que es importante conocer, con independencia del número de casos acumulados, cómo se comportan tales datos al ser graficados según la fecha de reporte. Esto nos permite observar una serie de curvas por entidad federativa…

Para seguir leyendo dar click aquí


Acercamiento a las probabilidades de hospitalización por grupo de edad a nivel nacional

En la plataforma www.mexicovid19.mx, la cual es un esfuerzo conjunto de un grupo de estudiantes y profesores del Tecnológico de Monterrey para dar seguimiento y fácil acceso a la información de salud más relevante en el contexto de la pandemia de Coronavirus en México, se publicó esta nota.

En síntesis, dicha nota trata sobre qué grupos de edad resultarían más susceptibles y en qué medida.  Para seguir leyendo dar click aquí.


Tiempo de duplicación de casos positivos reportados por entidad federativa

En la plataforma www.mexicovid19.mx, la cual es un esfuerzo conjunto de un grupo de estudiantes y profesores del Tecnológico de Monterrey para dar seguimiento y fácil acceso a la información de salud más relevante en el contexto de la pandemia de Coronavirus en México, se publicó esta nota.

En síntesis, dicha nota trata de ver en cuántos días los casos positivos llegan al doble por entidad federativa. Para seguir leyendo dar clic aquí


Una breve lista de quienes se dedican a visualización de datos

Esta es una breve lista de algunas personas o grupos que se dedican a visualización de datos, sea a través de R o de otras herramientas.

Como toda lista, se encuentra en proceso y puede contener a quienes no sólo se dedican a visualizaciones, sino que trabajan en desarrollo escribiendo códigos o a machine learning. No lleva ningún orden, aparecen como fui recopilando la información.

Se hallarán tres líneas: una es el nombre de la persona o grupo, otra es su página de internet y la tercera su cuenta de twitter.

 

– Code like a girl

https://code.likeagirl.io/espanol/home

@Code_LikeAGirl

 

– R ladies cdmx

https://rladies.org/

@RLadiesCDMX

 

– Diego Valle-Jones

https://elcri.men
https://hoyodecrimen.com
blog.diegovalle.net

@diegovalle

 

– Irving MA

http://www.morlan.mx/

@moaimx

 

– La Data

http://ladata.mx

@ladatamx

 

– Data Cívica

datacivica.org

@datacivica

 

– tacos de datos

https://tacosdedatos.com/

@tacosdedatos

 

– Jeremy Howard

https://www.fast.ai/

@jeremyphoward

 

– Antonieta Carrasco

nacion321.com

@antuanVisual

 

– Sebastián Garrido

http://segasi.com.mx/

@segasi

 

– Amalia Pulido

https://amaliapulido.wixsite.com/mysite

@pulido_amalia

 

– R-Ladies Xalapa

https://www.meetup.com/es-ES/rladies-xalapa/

@RLadiesXalapa


Presencia electoral del PRI en Coahuila 1981-2017

Este post sólo consta de un par de gráficas que condensan 26 elecciones en el estado de Coahuila entre 1981 y 2017. Se trata de 10 elecciones federales y 16 locales.

La primera gráfica separa la presencia electoral del Partido Revolucionario Institucional (PRI) entre elecciones federales y elecciones locales. Se trata del porcentaje de votación obtenida por el PRI considerando al estado como un todo.

coah_1981_2017

La segunda gráfica incluye ambos tipos de elecciones, esto es, tanto locales como federales y se estima una tendencia entre los puntos que corresponden a la presencia electoral del PRI en Coahuila durante los últimos 36 años.

coah_1981_2017_junto

Si bien se trata de un ejercicio preliminar que agrupa en cuanto fue posible el porcentaje de votos del PRI considerando la votación total, resulta posible observar que entre 1981 y 1991 el PRI no descendía de los 50 puntos. Será durante los años noventa y entrado el nuevo milenio cuando ya no necesariamente obtenga una mayoría absoluta de votos.

Para finales de la década pasada y principios de la presente parecía observarse cierta recuperación, aunque no del todo, para alcanzar excepto por 2014, un quinquenio de resultados en el agregado estatal que fueron menores al 50 por ciento de los votos de la ciudadanía coahuilense.

Todo lo anterior sugiere que una coalición opositora, una vez conocidos los apretados resultados de 2017, bien pudiera disputar la gubernatura al PRI de forma altamente competitiva y con alta probabilidad de éxito en una de las pocas entidades donde ningún otro partido ha alcanzado a ganar el poder ejecutivo del estado.


Encuestas en las elecciones locales mexicanas de 2016

Las elecciones locales de este 2016 ya cuentan con numerosos levantamientos de encuestas para diversos puestos, como lo son alguna gubernatura, una diputación local o una presidencia municipal.

Como en cada proceso electoral, algunos de los datos de las encuestas han sido publicados en medios impresos nacionales y locales. El seguimiento y monitoreo de dichas publicaciones puede convertirse en una actividad costosa en términos de tiempo y dinero para el público interesado, porque no existen muchos sitios digitales o medios impresos que se dediquen a compilar esta información.

Para nuestro caso, por disposición legal desde la reforma electoral 2014, se estableció como obligación de los órganos electorales locales el difundir en sus portales de internet toda la información sobre cada encuesta que sea publicada.

Aunque el grado de detalle en la difusión de la información de encuestas varía entre los distintos órganos electorales, sí es posible contar con algunas bases de datos de las encuestas que han sido difundidas en medios impresos en las elecciones locales a celebrarse este 5 de junio.

Toda esta información ha sido compilada por un micrositio del Instituto Nacional Electoral cuya dirección es:

http://www.ine.mx/archivos2/portal/Elecciones/PEF/2014-2015/Preparacion/Encuestas/electorales_locales.html#home

Ahí nos encontramos un par de pestañas, una que nos lleva a las elecciones locales 2015 y otra a las de 2016. Una rápida revisión de los portales de los órganos electorales locales sugiere que en efecto, sí es posible encontrar bases de datos, cuestionarios, la metodología y el costo reportado de las encuestas publicadas. Las variables que contienen estas bases de datos generalmente corresponden a las variables que fueron publicadas.

También se observa que muchas bases se presentan en hojas de cálculo, lo que facilita su portabilidad para abrirles desde el paquete estadístico preferido. En algunos casos, las columnas contienen las etiquetas de las categorías de respuesta, por lo que al importar dichas bases en un paquete como, por ejemplo, stata, lo que tenemos es “mucho”, “algo”, “poco” o “nada” en una pregunta sobre algún tema, en vez de observar números en una escala del 1 al 4.

El etiquetado de las categorías de respuesta facilita la lectura y evita complicaciones sobre los significados de los códigos empledos. Por ejemplo, si a veces no se halla el cuestionario, no es posible saber si 1 significaba “mucho” o “nada”.

El problema con esta forma de reporte, esto es, usando etiquetas en vez de números es que no permite realizar ningún tipo de cálculo, pues se trata de palabras. Para resolver este problema basta con generar una nueva variable que ya no se componga por palabras, sino que asigne un número a cada categoría de respuesta.

Para los usuarios de stata, ello se logra con el comando “encode var, gen(newvar)” y así se asignarán números a cada opción, de manera tal que cada quien puede asignarle el 1 al “mucho” y el 4 al “nada” o viceversa.

En esta misma revisión también se observa que los libros de excel que sí contienen números en las variables, en la siguiente hoja anexan el nombre de la variable y los códigos correspondientes. Este formato es fácilmente reconocible por quienes han usado el paquete spss, y por supuesto también resulta posible importar dichos datos al citado paquete.

En síntesis, el micrositio del INE ofrece, con todas las limitaciones y bondades comentadas (y otras que se añadan) una gran posibilidad para el análisis de lo que ocurre en las elecciones locales mexicanas de este 2016.


%d bloggers like this: