DATASET
DATAVIZ

Datasets sobre o COVID-19 – explore

Publicado em: 05/05/2020
Escrito por: André Santos
Tempo de leitura: 3 minutos

A tecnologia tem possibilitado muitas coisas, principalmente a captura e registro de informações. Nesses últimos anos tivemos também uma ascensão de uma área chamada de Data Science, que utiliza estatística, matemática e dados para fazer projeções, predições, etc. Com a união de ambas temos muito a ganhar, e nesse período de COVID-19 isso se tornou muito evidente. Diversas instituições estão disponibilizando dados para que curiosos, entusiastas e cientistas de dados possam contribuir com seu conhecimento para ajudar de alguma forma a gestão/controle do COVID-19.

Antes de sair explorando os dados e criando correlações, gostaríamos de compartilhar uma newsletter muito interesse publicada pela comunidade do datahackers. Abaixo reproduzimos ele de forma parcial.


Na verdade poderíamos ficar horas listando inúmeras atitudes positivas que temos visto todos os dias e na área de dados não tem sido diferente, vemos pessoas se unindo para facilitar o acesso a dados abertos, competições de machine learning com o foco em soluções para a crise do COVID-19 (desde detecção de imagens para o diagnóstico da doença até a criação de modelos preditivos relacionados ao avanço da pandemia) mas o que mais temos visto sem sombra de dúvidas são dashboards, dashboards e mais dashboards…

Sabemos que toda iniciativa é válida, principalmente se o objetivo é ajudar, mas nos sentimos na obrigação de dar uma dica para toda a comunidade antes de sair fazendo dashboards: Estude epidemiologia!

Se o termo ainda é novo para você a Epidemiologia é a área do conhecimento que estuda o processo saúde-doença em populações humanas, com o objetivo de prevenção e controle, e ela engloba importantes aspectos de clínica, estatística e medicina social.

Não podemos nos esquecer que o conhecimento da área de negócio é um dos pontos chaves de qualquer projeto de Data Science, e quando o assunto é COVID a epidemiologia e medicina são essenciais para orientar as nossas análises.


Considerando todos os cuidados e conhecimento que devemos ter para manipular dos dados e tirar insights dos mesmos, agora vamos as fontes!!!

COVID-19 Ministério da saúde (acesse) – Possibilita o download em CSV dos dados de novos casos, casos acumulados, óbitos novos e óbitos acumulados agrupados por estado e por data. Esses dados são tanto do COVID-19 quanto de SRAG (Síndrome Respiratória Aguda Grave).

Dados de mobilidade – GOOGLE (acesse) – O Google disponibilizou dados sobre a mobilidade em diferentes regiões e estabelecimentos ao longo do período. É possível obter os dados tanto em PDF como em CSV.

APIs de diversas fontes de dados – POSTMAN (acesse) – Esse site possuí a documentação e o link dos recursos de diversas fontes que disponibilizam seus dados via API.

Datalake de dados na AWS (acesse) – um repositório centralizado de conjuntos de dados atualizados e com curadoria relacionados à disseminação e/ou características do novo vírus corona (SARS-CoV-2) e sua doença associada, COVID-19.

Insumos – Ministério da Saúde (acesse) – Painel do Ministério da Saúde que informa a quantidade de recursos disponíveis por estado, possuí dados referentes a kit teste rápido, álcool em gel (L), avental, máscara cirúrgica, máscara N-95, etc.

Tendência de mobilidade – APPLE (acesse) – Semelhante aos dados disponibilizados pelo Google, divide em três grupos carro, a pé e transporte público. É possível consultar os dados direto na ferramenta ou ainda baixar o CSV com os mesmos.

Corona Data Scraper (acesse) – O Corona Data Scraper extrai dados de casos do COVID-19 Coronavirus de fontes verificadas, localiza os recursos GeoJSON correspondentes e adiciona dados da população. Todas as fontes são citadas na mesma linha que os dados.

Imagem de capa extraída de: https://slidemodel.com/templates/double-funnel-powerpoint-diagram/ e https://exame.abril.com.br/ciencia/metade-das-transmissoes-da-covid-19-ocorre-antes-dos-sintomas-diz-estudo/