Aula 4 - Análise e visualização de dados em Python

Após uma introdução sobre os principais elementos, tipos de dados, e funções que compõem a linguagem Python, chegou o momento da apresentação às chamadas bibliotecas. A partir desse momento, você começará a entender como é possível usar o Python para analisar e visualizar mais efetivamente seus dados, usando os recursos que realmente importam.

Nesta aula, portanto, veremos:

O que são bibliotecas;
Como instalar e importar bibliotecas no ambiente Jupyter Notebook;
Quais bibliotecas são importantes para trabalhar com dados.

O que são bibliotecas afinal?

Se você já deu uma pesquisada sobre assuntos e características envolvendo a linguagem Python (ou outras linguagens, como o R), deve ter visto algumas fontes escrevendo algo sobre as ditas 'bibliotecas'.

Bibliotecas), em Python, são um conjunto de linhas de códigos construídas para um propósito específico (acessos a bases de dados, cálculos, modelos... o que você puder imaginar) e que podem ser utilizadas para reduzir o tamanho dos códigos escritos num processo de programação, além do tempo que se leva na escrita e organização desses códigos, uma vez que são reutilizáveis.

O Python, por si só, possui o que é conhecido como Biblioteca Padrão, que é um conjunto de módulos essenciais e úteis para o seu funcionamento. Essa biblioteca já vem junto com o pacote que é instalado do site oficial, ou seja, não é preciso nenhuma ação posterior para tê-la em sua máquina. Para outras bibliotecas, dependendo do caso, é preciso fazer a instalação antes de usá-las. E como se faz isso?

Como instalar e importar bibliotecas em um ambiente Jupyter Notebook

No nosso caso, independente de ser no ambiente Jupyter Notebook instalado com o pacote Anaconda, ou o ambiente do Google Colaboratory (que é inspirado na iniciativa Jupyter), podemos utilizar comando semelhante para o caso de querer instalar alguma biblioteca, o pip:

!pip install PackageName
!pip install geopandas #Um exemplo de biblioteca para instalar

Para descobrir quais bibliotecas estão instaladas no ambiente no qual você trabalhará com seus dados, existem comandos como o pip freezee o help(); este último também serve para acionar a ajuda de qualquer biblioteca já disponível no ambiente (inclusive a chamada Biblioteca Padrão do Python).

pip freeze
help("modules")

No caso de a biblioteca já ter sido instalada, o que precisamos fazer somente é importá-la para o ambiente antes de começarmos a trabalhar; por uma questão de conveniência, sobretudo, nem o Python, nem o ambiente Jupyter carregam todas as bibliotecas que já possuem instaladas. Para tanto, usamos a função import:

import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
import seaborn as sns
import folium

Repare que, nesse comando, utilizamos um argumento aspara importar, seguido de uma sigla. Tal atributo serve como um alias da biblioteca a ser importada, facilitando o processo; em vez de escrevermos matplotlib.pyplot toda vez que queremos usar uma função da biblioteca, apenas escrevemos plte a função que queremos para fazer funcionar (isso será melhor compreendido quando partirmos para a pare prática/analítica da série, não se preocupe). Nem todas as bibliotecas terão esse alias; nos notebooks da série, essas abreviações aparecerão quando for conveniente.

O uso dessas bibliotecas também é bem simples: na linha de comando, se utiliza a ordem biblioteca.função(). O mesmo para a criação de objetos, quando necessário, apenas atribuindo uma variável ao mesmo.

import pandas as pd
dataframe = pd.read_csv("exemplo.csv")

As bibliotecas mais importantes para trabalhar com dados

Agora que sabemos o que são bibliotecas, além como proceder à instalação e importação das mesmas, podemos fazer a apresentação das bibliotecas que você poderá utilizar para trabalhar com seus dados. Vale ressaltar que, assim como o Python propriamente dito, as bibliotecas citadas são gratuitas e de código-aberto; então, você pode usá-las livremente a qualquer momento.

pandas

!pip install pandas
import pandas as pd

De início, podemos mencionar a biblioteca pandas (assim mesmo, em lower case). Ela é uma das mais conhecidas bibliotecas de análise de dados em Python, e geralmente é a primeira a ser apresentada aos futuros cientistas de dados. A razão para isso é simples: o pandas, além de ser uma biblioteca completa para análise de dados, é fácil de manusear. Você pode trabalhar com variados tipos de arquivos de dados, como JSON e Excel (.csv, .xlsx). É nessa biblioteca que a série baseará suas primeiras aulas práticas.

Você pode consultar a documentação do pandas aqui, além de verificar a seção dedicada ao projeto pandas no PyPI.

NumPy

!pip install numpy
import numpy as np

O NumPy também é uma das bibliotecas basais para quem quer lidar com dados no Python. Essa biblioteca trabalha, principalmente, com arranjos de matrizes e vetores, cobrindo todas as funções de álgebra linear, além de poder trabalhar com manipulação de imagens, estatística, e operações matemáticas. Isso faz com que o NumPy esteja presente nas linhas de código de várias bibliotecas utilizadas no mundo da ciência de dados, como o pandas. Não é à toa que, segundo o site oficial do NumPy, "quase todo cientista que usa Python se vale do poder do NumPy".

Você pode saber mais sobre o ecossistema do NumPy acessando a página inicial, e verificar o poder da biblioteca na sua documentação.

GeoPandas

geopandas-logo

!pip install geopandas
import geopandas as gpd

Outra biblioteca a qual a série dará atenção é a GeoPandas. Como o nome e o logo já entregam, a biblioteca se baseia em pandas, sendo especializada na importação de dados geográficos para o ambiente; então, é com essa biblioteca que você pode trabalhar com as coordenadas que estão juntas dos seus dados de coleta, por exemplo. Também é possível trabalhar com shapefiles (arquivos .shp, .shx, .dbf...), além de dados em formato GeoJSON.

Verifique a documentação do GeoPandas aqui para saber mais sobre as possibilidades de se trabalhar com essa biblioteca.

Matplotlib

logos2

!pip install matplotlib
import matplotlib.pyplot as plt

O Matplotlib é a principal biblioteca para visualização de dados no Python. Com ela, é possível plotar os mais diversos gráficos, tendo a capacidade de administrar desde o título do gráfico, até escalas, cores e fontes. A parte de visualização de dados do pandas é baseada no Matplotlib, sendo que muitas vezes trabalham juntas.

A documentação do Matplotlib pode ser vista aqui.

Seaborn

!pip install seaborn
import seaborn as sns

Em matéria de visualização de dados, o Seaborn é uma ótima opção. A biblioteca permite ir mais além dos plots do Matplotlib, gerando gráficos com um estilo mais elegante e com poucas linhas de código.

Na página oficial da biblioteca, você pode explorar todas as possibilidades de visualização de dados que o Seaborn oferece.

Onde encontrar outras bibliotecas úteis para dados

Python Package Index

Para encontrar e se atualizar sobre outras bibliotecas úteis para trabalhar com seus dados, além dos projetos a elas associados, o Python Package Index (PyPI) é uma ótima referência. Lá você pode buscar por mais de 320 mil projetos baseados em Python nas mais variadas áreas do conhecimento, além de encontrar várias instruções de como instalar e atualizar bibliotecas.

Nesta aula da série, vimos o que são bibliotecas, como lidar com elas, além de uma apresentação rápida sobre as bibliotecas mais importantes para trabalhar com dados em Python. Uma vez conhecida essa questão, estamos prontos para começar a parte 'mão na massa' da série. A partir da próxima aula, conceitos que foram apresentados nos posts introdutórios começaram a ser assentados na sua mente de uma das melhores formas possíveis: praticando, sem muitos rodeios. Em cada início de aula serão apresentados, caso necessário, os conjuntos de dados, ou datasets, que serão utilizados; é a partir deles que faremos nossas primeiras análises.

A primeira, e principal, biblioteca que usaremos nessa série, será o pandas. Recomendo que, antes de prosseguir, você dê uma olhada na página oficial e na documentação da biblioteca; lá estarão aspectos que, por variadas questões, não conseguirão ser cobertas aqui por completo. Faça o mesmo com as outras bibliotecas, além de verificar o site do PyPI.

Bora começar a praticar análise e visualização de dados em Python juntos?

Caso queira, deixe um feedback ou sua dúvida em um comentário ou mensagem, para que nosso aprendizado seja cada vez mais amplo.

Um forte abraço e até a próxima aula!

Aula 4 - Análise e visualização de dados em Python - Apresentando as bibliotecas

O que são bibliotecas afinal?

Como instalar e importar bibliotecas em um ambiente Jupyter Notebook

As bibliotecas mais importantes para trabalhar com dados

pandas

NumPy

GeoPandas

Matplotlib

Seaborn

Onde encontrar outras bibliotecas úteis para dados

Python Package Index

Para ler mais:

Comments

Python para Ecólogos (e outros biólogos também)

Aula 5 - Análise e visualização de dados em Python - Biblioteca pandas (Parte 1)

More from this blog

ATC/DDD na Ponta dos Dedos: Extração de Dados com Web Scraping

Aula 10.3 - Análise e visualização de dados em Python - biblioteca pandas (parte 8)

Aula 10.2 - Análise e visualização de dados em Python - biblioteca pandas (parte 7)

Unlocking the Power of JSON in Clinical Data Management: A Practical Guide

JSON na Prática: Lidando com o Dataset-JSON em Python

Command Palette

O que são bibliotecas afinal?

Como instalar e importar bibliotecas em um ambiente Jupyter Notebook

As bibliotecas mais importantes para trabalhar com dados

pandas

NumPy

GeoPandas

Matplotlib

Seaborn

Onde encontrar outras bibliotecas úteis para dados

Python Package Index

Para ler mais:

Comments

Python para Ecólogos (e outros biólogos também)

Aula 5 - Análise e visualização de dados em Python - Biblioteca pandas (Parte 1)

More from this blog