Matheus Halmenschlager

Aula 10.1 - Análise e visualização de dados em Python - biblioteca pandas (parte 6)

Matheus Halmenschlager — Tue, 26 Oct 2021 17:04:57 GMT

Pense se voc j se deparou alguma vez com as seguintes situaes:

Os dados que chegam a voc para anlises esto divididos em duas ou mais tabelas;
Voc precisa dividir o contedo de uma tabela em dois para poder processar melhor os dados... e depois precisa os juntar outra vez, ou precisa fazer uma anlise com uma parte da primeira tabela, e outra parte da segunda;
E nessas duas situaes, voc no tem ideia do que fazer, alm de juntar tudo manualmente, no Ctrl+C, Ctrl+V, sempre se sujeitando a errar em algo.

Essas situaes podem gerar um desperdcio de tempo, energia, e dinheiro considervel, sem falar no desespero que pode bater. Ento, sendo uma biblioteca completa para anlise de dados, o pandas tambm providencia funes para agregao de diferentes dataframes, sendo solues fceis e bastante prticas. A documentao da biblioteca mostra com detalhes as possibilidades para fazer essas combinaes, e esse aspecto do pandas que exploraremos nessa aula.

Ento, o que ser visto aqui:

Como combinar dataframes com a biblioteca pandas;
Principais funes do pandas para concatenar, unir, e juntar.

Combinar dataframes com o pandas

A documentao do pandas, especialmente no Guia do Usurio, indica que temos, pelo menos, trs modos de combinar conjuntos de dados: com concatenao (concat()), unio (merge()), e a juno (join()). Para usar essas funes, preciso levar em considerao duas coisas: o que voc quer juntar de duas ou mais tabelas, e onde voc quer chegar com isso. Caso isso tenha ficado confuso por agora, no se preocupe, pois medida em que as funes e suas capacidades forem apresentadas, voc poder j identificar qual a funo que vem de encontro ao seu objetivo, e como us-la para conseguir aquilo que se quer.

Antes de mais nada: carregando os datasets para uso no pandas

Como essa srie baseada na mistura entre partes tericas e prticas, antes de irmos parte de apresentao das funes, precisamos carregar os conjuntos de dados com os quais iremos trabalhar aqui. Esses conjuntos esto no repositrio da srie no GitHub, para que voc possa os usar livremente. E como carregaremos mais de um conjunto, faremos aqui uma coisa diferente: em vez de apenas nomear o objeto atribudo ao conjunto de dados apenas como df, usaremos os nomes de cada arquivo .csv disponibilizados. No caso, portanto, os objetos sero nomeados surveys e species, sendo que o processo de nomeao o mesmo que utilizamos para df.

import pandas as pd #Importao da biblioteca pandas (sempre a primeira coisa a ser feita)surveys = pd.read_csv("https://github.com/mhalmenschlager/python-biologia/raw/main/archives/surveys.csv") #Carrega o arquivo 'surveys.csv'species = pd.read_csv("https://github.com/mhalmenschlager/python-biologia/raw/main/archives/species.csv") #Carrega o arquivo 'species.csv'

Isso posto, agora podemos comear a entender como as funes concat(), merge(), e join() funcionam. Para tanto, a aula ser dividida em trs posts ou partes diferentes:

A primeira parte, que vem a seguir, apresenta a funo concat();
A segunda parte discute sobre a funo join();
A terceira e ltima parte ser dedicada funo merge().

Concatenao: funo `concat()`

A funo de concatenao considerada o 'canivete suo' das funes de combinao de dataframes, podendo operar tanto com linhas, quanto com colunas. A questo aqui que os dataframes a serem selecionados para a operao sero apenas "colados", seja pelo eixo de suas linhas, ou pelo eixo de suas colunas.

Para entender melhor, faamos o seguinte: a partir do dataframe surveys criado anteriormente, criemos dois outros, com as cinco primeiras entradas e as cinco ltimas entradas desse conjunto. Assim:

surveys_primeiras = surveys.head() #Cinco primeiras entradas de 'surveys'

surveys_ultimas = surveys.tail() #Cinco ltimas entradas de 'surveys'

Um detalhe: Se voc executar os blocos de cdigo que foram at agora aqui expostos, poder perceber uma coisa: ao criarmos os novos objetos, a tabela surveys_ultimas mantm a indexao da tabela da qual se originou. Caso queiramos que haja uma indexao nova, h uma funo para isso: reset.index(). Usamos ela da seguinte forma:
surveys_ultimas = surveys_ultimas.reset_index(drop=True) #Reorganiza o ndice de 'surveys_ultimas', trocando o ndice antigo de 'surveys' para um novo.
Esta funo ser mencionada outras vezes nessa aula, uma vez que ela ser importante para que possamos fazer o processo de concatenao de forma correta em um dado momento.

Tendo esses novos objetos em mos, podemos fazer a operao de concatenao, seja ela vertical (colados pelo eixo das colunas), ou horizontal (colados pelo eixo das linhas), usando a funo concat().

vertical = pd.concat([surveys_primeiras, surveys_ultimas], axis=0) #Concatenao vertical

horizontal = pd.concat([surveys_primeiras, surveys_ultimas], axis=1) #Concatenao horizontal

Repare que, quando a funo concat() chamada, h um parmetro que indica por qual eixo queremos fazer a concatenao, o axis. Ento, para que a operao corra bem, lembre-se sempre de que, para fazer a operao vertical, o axis possui valor 0; para a horizontal, valor 1. Ainda, precisamos sempre reparar se as coisas esto fazendo sentido: ao fazermos a concatenao horizontal, os dados contidos nas linhas a serem coladas precisam estar relacionados de alguma forma. Na concatenao vertical, imperativo verificar se as colunas possuem as mesmas caractersticas, i.e., o mesmo nome e o mesmo tipo de dado.

Um detalhe: Quando fazemos a concatenao vertical, podemos passar por um pequeno problema: os ndices das linhas no tem continuidade, pulando do ndice 4 para o 35544 de uma vez s. Isso acontece porque colamos linhas e colunas de dataframes com seus prprios ndices. Um modo de contornar o problema utilizar a funo reset_index() (olha ela aqui de novo!) para que o ndice seja reorganizado. Assim:
vertical = vertical.reset_index() #Reseta o ndice
Perceba que a indexao agora aparece organizada.
Outro detalhe: No parece que a concatenao horizontal ficou parecendo uma baguna, cheia de NaN? Isso aconteceu por um motivo simples: quando as tabelas so colocadas lado a lado, as identificaes das colunas podem se repetir, e as linhas acabam por ganhar 'extenses'; como no h dados nessas novas clulas, elas aparecem como dados nulos. Para resolver essa 'zona', podemos utilizar o reset_index()mais uma vez. Nesse caso, podemos criar um novo objeto com o ndice resetado, e fazermos a concatenao outra vez. Assim:
surveys_ultimas2 = surveys_ultimas.reset_index(drop=True) #Cria um novo objeto, 'surveys_ultimas2', com o ndice resetadohorizontal_2 = pd.concat([surveys_primeiras, surveys_ultimas2], axis=1) #Faz concatenao horizontal, com as duas tabelas tendo mesmo ndice
Agora sim, temos uma concatenao horizontal mais bem organizada do que a anterior.

A funo concat() uma excelente funo para a unio de dois ou mais dataframes baseando-se em suas indexaes, uma vez que pode trabalhar tanto com o eixo das linhas, quanto o das colunas, se transformando no 'canivete suo' das funes que usam o ndice como base. O que foi apresentado aqui uma parte mais bsica da funo, com a qual voc j pode sair praticando com outras bases de dados; concat() possui mais detalhes em seus argumentos, fazendo com que valha a pena analisar a documentao e outras referncias para ter noo do poder dessa funo no que se refere a juntar conjuntos de dados.

Aproveite para praticar a funo concat()e nos vemos nas prximas partes, onde discutiremos mais sobre join() e merge(), outras formas de juntar conjuntos de dados.

Um grande abrao e at o prximo post!

Para ler mais:

Aula 9 - Análise e visualização de dados com Python - biblioteca pandas (parte 5)

Matheus Halmenschlager — Mon, 27 Sep 2021 19:10:12 GMT

Quando acessamos algumas bases de dados e colocamos as mos em datasets para treinar nossas habilidades de anlise e visualizao de dados, seja em Python, ou em qualquer outra linguagem ou ferramenta, geralmente nos deparamos em dados que j passaram por um processo que chamamos de data cleaning, ou, em portugus, limpeza de dados. Esse processo essencial quando vamos trabalhar com dados, sendo o que mais nos demanda ateno: boa parte do tempo de um analista ocupado com limpeza, transformao e reorganizao daquele monte de dados entulhados em algum lugar (h pessoas que dizem que essa parte ocupa at 80% do tempo! Outros dizem que no bem assim...). Ento, os dados que usualmente utilizamos para treinar, e que esto disponveis em plataformas como o Kaggle esto limpos e organizados.

No entanto, quando nos deparamos com datasets do mundo real, inclusive aqueles que ns mesmos coletamos, percebemos que eles correm o grande risco de no serem completos e padronizados, fazendo com que todo aquele tempo com limpeza dos dados acabe por ocorrer conosco tambm. Mesmo com o processo de coleta e ingesto de dados mais rigoroso, mais cuidadoso possvel, todo conjunto de dados est suscetvel a alguma "sujeira". Por isso mesmo, essencial aprender a detectar as inconsistncias nos dados que podemos encontrar, e, sobretudo, saber o que fazer com elas.

Essa aula dedicada a uma parte do processo de limpeza de dados, com exemplo e recomendao do que fazer quando voc se deparar com aquilo que se costuma chamar dados nulos.

Ento, eis o que veremos aqui:

O que so dados nulos (e por que eles aparecem);
Como detectar dados nulos;
Como lidar com dados nulos.

Afinal, o que so dados nulos (e por que eles aparecem?)

Dados nulos ou no-respostas (missing values, em ingls) so os dados que, por alguma circunstncia, no esto disponveis para anlise. A origem deles pode ser variada, e aqui cita-se alguns exemplos:

Erros de digitao/transcrio para o banco de dados (ou seja, na ingesto desses dados);
Esquecimento da coleta de uma determinada varivel em um momento especfico;
Adio ou subtrao de variveis no decorrer do processo de coleta de dados (especialmente aquelas coletas que levam anos a serem feitas);
Falta de uma padronizao na organizao dos dados.

NOTA: Para entender mais sobre os tipos de dados nulos e como eles aparecem, recomendo algumas referncias: os artigos de Kang (2013) e Dong e Peng (2013), alm do verbete sobre missing data na Wikipdia em ingls e em portugus.

A presena de dados nulos, apesar de ser comum, pode afetar a anlise dos dados, reduzindo seu poder estatstico e explicativo. Por isso mesmo, bastante importante no ignor-los; A seguir veremos como podemos detectar esses dados nulos no dataset com o qual estamos trabalhando.

Como detectar dados nulos

A deteco de dados nulos no pandas bem simples, e normalmente um das primeiras coisas ao se trabalhar com essa biblioteca. Na documentao do pandas, h um guia chamado "Working with missing data", onde funes relacionadas com dados nulos so apresentadas. Com o mesmo dataframe que estamos utilizando desde o incio da parte prtica da srie, exploraremos aqui algumas funes (algumas citadas nesse guia) para detectar dados nulos.

Funes `head()`e `tail()`

Com as funes que usualmente iniciamos os nossos passos para anlise de dados dentro da linguagem Python com o pandas, j possvel observar uma possvel existncia de dados nulos. Usando head() e tail(), podemos verificar se as primeiras e as ltimas linhas da tabela possuem clulas preenchidas com NaN, NaT, ou None.

import pandas as pd #Sempre importe o pandas antes de comearimport numpy as np #Sempre bom importar o Numpy tambmdf = pd.read_csv("https://github.com/mhalmenschlager/python-biologia/raw/main/archives/surveys.csv") #Nosso dataset de exemplo. Importe-o no seu notebook ou IDE de prefernciadf.head() #Cinco primeiras entradasdf.tail() #Cinco ltimas entradas

Funo `info()`

A funo info(), que j foi vista por aqui, uma das funes que podem ser utilizadas para observar a existncia de dados nulos, atravs da anlise de cada coluna/varivel no dataframe. Essa funo retorna uma lista com a quantidade de clulas em cada varivel que possua dados vlidos (non-null); possvel, a partir da, comparar os nmeros de clulas com dados vlidos com o nmero total de linhas e colunas de df.

df.info() #Observao de dados no-nulos

Funo `isnull()`

A resposta da funo um indicador booleano: para dados nulos, aparece o True, enquanto que para os dados no-nulos, o Falsequem surge. Voc pode utiliz-la junto da funo sum()para quantificar os dados nulos de uma determinada coluna, por exemplo.

df.isnull() #Dados nulos (com retorno booleano) de todo o dataframedf.column.isnull() #Dados nulos de uma variveldf.column.isnull().sum() #Soma de clulas com dados nulos em uma varivelnulo = df.isnull().sum().sort_values(ascending=False) #Verificao de dados nulos, em ordem decrescente(nulo / df.shape[0])*100 #Verificao de porcentagem de dados nulos por varivel

Funo `notnull()`

A funo notnull(), assim como a funo isnull(), retorna um valor booleano, apenas aqui sendo o contrrio: o Trueaparece para dados no-nulos. Usando a funo sum(), o retorno tambm ser quantitativo, com resultado semelhante funo info(), com a diferena da possibilidade de quantificao de uma s coluna.

df.notnull() #Dados vlidos (com retorno booleano) de todo o dataframedf.column.notnull() #Dados vlidos (com retorno booleano) de uma variveldf.column.notnull().sum() #Soma de clulas de uma varivel com dados vlidos### Usando as funes para criar novos objetos ###valido = df.notnull().sum().sort_values(ascending=False) #Verificao de dados vlidos, em ordem decrescente(valido / df.shape[0])*100 #Verificao de porcentagem de dados nulos por varivel

Funes `isna()` e `notna()`

Outro conjunto de funes que pode ser utilizado para verficiar a presena de dados nulos e que aparece na documentao do pandas o composto por isna() e notna(). Essas funes so semelhantes a isnull() e notnull(), respectivamente, dando um retorno booleano ao processo de verificao.

df.isna() #Dados nulos (com retorno booleano) de todo o dataframedf.notna() #Dados vlidos (com retorno booleano) de todo o dataframe

Como lidar com dados nulos?

Existem diversas formas de fazer um processo de manipulao de dados para contornar o problema dos dados nulos; isso depende, portanto, da capacidade de discernimento do pesquisador ao definir qual a melhor maneira a ser adotada. Tal capacidade vem com a compreenso do conjunto de dados (saber o que so as variveis a serem analisadas, qual o peso delas para as anlises a serem feitas...) e, principalmente, qual o problema a ser resolvido ou a pergunta que se quer responder com aquilo que foi coletado. Nessa parte da aula, veremos algumas funes do pandas que nos ajudam a fazer a "conteno de danos" ao lidarmos com a "sujeira" dos nossos dados.

Funo `dropna()`

A funo dropna()tem como objetivo retirar linhas ou colunas que contenham, pelo menos, um valor nulo. Por padro, a funo sozinha elimina todas as linhas, mas isso pode ser alterado de acordo com os argumentos que so passados na linha de cdigo.

df.dropna() #Elimina todas as linhas que possuam qualquer dado nulodf.dropna(axis=1) #Elimina todas as colunas que possuam qualquer dado nulodf.dropna(axis=0, have='any') #Elimina todas as linhas que possuam qualquer dado nulodf.dropna(axis=0, have='all') #Elimina todas as linhas que possuam todos os valores como dados nulosdf.dropna(axis=0, thresh=2) #Mantm linhas que possuam, no mximo, 2 valores como dados nulos, eliminando as demais

Funo `fillna()`

Se a funo dropna()serve para, simplesmente, eliminar dados nulos, a funo fillna() serve para mant-los, fazendo um processo de preenchimento das clulas que apresentam valores como NA, NaN, ou NaT. Para preenchimento efetivo, necessrio especificar o mtodo a ser adotado, passando argumentos ao cdigo que ser executado.

df.fillna(0) #Preenche todos os elementos NaN com o valor 0df.fillna(method='pad') #Preenche os elementos NaN com a ltima observao vlidadf.fillna(method='ffill') #Preenche os elementos NaN com a ltima observao vlidadf.fillna(method='bfill') #Preenche os elementos NaN com a observao vlida posterior a elesdf.fillna(method='backfill') #Preenche os elementos NaN com a observao vlida posterior a elesdf.fillna(value=0, limit=1) #Preenche apenas o primeiro elemento NaN do dataframe com o valor 0#### Usando ndices de tendncia central ####df['column'].fillna(int(mean), inplace=True) #Preenche elementos NaN com a mdiadf['column'].fillna(int(median), inplace =True) #Preenche elementos NaN com a medianadf['column'].fillna(int(mode), inplace=True) #Preenche elementos NaN com a moda

Funo `interpolate()`

Quando as medidas de tendncia central no parecem ser suficientes para preencher o espao dos valores nulos num dataframe, possvel lanar mo do mtodo chamado de interpolao. Basicamente, interpolar gerar um dado novo a partir de um conjunto de dados que j so conhecidos. Nesse caso, o pandas pode usar os valores vizinhos de uma clula cujo valor ainda no conhecido aqui (NaN) para estimar um valor novo que parea fazer mais sentido quele conjunto de dados que estamos analisando. A funo de interpolao semelhante ao fillna(), mas com a diferena que muito mais flexvel; ao usar interpolate(), o analista possui uma variedade interessante de interpolaes mo, sendo que a interpolao padro por parte do pandas a do tipo linear. Algumas dessas interpolaes podem ser vistas no exemplo abaixo:

df.interpolate() #Interpolao do tipo linear para os valores nulos do dataframedf.interpolate(method='polynomial', order=2) #Interpolao do tipo polinomial para os valores nulos do dataframedf.interpolate(method='pad', limit=2) #Interpolao com preenchimento com o valor acima do valor nulo, com limite de 2 valores NaNdf.interpolate(method='linear', limit_direction='forward') #Interpolao do tipo linear para os valores nulos do dataframe utilizando o valor anterior como limitedf.interpolate(method ='linear', limit_direction ='backward', limit = 1) #Interpolao do tipo linear para os valores nulos do dataframe utilizando o valor posterior ao NaN como limite, sendo 1 o nmero mximo de valores NaN que podem ser preenchidos com esse mtodo

E agora, Que tal fazer voc mesmo?
Com todos os cdigos em mos, aproveite apara abrir um novo arquivo .ipynb ou .pyno Google Colab, no Anaconda ou em outra IDE que voc conhea, e v explorando os blocos de cdigo aqui citados, tanto com o dataset de exemplo, quanto o seu prprio conjunto de dados, ou algum outro que voc viu na Internet ou que passaram para voc treinar.

Ao terminar essa aula, recomendo a voc que d uma olhada na documentao do pandas e nas referncias que esto nos hyperlinks e na seo 'Para ler mais' abaixo para entender bem essa parte de verificar dados nulos e lidar com eles. Por ser um processo que se inclui na limpeza de dados, uma das mais importantes aes que preciso fazer ao lidar com anlise e visualizao de dados, e as aplicaes posteriores a isso. No se esquea tambm de praticar exaustivamente com os cdigos aqui passados, para absorver todo o potencial de cada funo do pandas explanada aqui.

Ento, cuide bem dos seus dados! Economiza tempo, energia e, dependendo do caso, at dinheiro...

Um grande abrao, divirta-se com os cdigos e at a prxima aula!

Para ler mais:

Aula 8 - Análise e visualização de dados com Python - biblioteca pandas (Parte 4)

Matheus Halmenschlager — Thu, 16 Sep 2021 22:55:41 GMT

Nas aulas anteriores, avanamos na parte mais prtica da biblioteca pandas, observando os recursos referentes importao e manipulao de dados, alm de algumas anlises iniciais. Desta vez, voltemos o olhar a um aspecto distinto do pandas e do Python que tambm muito importante na hora de analisar e, principalmente, apresentar os dados que foram coletados. Essa aula, portanto, uma introduo bsica visualizao de dados em pandas.

O que veremos aqui:

Como a visualizao de dados encarada no pandas;
Principais linhas de cdigo para voc comear a criar seus prprios grficos em Python usando o pandas.

Ento, como podemos visualizar os dados com o pandas?

A biblioteca pandas baseia sua parte de visualizao usando uma API de outra biblioteca, o Matplotlib. Por isso mesmo, quando planejamos plotar algum grfico em um relatrio ou notebook usando o pandas, podemos utilizar recursos do Matplotlib para fazer isso.

import pandas as pd #Importa o pandasimport matplotlib.pyplot as plt #Importa a API do Matplotlib%matplotlib inline #Define que os resultados/plots obtidos com o Matplotlib sejam apresentados e armazenados junto do notebook com o qual estamos trabalhando

A API do Matplotlib, nesse caso, a pyplot: esta uma coleo de funes que permitem fazer grficos simples, mas apresentveis, e que j ajudam muito na visualizao dos dados que importamos e manipulamos com o pandas. Voc pode explorar mais as possibilidades de plotagem de grficos com o pandas que sero apresentadas aqui dando uma olhada no Guia do Usurio do pandas, alm do Cookbook e o 10 minutes to pandas, projetos do prprio site do pandas para compreender melhor a bibiloteca.

Sem mais delongas, vamos apresentao dos tipos de grficos que podem ser produzidos usando as bibliotecas pandas e Matpotlib.

O bsico do bsico: funo `plot()`

Essa a funo que servir de base para fazer as plotagens de grficos ao usarmos o pandas (e o Matplotlib) em nossos projetos. Por padro, a funo plot() tem como output um grfico de linhas; interessante usar esse grfico ao lidarmos, por exemplo, com conjuntos de dados que possuam amostragens ocorrentes em um perodo de tempo contnuo.

Para lidarmos com a parte prtica da aula, utilizaremos o mesmo conjunto de dados com o qual estamos trabalhando nas ltimas semanas (surveys.csv). A partir dele, faremos algumas alteraes conforme necessrio.

df = pd.read_csv("https://github.com/mhalmenschlager/python-biologia/raw/main/archives/surveys.csv")df.head()

Grfico de linha

Como foi j referenciado no ttulo dessa seo, comeemos com o bsico do bsico, usando a funo plot() puramente. O retorno ser de um grfico de linha, considerando linhas e colunas da tabela que importamos, conforme visto em df.head():

df.plot()

Mesmo que o grfico no faa o menor sentido nesse momento, j podemos perceber aqui que tipo de resultado teremos quando usarmos a funo plot(). Essa funo tambm nos d possibilidades de plotar grficos com variveis especficas, de outros tipos, at mesmo com diferentes ttulos e legendas; nesses casos, necessrio apenas adicionar alguns outros argumentos a essa linha, indicando quais variveis sero consideradas para fazer o grfico, que tipo de grfico queremos, e assim por diante. Esses argumentos so colocados dentro dos parnteses da funo plot(), conforme o exemplo abaixo:

df.plot(x='year', y='record_id') #Especifica os valores dos eixos 'x' e 'y'

Neste caso, queremos especificar que tipos de variveis queremos que apaream nos eixos x e y; usemos as variveis de ano e ID de registro como exemplo. O resultado dessa linha de cdigo possui um pouco mais de sentido pois, a partir do grfico, podemos avaliar a evoluo das quantidades de amostragem conforme os anos considerados no dataframe.

Outro exemplo que podemos utilizar para explorar o grfico de linhas, e que tambm envolve os anos de amostragem, tem a ver com agrupamentos. Nessa situao, veremos a contagem total de amostras feitas por cada ano, e a partir disso plotar um grfico para acompanhar visualmente a evoluo dessa amostragem. Para tanto, utilizaremos as funes groupbye count na mesma linha de cdigo antes de plotarmos o grfico, para organizao do frame que ser a base do grfico.

year = df.groupby('year')['record_id'].count() #Contagem de amostragens, com base em seus IDs, por anoyear.head() #Cinco primeiras entradas do frame

A partir disso, usaremos o objeto criado year para plotar um grfico de linha:

year.plot() #Grfico de linha do objeto 'year'

Uma dica: Por n+1 razes, haver momentos em que a figura parecer pequena para a quantidade de informao que est dentro dela. Quando ocorrer isso, podemos sempre lanar mo do argumento figsize para ajustar o tamanho da figura at que ela fique em um tamanho que se possa considerar razovel.

year.plot(figsize=(17,3)) #Grfico de linha do objeto 'year', com tamanho de figura (17,3)

Avanando na funo `plot()`: outros tipos de grficos disponveis

Como dito anteriormente, a funo plot(), alm dos grficos de linha, possibilita ao usurio plotar uma srie de grficos. A documentao do pandas expe, em detalhes, as capacidades de visualizao de dados do pandas; aqui, sero expostos alguns baseados no dataframe que estamos utilizando como exemplo.

Grfico de barras

Enquanto um grfico de linhas mais utilizado para acompanhar a evoluo de uma amostragem usando uma srie contnua, geralmente temporal, o grfico de barras largamente recomendado para avaliar as amostragens de um conjunto de dados categricos. Usando o df ainda como exemplo, em vez de avaliarmos as amostragens de acordo com os anos de coleta, podemos observar a quantidade de coletas feitas de acordo com as espcies consideradas. Em vez de utilizarmos a varivel year, dessa vez nos valeremos da varivel species_id, e a partir da quantidade de IDs feitos, poderemos observar as diferenas entre espcies.

count = df.groupby('species_id')['record_id'].count() #Contagem dos IDs das amostragens de acordo com os IDs de espciescount.head() #As cinco primeiras entradas do objeto 'count'

count.plot(kind='bar', figsize=(18,3)) #Plotagem de um grfico de barras do objeto 'count', com tamanho (18, 3)

O resultado do plot a amostragem de espcies em ordem alfabtica. Aqui, j vemos a representatividade de algumas espcies, como 'DM', 'DO', 'OT', e 'PP' no nmero total de coletas. Se quisermos organizar os dados de forma ordenada, do maior para o menor, por exemplo, antes de usarmos a funo plot() preciso apenas usar a funo sorting.values(). Assim, criaremos um novo objeto, count2, adicionando esse argumento.

count2 = df.groupby('species_id')['record_id'].count().sort_values(ascending = False) #Contagem dos IDs das amostragens de acordo com os IDs de espcies, de forma ordenada. O (ascending = False) indica que a organizao ser feita de forma decrescente, do maior para o menor.count2.head() #As cinco primeiras entradas do objeto 'count2'

count2.plot(kind='bar', figsize=(18,3)); #Plotagem de um grfico de barras do objeto 'count2', com tamanho (18, 3)

Aqui j vemos um grfico mais bem organizado, com uma ordenao decrescente da amostragem das espcies. Lembre-se que cada ID de espcies associado com o nome desta; voc pode ver isso com mais detalhes nas aulas anteriores, com o dicionrio de variveis, bem como no repositrio da srie no GitHub.

Grfico de pizza

O grfico de pizza , sem dvidas, um dos mais utilizados por qualquer profissional, independente da rea. E, infelizmente, um dos grficos mais mal utilizados; embora a proposta seja a exibio de dados de uma forma fcil de ler, muitas vezes os resultados so horrendos (em uma outra postagem envolvendo visualizao de dados, escreverei mais sobre).

Esse grfico muito usado para apresentar propores entre os dados amostrados, mais frequentemente na forma de porcentagens. Plot-lo com o pandas tambm muito simples, ainda usando a funo plot(). Comecemos separando os dados que utilizaremos aqui: observaremos a contagem total de trs espcies, 'DM', 'DO', e PP, utilizando a funo count(), e separando-as por um groupby().

dmXdoXpp = df.groupby('species_id')['record_id'].count()[['DO', 'DM', 'PP']] #Contagem da amostragem das espcies 'DM', 'DO', e 'PP', considerando seus IDs de registrodmXdoXpp #Chamamento do objeto 'dmXdoXpp'

dmXdoXpp.plot(kind='pie') #Plotagem de um grfico de pizza do objeto 'dmXdoXpp'

Grfico de caixa (boxplot)

Grficos de caixa, ou boxplots, so largamente utilizados para avaliar a variao de um conjunto de dados atravs de um sistema de mximos, mnimos, e quartis ou percentis. So timos para ver como se comportam as amostragens de um determinado grupo ou varivel, propiciando inclusive a verificao de dados que so muito discrepantes, os chamados outliers. Esse tipo de plotagem muito conhecido por estar presente em Anlises Exploratrias de Dados (AEDs), que so as primeiras anlises a serem feitas aps a coleta de dados. No caso do boxplot, destacamos aqui uma funo levemente distinta do simples plot()para faz-lo, embora seja possvel ir por esse caminho tambm.

Para mostrar como se faz um boxplot com o pandas, criaremos um novo objeto, MxF, uma vez que avaliaremos a variao do comprimento do retrop conforme o sexo de cada animal amostrado. Para isso, faremos uma nova tabela, com a funo pivot_table():

MxF = df.pivot_table('hindfoot_length', 'record_id', 'sex') #Tabela com a variao do comprimento do retrop de acordo com o sexo das amostras consideradas no conjunto de dadosMxF

Para fazer a plotagem do grfico de caixas, usaremos aqui a funo boxplot() a partir do novo objeto:

MxF.boxplot(); #Grfico de caixa do objeto 'MxF'

Neste grfico, j podemos ter uma ideia da variao do comprimento em centmetros do retrop de cada amostragem considerada, com a separao por sexo. Repare que, quando chamada a funo boxplot(), o grfico aparece com um gradeamento. H uma linha de cdigo alternativa para criar um grfico de caixas que usa a funo plot(), s que essa sem gradeamento:

MxF.plot(kind = 'box') #Grfico de caixa do objeto 'MxF'

Outros tipos de grfico suportados pelo pandas

Alm desses, h outros tipos de grfico (rea, scatter plot, etc.) que so suportados pela biblioteca pandas, que no so mencionados aqui; isso permite que o usurio possa fazer grficos apresentveis para seus relatrios, apresentaes ou outras exposies usando uma s biblioteca. Para conhecer e praticar mais exaustivamente, recomendada uma leitura atenta documentao do pandas, onde se expe, com exemplos prticos, todas as possibilidades que a biblioteca oferece para visualizao de dados.

Outras bibliotecas, como o Matplotlib e o Seaborn, fazem parte do ecossistema do pandas e so especializados em visualizao de dados. Em outro momento da srie, esses recursos sero apresentados com mais detalhes, e haver uma discusso mais extensa sobre a visualizao de dados em Python, e como voc pode utilizar essas ferramentas da melhor forma possvel com seus dados.

Por aqui, encerramos uma outra aula de apresentao da biblioteca pandas. Com o que j foi exposto aqui, voc j tem conhecimento e referncias para comear a fazer suas prprias anlises de dados. No esquea de fazer duas coisas importantes: ler de forma exaustiva as documentaes e referncias expostas nas aulas, e praticar muito, com o dataset de exemplo e tantos outros. Com isso, voc aprender a usar a linguagem Python para alar posies de destaque na sua rea profissional e/ou acadmica, seja na Ecologia, em outras reas da Biologia, ou com outros projetos de seu interesse. Aproveite para deixar um feedback das aulas e, caso surjam dvidas ou curiosidades acerca dos temas expostos por aqui, estarei sempre disposio para auxlio ou, at mesmo, uma motivao a mais. Siga buscando conhecimento!

Um grande abrao, at a prxima aula e, sobretudo, divirta-se com os grficos!

Para ler mais

Aula 7 - Análise e visualização de dados em Python - Biblioteca pandas (parte 3)

Matheus Halmenschlager — Wed, 01 Sep 2021 14:28:49 GMT

Nas ltimas aulas, foram abordadas vrios recursos do pandas que voc pode utilizar em suas prticas com dados, abordando tambm conceitos essenciais para voc aproveitar essa biblioteca do Python da melhor maneira. Nessa aula, continuaremos nessa mesma pegada.

Nessa aula, veremos:

Outros mtodos de fatiamento: loc e iloc;
Selees por critrios

Outros mtodos de fatiamento: `loc` e `iloc`

Anteriormente, vimos j alguns mtodos do processo chamado de fatiamento ou slicing, no qual possvel criar novos frames separando linhas e colunas com as quais se quer trabalhar. No pandas, existem uma srie de recursos que exploram esse processo, tornando a experincia com a biblioteca mais proveitosa medida em que vai se dominando as diferentes maneiras de seleo de linhas e colunas. Nessa aula, sero apresentados os mtodos loce iloc.

Mtodo `loc` - Localizao por rtulos

Grosso modo, o mtodo de seleo loc seleciona linhas e colunas de acordo com o seu rtulo (label), isto , seu "nome" na tabela, aquilo que aparece visualmente quando temos um output de comando. Voc pode usar essa seleo de acordo com algumas frmulas:

df.loc[linha] : Seleciona uma ou mais linhas pelo seu rtulo;
df.loc[: , coluna]: Seleciona uma ou mais colunas pelo seu rtulo;
df.loc[linha, coluna]: Seleciona linhas e colunas pelo seu rtulo.

Vejamos isso em termos prticos, usando o dataframe df, j nosso conhecido:

df.loc['NL'] #Seleciona as linhas contendo a ID de espcie 'NL'df.loc['NL', ['sex', 'hindfoot_length']] #Seleciona as linhas nas colunas 'sex' e 'hindfoot_length' contendo a ID de espcie 'NL'df.loc[:['year','species_id']] #Seleciona as colunas 'year' e 'species_id'df.loc[['NL', 'DM', 'DO'], ['sex', 'hindfoot_length']] #Seleciona as linhas nas colunas 'sex' e 'hindfoot_length' contendo a IDs de espcie 'NL', 'DM' e 'DO'

Acima, portanto, fomos selecionando diversas linhas e colunas observando sempre seus rtulos na tabela. Quando da seleo apenas de colunas, repare o uso do : isolado; este indica que sero filtradas todas as linhas do dataframe. A separao de linhas e colunas no comando, repare tambm, feita pelo separador ,. Um outro detalhe importante de se destacar: ao usar os mtodos de seleo, atente a utilizar sempre linhas e colunas no-nulas (apontados comumente como NaN; veremos o que so dados nulos - e o que fazer com eles - com mais detalhes em outra aula).

Que tal fazer voc mesmo?
Com o primeiro notebook da serie e os dados e a biblioteca pandas importadas nele, experimente fazer uma seleo com espcies e colunas diferentes, sempre usando o df.loc. Pratique bastante, e encorajo-lhe a buscar outras referncias e exemplos na literatura ou na Internet para entender melhor. Algumas sugestes de lugares para buscar mais ajuda estaro em "Para ler mais"

Mtodo `iloc` - Localizao por nmeros inteiros

O mtodo iloc segue o mesmo princpio do loc, mas com uma diferena essencial: enquanto o loc faz uma seleo por rtulos, o iloc busca linhas e colunas em relao s suas localizaes inteiras (em nmeros). Cada linha e coluna em um dataframe possui uma localizao inteira que a define, sendo isso uma espcie de acrscimo ao rtulo que exibido no output de cada comando. Essa localizao o nmero da linha/coluna no qual o nosso alvo estar localizado, sempre comeando da parte superior esquerda.

Para usar esse mtodo, podemos nos basear nas seguintes frmulas:

df.iloc[0]: Seleciona a primeira linha por sua localizao inteira;
df.iloc[linha]: Seleciona uma linha por sua localizao inteira;
df.iloc[:, coluna]: Seleciona uma coluna por sua localizao inteira;

Vejamos isso em termos prticos, usando outra vez o dataframe df:

df.iloc[0] #Seleciona a primeira linha de 'df'df.iloc[4] #Seleciona a quinta linha de 'df' (lembre-se: a contagem de linhas no Python comea por 0)df.iloc[:, 2] #Seleciona a terceira coluna de 'df'df.iloc[[1, 2], [0, 2, 1]] #Seleciona a segunda e terceira linha, e a primeira, terceira, e segunda coluna de 'df', nesta ordem

Que tal fazer voc mesmo?
Com os dados de dfem mos, aproveite para testar o mtodo iloc, localizando diferentes linhas e colunas na tabela. Se voc no se lembra a quantidade de linhas e colunas que h no dataframe, simples descobrir: use o comando df.shape(). esperado que o output venha na frmula (linhas, colunas). Pratique bastante, e encorajo-lhe a buscar outras referncias e exemplos na literatura ou na Internet para entender melhor. Algumas sugestes de lugares para buscar mais ajuda estaro em "Para ler mais"

Selees por critrios

No pandas, alm de fazermos selees por posio ou rtulo, tambm podemos selecionar informaes de nossos dataframes por uma srie de critrios ou condies expressos nas linhas de comando.

Entendi foi nada: o que seriam esses 'critrios' ou 'condies'?

Como temos conhecimento de como esto dispostos os dados no dataframe que estamos utilizando aqui, podemos fazer subsets (um dataframe do dataframe) baseados em normas ou critrios que podemos estabelecer. Se voc quiser, por exemplo, separar todas as linhas de amostras que foram coletadas no ano de 2001, apenas preciso usar um operador lgico do Python para chegar a esse fim, o ==. Veja um exemplo:

df_2001 = df[df.year == 2001] #Separa as linhas cujo ano, 'year',  igual a 2001

Nesse caso, estamos criando um novo dataframe, df_2001, usando o nosso frame principal, df, com a condio/critrio de que sejam selecionados apenas as linhas que, na coluna year, possuam o valor de ano 2001. Assim, se chamarmos df_2001, aparecer o dataframe criado com a condio que fora estabelecida.

No apenas para selecionar valores que coincidam com o critrio, podemos usar outros operadores lgicos do Python para criar novos dataframes. Tais operadores so, segundo a sintaxe:

==: igual a;
!=: no igual a;
> ou <: maior ou menor que;
>=: maior ou igual que;
<=: menor ou igual que.

Se, por algum acaso, queiramos definir mais de um conjunto de critrios, podemos utilizar o operador & para conect-los:

df_conj = df[(df.year >= 1990) & (df.year <= 1995)] #Separa as linhas cujas amostragens possuam valor 'year' maior ou igual a 1990, e menor ou igual a 1995

Que tal fazer voc mesmo?
Da mesma forma que usamos o df para explorar as possibilidades de usar os mtodos loc e iloc, podemos aqui utilizar esse dataframe para fitr-lo de acordo com condies que ns mesmos podemos estabelecer. Assim sendo, voc pode explorar os operadores lgicos do Python para escrever algumas linhas de cdigo.

Nessa aula vimos mais alguns recursos do pandas para fazer selees de linhas e colunas, alm da criao de subsets. Esses so aspectos essenciais a se levar em conta ao trabalhar com dados, uma vez que eles proporcionam uma variedade de possibilidades de se manipular tabelas sem a necessidade de carregar o mesmo dataset toda vez; isso facilita, e muito, o trabalho a ser feito. Nas prximas aulas continuaremos a discutir sobre como manipular dados com o pandas; mas antes, ser interessante apresentar para vocs algumas caractersticas dessa biblioteca no que se refere visualizao de dados. Haver, portanto, uma apresentao de cdigos e conceitos para plotar dados usando pandas. Com isso, voc j pode avanar nos primeiros relatrios usando seu prprio material, tendo j visto o resumo estatstico e um pouco de manipulao de tabelas.

Recomendo fortemente, mais uma vez, que voc d uma olhada nas referncias apresentadas no 'Para ler mais'. Ali estaro links de vrias fontes com as quais voc poder explorar os processos de seleo do pandas de forma exaustiva, com um contedo bastante didtico.

Dito isso, vejo vocs na prxima aula. Um grande abrao!

Para ler mais:

Aula 6 - Análise e visualização de dados em Python - Biblioteca pandas (Parte 2)

Matheus Halmenschlager — Wed, 25 Aug 2021 14:00:12 GMT

A parte prtica da srie segue nessa nova aula, ainda com o pandas; avanaremos um pouco mais na biblioteca, vendo seu poder e possibilidades de anlise de dados.

O que veremos nessa aula:

Um pouco mais sobre agrupamento: value_counts(), unique()e count();
Referenciando e copiando objetos no pandas.

Um pouco mais sobre agrupamento

Aqui, vamos explorar mais um pouco as possibilidades que se tem ao usar o pandas para fazer agrupamentos e fatiamentos. Esses conceitos j foram explicados na aula passada; caso no lembre, s voltar um post e verificar o texto e as referncias sobre essa parte.

Anteriormente, ns vimos uma funo chamada value_counts(), para ver quantos registros de cada sexo temos no dataset que estamos utilizando. H um outro recurso usando essa funo que interessante, envolvendo a proporo de cada varivel numa determinada coluna. Para ver o resultado disso, apenas necessrio adicionar um outro argumento dentro de value_counts(), envolvendo um processo de normalizao dos dados. A linha de cdigo fica assim:

df[['sex']].value_counts(normalize = True)

Que tal fazer voc mesmo?
Nessa parte envolvendo a funo value_counts(), vimos o recurso de proporo, que usa o recurso da normalizao, que bastante interessante. Com esse mesmo recurso, podemos tambm extrair a representatividade de cada varivel em porcentagem. Como voc poderia fazer isso?

Funes `unique()` e `count()`

Uma funo parecida com o value_counts(), que j vimos antes, a funo count(). A diferena entre elas que a segunda, em termos bsicos, permite avaliar uma contagem de uma varivel por outra, usando o groupby em vez de usar apenas uma varivel para contar.

Para entender melhor: fizemos na aula anterior um agrupamento por sexo (varivel sex), avaliando quantas ocorrncias de cada sexo h no dataframe que estamos utilizando. Agora, trabalharemos um pouco com as identificaes de espcies do conjunto de dados. Para descobrir quais so as espcies registradas, podemos lanar mo da funo unique():

df['species_id'].unique() #Quais so as espcies que aparecem no dataframe

A partir disso, se queremos observar quantos registros existe para cada espcie, lanamos mo da funo count()

df.groupby('species_id')['record_id'].count() #Nmero de amostras por cada espcie

Ainda, se queremos saber a amostragem de uma espcie apenas, podemos adicionar mais um argumento linha de cdigo. Neste caso, ao final da linha, escrevemos o nome da espcie em colchetes (['SP']):

df.groupby('species_id')['record_id'].count()['DO']

Que tal fazer voc mesmo?
Aproveite a linha de cdigo acima para obter resultados de espcies diferentes!

A diferena entre associar/referenciar e copiar objetos

Copiando objetos

Em aulas passadas, vimos como possvel criar objetos em um ambiente Jupyter com o Python, e a importncia dessa criao para analisar dados. s vezes, por certa precauo, nos recomendado no trabalhar em cima de apenas um objeto de dado dataframe no Python; isso porque corremos o risco de perder informaes ao chamar alguma funo sem querer. Ento, para garantirmos que ficar tudo bem, podemos criar novos objetos a partir de um mesmo dataframe com o mesmo contedo; isso seria uma cpia do objeto. Obtemos essas cpias de objetos usando o mtodo copy().

df_copia = df.copy()

Com essa linha de cdigo, portanto, criamos um novo objeto, chamado df_copia; tal objeto possui um novo dataframe, que tem contedo igual ao objeto df, sendo possvel assim us-lo para diferentes propsitos.

Que tal fazer voc mesmo?: Repita essa operao em um notebook Jupyter/do Google Colab, com a mesma fonte de dados que estamos utilizando, criando o objeto df_copia, e compare os objetos. Voc pode fazer isso usando a funo head().

Referenciando objetos

Suponhamos que algum alegue que achou uma soluo "mais simples e mais rpida" para essa situao. Observe a linha abaixo:

df_copia = df

Com ela, argumenta esse algum, criamos o mesmo objeto, df_copia, usando o df que utilizamos como dataframe anteriormente; isso teria o mesmo efeito que usar a funo copy(), ao fazermos o mesmo exerccio de comparao anterior. Logo, em vez de usarmos o copy() para fazer uma nova cpia de df, apenas criamos um novo objeto usando esse mesmo dataframe, porque d na mesma... certo?

Nada mais errado. E eu explico o porqu:

O que se est a fazer aqui , basicamente, dar um outro nome de objeto a um mesmo dataframe. Esse o processo, em Python, chamado de associao ou referncia. Ento, nesse caso, df pode ser chamado tanto por esse nome, quanto pelo nome df_copia.

Para entender melhor, usando a mesma fonte: Imagine que estamos criando agora trs objetos distintos, a saber:

df2 = df.copy()df3 = df

Observe que, enquanto o df2 criado usando a funo copy(), o df3 criado fazendo uma referncia df. Em princpio, os dois objetos estariam associados com o mesmo dataframe, se seguirmos a ideia anterior. Ao verificarmos os dois nomes usando a funo head()ou info(), percebemos que eles so iguais, certo?

At aqui, o pensamento est OK, mas faamos uma coisa diferente nessa situao. Usemos o df2 para fazer uma incluso de colunas nele (isso ser visto em uma prxima aula com mais detalhes, no se preocupe; a ideia agora apenas fazer uma mudana):

df2['alternative_id'] = 0.0 #Incluir uma coluna no 'df2'

Feita essa mudana, verifiquemos de novo , usando a funo head() ou info(). Se voc fizer isso no Google Colab ou em um Jupyter Notebook, perceber que df2 e df3, em seu contedo, so agora diferentes um do outro. Isso porque o que fizemos com o df2 foi, conforme visto anteriormente, criar um novo dataframe de fato utilizando o contedo de df, enquanto df3 acaba por ser um outro nome para o df. Pode parecer repetitivo, mas importante que fique clara essa diferena entre as duas funes, para que, quando for analisar seus prprios dados, no ocorram erros que podem consumir um tempo que ser importante.

Nessa aula de pandas, vimos algumas coisas que so essenciais ter em mente ao usar a biblioteca para analisar seus dados, alm de alguns recursos interessantes. Nas referncias abaixo, h uma riqueza de contedo para entender melhor sobre os counts, alm de mais links para voc entender melhor os conceitos de referncia e cpia de objetos. Alm disso, no ltimo link h um eBook gratuito feito pelos usurios do Stack Overflow para voc aprender mais sobre a biblioteca pandas.

Nas prximas aulas, continuaremos a falar sobre aspectos da biblioteca pandas para anlise de dados, alm de comear a fazer uns plots simples. O incio da visualizao de dados na srie est perto de chegar, no perca!

Um grande abrao e at a prxima aula!

Leia mais:

Aula 5 - Análise e visualização de dados em Python - Biblioteca pandas (Parte 1)

Matheus Halmenschlager — Tue, 17 Aug 2021 11:51:34 GMT

Aps quatro aulas de introduo terica e apresentao de bibliotecas, podemos ir parte prtica propriamente dita da srie. Iniciaremos utilizando a biblioteca pandas, que uma biblioteca essencial na anlise de dados.

Nessa aula, ento, veremos:

Como importar os dados para um notebook Jupyter atravs do pandas;
Primeiras anlises com o pandas: resumo estatstico, medidas de tendncia central e disperso.
Agrupamentos e fatiamentos no pandas

Mas antes, algumas consideraes sobre os dados

Os dados que utilizaremos durante as aulas estaro sempre disponveis no repositrio da srie no GitHub, para que vocs possam baixar e explor-los offline, assim como trabalhar com eles na nuvem, atravs do Google Colaboratory. Alm disso, todos os cdigos e as respostas dos desafios estaro em uma pasta de notebooks do mesmo repositrio; voc pode acess-las quando quiser para ver os outputs e respostas dos desafios. Aproveite tambm para explorar os notebooks no Google Colab; sempre haver um boto 'Open in Colab' ou um link para a plataforma nos notebooks do GitHub. Usaremos sempre o Google Colab para as prticas.

Os dados que utilizaremos nessa primeira parte so originados do curso "Data Analysis and Visualization in Python for Ecologists", aula Starting with Data. Os arquivos so do Portal Project Teaching Database e podem ser encontrados originalmente aqui. Ressalto aqui que os arquivos esto disponibilizados no repositrio do GitHub na ntegra, e esto em domnio pblico; logo, possvel usar os dados livremente. O dicionrio de variveis pode ser consultado tanto na aula original, quanto no notebook dessa aula.

Vamos logo parte prtica?

Instalao e importao do Pandas para um notebook Jupyter (ou do Google Colaboratory)

Acesse os notebooks prticos por aqui: GitHub e Google Colab

A instalao do pandas pode ser necessria se voc estiver usando alguma plataforma parte o Google Colaboratory, que j possui a biblioteca instalada. Para fazer isso, possvel usar o !pip install. Considerada essa parte, podemos fazer a importao usando o comando import.

!pip install pandas #Para instalarimport pandas as pd #Para importar ao notebook

Importao de dados

O pandas, como j foi relatado em aulas anteriores, possui suporte para importao de vrios arquivos de dados (.xlsx, .csv, e .json so alguns exemplos); para cada um deles, existe uma funo especfica, mas que segue um mesmo padro: pd.read_type(). O pd o alias do pandas, e a funo que estaremos chamando read_type(), sendo que preciso mencionar o tipo de arquivo onde esto os dados. No caso do nosso exemplo, como usaremos o arquivo surveys.csv, preciso chamar a funo pd.read_csv("local do arquivo").

df = pd.read_csv("https://github.com/mhalmenschlager/python-biologia/raw/main/archives/surveys.csv")

Assim foi feita a importao dos dados para o notebook; repare que estamos criando um novo objeto atravs do comando df =. Isso quer dizer que estamos criando um objeto do conjunto de dados que importamos. importante fazer isso para prosseguirmos aos prximos passos.

Primeiras visualizaes com pandas

A primeira coisa que podemos fazer com o dataframe e o pandas importados ao nosso notebook verificar como os dados foram importados e como esto dispostos no objeto que criamos anteriormente. Para tanto, podemos usar duas funes: a funo head() nos permite ver as cinco primeiras entradas do df; alm disso, a funo info() nos d a informao de que tipos de dados h no dataframe e quantos dados so considerados como no-nulos.

df.head() #Cinco primeiras entradasdf.info() #Tipos de dados existentes

Aps isso, podemos obter tambm um resumo estatstico dos dados. Isso pode valer tanto para todo o dataframe, quanto para apenas uma coluna ou varivel dele. Para isso, usamos a funo describe().

Que tal fazer voc mesmo?
(1) Vimos aqui que a funo head() aponta as cinco primeiras entradas do nosso dataframe. H tambm uma outra funo relacionada a essa chamada tail() O que ela faz?
(2) Ainda sobre a funo head(): se quisermos exibir mais de 5 linhas, o que devemos fazer? Ser que podemos fazer o mesmo para exibir menos que isso?
Voc pode usar o mesmo objeto df para descobrir. As respostas estaro no repositrio da srie no GitHub e no notebook do Google Colab.

df.describe() #Resumo estatstico de todo o dataframedf['weight'].describe() #Resumo estatstico da varivel 'weight'

Medidas de tendncia central e disperso (mdia, mediana, moda, desvio-padro)

O resumo estatstico, tanto do dataframe inteiro, quanto de uma varivel especfica, aponta algumas medidas interessantes, tanto de tendncia central, quanto de disperso. Essas medidas so essenciais para comearmos a analisar a varincia do conjunto de dados que temos. Mas, e se quisermos fazer uma anlise de apenas uma dessas medidas? No pandas, simples de apontar esses ndices em separado: basta usar a frmula dataframe['varivel'].medida(). A seguir h alguns exemplos para que voc possa entender melhor:

df['weight'].mean() #Para descobrir a mdiadf['weight'].median() #Para descobrir a medianadf['weight'].std() #Para descobrir o desvio-padro

Agrupamentos no pandas

Algumas variveis dentro do nosso dataset de exemplo so consideradas como categricas; a partir disso, podemos fazer alguns exerccios envolvendo essas variveis utilizando o mtodo de agrupamento no pandas.

Por exemplo: sabendo da existncia da varivel sex dentro do dataset e, importada essa mesma varivel pro nosso dataframe, quantos registros de cada sexo biolgico constam no nosso conjunto de dados? Para descobrir isso, podemos utilizar a funo value_counts(), assim:

df['sex'].value_counts()

No entanto, tambm temos outro recurso do pandas com o qual podemos trabalhar com agrupamentos de variveis categricas: o groupby(). Com ele, podemos ir mais alm da contagem e usar medidas de tendncia central e disperso para observar varincias de uma varivel por outra. A frmula fica assim: dataframe.groupby('varivel1')['varivel2'].medida().

Para entender melhor: imagine que queremos descobrir a mdia dos pesos das nossas amostragens, agrupando-as por sexo. Para descobrir isso, podemos utilizar a frmula citada antes, assim:

df.groupby('sex')['weight'].mean()

Perceba como as variveis esto posicionadas na linha de cdigo; a varivel sex, que a que agruparemos, est na primeira posio, em parnteses, associada com a funo groupby(), enquanto que a varivel weight, de onde tiraremos as mdias, vem logo depois, em colchetes. A mesma frmula pode ser usada para tirar outras medidas com outros agrupamentos.

Que tal fazer voc mesmo?
Com o mesmo dataframe podemos ento comparar mais medidas agrupando as amostras por sexo. Ser que voc consegue comparar essa categoria:
por medianas de peso?
por mdias de comprimento do retrop (hindfoot)? E qual o mximo do comprimento para cada sexo?
Voc pode ainda usar o objeto df para descobrir. As respostas estaro no repositrio da srie no GitHub e no notebook do Google Colab.

Filtragem do conjunto de dados por fatiamento

Na cincia de dados, h uma prtica conhecida por slicing ou fatiamento, onde h a possibilidade de fazermos uma filtragem do conjunto de dados, podendo criar inclusive subsets do conjunto para que possamos explorar e visualizar melhor os dados mais adiante. Esse fatiamento pode ser feito tanto com linhas, quanto por colunas de uma certa tabela.

Usemos o nosso objeto df para entender melhor essa prtica. Se quisermos fazer um fatiamento por linhas do dataframe, podemos utilizar uma frmula simples: df[linha incio: linha fim +1] Um detalhe importante a ser mencionado aqui que a indexao do Python, ao contrrio de algumas outras linguagens, comea pelo 0. Ento, se quisermos fatiar o dataframe da primeira at a stima linha, podemos fazer assim:

df_linha = df[0:7] #Linha de incio (0): linha final (6)+1

O fatiamento de colunas tambm fcil; apenas em vez de usarmos nmeros, mencionaremos os nomes das colunas. A frmula df['nome da coluna'] para fatiar apenas uma coluna, e df[['col1', 'col2', 'col3'...'colN']] para uma lista de colunas. Repare na duplicao de colchetes quando usamos a segunda frmula; isso porque estamos usando o caractere de lista do Python para fazer isso, o que no necessrio quando queremos separar apenas uma coluna.

df_coluna = df['weight'] #Uma colunadf_coluna = df[['weight', 'sex']] #Mais de uma coluna

At agora, vimos um pouco de anlise de dados com o pandas, assunto no qual nos estenderemos por mais aulas. Nas referncias abaixo, assim como no hyperlinks ao longo do texto, ter mais contedo para voc poder praticar os conceitos apresentados, alm de poder avanar um pouco mais na biblioteca pandas. No se esquea de dar uma olhada no notebook das aulas, onde voc pode ver os outputs de cada bloco de cdigo citado, as resolues dos desafios e explorar a linguagem Python por si.

Um grande abrao e at a prxima aula!

Leia mais:

Aula 4 - Análise e visualização de dados em Python - Apresentando as bibliotecas

Matheus Halmenschlager — Thu, 12 Aug 2021 11:23:51 GMT

Aps uma introduo sobre os principais elementos, tipos de dados, e funes que compem a linguagem Python, chegou o momento da apresentao s chamadas bibliotecas. A partir desse momento, voc comear a entender como possvel usar o Python para analisar e visualizar mais efetivamente seus dados, usando os recursos que realmente importam.

Nesta aula, portanto, veremos:

O que so bibliotecas;
Como instalar e importar bibliotecas no ambiente Jupyter Notebook;
Quais bibliotecas so importantes para trabalhar com dados.

O que so bibliotecas afinal?

Se voc j deu uma pesquisada sobre assuntos e caractersticas envolvendo a linguagem Python (ou outras linguagens, como o R), deve ter visto algumas fontes escrevendo algo sobre as ditas 'bibliotecas'.

Bibliotecas), em Python, so um conjunto de linhas de cdigos construdas para um propsito especfico (acessos a bases de dados, clculos, modelos... o que voc puder imaginar) e que podem ser utilizadas para reduzir o tamanho dos cdigos escritos num processo de programao, alm do tempo que se leva na escrita e organizao desses cdigos, uma vez que so reutilizveis.

O Python, por si s, possui o que conhecido como Biblioteca Padro, que um conjunto de mdulos essenciais e teis para o seu funcionamento. Essa biblioteca j vem junto com o pacote que instalado do site oficial, ou seja, no preciso nenhuma ao posterior para t-la em sua mquina. Para outras bibliotecas, dependendo do caso, preciso fazer a instalao antes de us-las. E como se faz isso?

Como instalar e importar bibliotecas em um ambiente Jupyter Notebook

No nosso caso, independente de ser no ambiente Jupyter Notebook instalado com o pacote Anaconda, ou o ambiente do Google Colaboratory (que inspirado na iniciativa Jupyter), podemos utilizar comando semelhante para o caso de querer instalar alguma biblioteca, o pip:

!pip install PackageName!pip install geopandas #Um exemplo de biblioteca para instalar

Para descobrir quais bibliotecas esto instaladas no ambiente no qual voc trabalhar com seus dados, existem comandos como o pip freezee o help(); este ltimo tambm serve para acionar a ajuda de qualquer biblioteca j disponvel no ambiente (inclusive a chamada Biblioteca Padro do Python).

pip freezehelp("modules")

No caso de a biblioteca j ter sido instalada, o que precisamos fazer somente import-la para o ambiente antes de comearmos a trabalhar; por uma questo de convenincia, sobretudo, nem o Python, nem o ambiente Jupyter carregam todas as bibliotecas que j possuem instaladas. Para tanto, usamos a funo import:

import pandas as pdimport geopandas as gpdimport matplotlib.pyplot as pltimport seaborn as snsimport folium

Repare que, nesse comando, utilizamos um argumento aspara importar, seguido de uma sigla. Tal atributo serve como um alias da biblioteca a ser importada, facilitando o processo; em vez de escrevermos matplotlib.pyplot toda vez que queremos usar uma funo da biblioteca, apenas escrevemos plte a funo que queremos para fazer funcionar (isso ser melhor compreendido quando partirmos para a pare prtica/analtica da srie, no se preocupe). Nem todas as bibliotecas tero esse alias; nos notebooks da srie, essas abreviaes aparecero quando for conveniente.

O uso dessas bibliotecas tambm bem simples: na linha de comando, se utiliza a ordem biblioteca.funo(). O mesmo para a criao de objetos, quando necessrio, apenas atribuindo uma varivel ao mesmo.

import pandas as pddataframe = pd.read_csv("exemplo.csv")

As bibliotecas mais importantes para trabalhar com dados

Agora que sabemos o que so bibliotecas, alm como proceder instalao e importao das mesmas, podemos fazer a apresentao das bibliotecas que voc poder utilizar para trabalhar com seus dados. Vale ressaltar que, assim como o Python propriamente dito, as bibliotecas citadas so gratuitas e de cdigo-aberto; ento, voc pode us-las livremente a qualquer momento.

pandas

!pip install pandasimport pandas as pd

De incio, podemos mencionar a biblioteca pandas (assim mesmo, em lower case). Ela uma das mais conhecidas bibliotecas de anlise de dados em Python, e geralmente a primeira a ser apresentada aos futuros cientistas de dados. A razo para isso simples: o pandas, alm de ser uma biblioteca completa para anlise de dados, fcil de manusear. Voc pode trabalhar com variados tipos de arquivos de dados, como JSON e Excel (.csv, .xlsx). nessa biblioteca que a srie basear suas primeiras aulas prticas.

Voc pode consultar a documentao do pandas aqui, alm de verificar a seo dedicada ao projeto pandas no PyPI.

NumPy

!pip install numpyimport numpy as np

O NumPy tambm uma das bibliotecas basais para quem quer lidar com dados no Python. Essa biblioteca trabalha, principalmente, com arranjos de matrizes e vetores, cobrindo todas as funes de lgebra linear, alm de poder trabalhar com manipulao de imagens, estatstica, e operaes matemticas. Isso faz com que o NumPy esteja presente nas linhas de cdigo de vrias bibliotecas utilizadas no mundo da cincia de dados, como o pandas. No toa que, segundo o site oficial do NumPy, "quase todo cientista que usa Python se vale do poder do NumPy".

Voc pode saber mais sobre o ecossistema do NumPy acessando a pgina inicial, e verificar o poder da biblioteca na sua documentao.

GeoPandas

!pip install geopandasimport geopandas as gpd

Outra biblioteca a qual a srie dar ateno a GeoPandas. Como o nome e o logo j entregam, a biblioteca se baseia em pandas, sendo especializada na importao de dados geogrficos para o ambiente; ento, com essa biblioteca que voc pode trabalhar com as coordenadas que esto juntas dos seus dados de coleta, por exemplo. Tambm possvel trabalhar com shapefiles (arquivos .shp, .shx, .dbf...), alm de dados em formato GeoJSON.

Verifique a documentao do GeoPandas aqui para saber mais sobre as possibilidades de se trabalhar com essa biblioteca.

Matplotlib

!pip install matplotlibimport matplotlib.pyplot as plt

O Matplotlib a principal biblioteca para visualizao de dados no Python. Com ela, possvel plotar os mais diversos grficos, tendo a capacidade de administrar desde o ttulo do grfico, at escalas, cores e fontes. A parte de visualizao de dados do pandas baseada no Matplotlib, sendo que muitas vezes trabalham juntas.

A documentao do Matplotlib pode ser vista aqui.

Seaborn

!pip install seabornimport seaborn as sns

Em matria de visualizao de dados, o Seaborn uma tima opo. A biblioteca permite ir mais alm dos plots do Matplotlib, gerando grficos com um estilo mais elegante e com poucas linhas de cdigo.

Na pgina oficial da biblioteca, voc pode explorar todas as possibilidades de visualizao de dados que o Seaborn oferece.

Onde encontrar outras bibliotecas teis para dados

Python Package Index

Para encontrar e se atualizar sobre outras bibliotecas teis para trabalhar com seus dados, alm dos projetos a elas associados, o Python Package Index (PyPI) uma tima referncia. L voc pode buscar por mais de 320 mil projetos baseados em Python nas mais variadas reas do conhecimento, alm de encontrar vrias instrues de como instalar e atualizar bibliotecas.

Nesta aula da srie, vimos o que so bibliotecas, como lidar com elas, alm de uma apresentao rpida sobre as bibliotecas mais importantes para trabalhar com dados em Python. Uma vez conhecida essa questo, estamos prontos para comear a parte 'mo na massa' da srie. A partir da prxima aula, conceitos que foram apresentados nos posts introdutrios comearam a ser assentados na sua mente de uma das melhores formas possveis: praticando, sem muitos rodeios. Em cada incio de aula sero apresentados, caso necessrio, os conjuntos de dados, ou datasets, que sero utilizados; a partir deles que faremos nossas primeiras anlises.

A primeira, e principal, biblioteca que usaremos nessa srie, ser o pandas. Recomendo que, antes de prosseguir, voc d uma olhada na pgina oficial e na documentao da biblioteca; l estaro aspectos que, por variadas questes, no conseguiro ser cobertas aqui por completo. Faa o mesmo com as outras bibliotecas, alm de verificar o site do PyPI.

Bora comear a praticar anlise e visualizao de dados em Python juntos?

Caso queira, deixe um feedback ou sua dvida em um comentrio ou mensagem, para que nosso aprendizado seja cada vez mais amplo.

Um forte abrao e at a prxima aula!

Para ler mais:

Aula 3 - Introdução às funções em Python

Matheus Halmenschlager — Thu, 05 Aug 2021 17:30:32 GMT

At agora, foram apresentadas de forma terica e prtica alguns dos principais elementos do Python: operaes, tipos de dados, sequncias, e dicionrios. Nessa aula, ser feita uma introduo s funes na linguagem Python.

Ento, o que ser visto aqui:

O que so funes, e para que servem;
Como escrev-las em Python.

O que so funes?

Em vrias linguagens de programao, funes so recursos que muito auxiliam na hora de meter a mo na massa; elas so blocos de cdigo que performam tarefas que, normalmente, precisam ser executadas mais de uma vez dentro de uma aplicao. Assim, um algoritmo ou notebook fica menor, mais rpido de executar e, sobretudo, mais legvel a outros usurios.

As funes tambm servem para a criao de bibliotecas em Python. No contexto de anlise de dados, h bibliotecas que possuem funes prontas para calcular medidas de varincia, de disperso, tendncia central, similaridade, entre outros (citam-se aqui exemplos que podem ser encontrados no cookbook da biblioteca SciPy, alm da documentao do NumPy); alm disso, para eclogos, haver funes que executam os principais clculos necessrios para mensurar diversidade, abundncia, dominncia, e tantas outras operaes mais as quais os profissionais precisam lanar mo. Nesse caso em especfico, a documentao da biblioteca EcoPy proporciona um leque de clculos ecolgicos, sendo cada um deles descrito em detalhes, para entendimento dos parmetros e comandos usados.

Como criar funes no Python

Uma funo em Python definida por trs partes: nome, parmetros, e corpo (ou comandos). Ns podemos definir uma funo usando essa sintaxe:

def nome( parmetros ):    comandos

Aqui vemos que a definio de uma funo feita usando a palavra-chave def. Voc pode colocar qualquer nome para as funes que est criando, ao coloc-lo na posio nome; no entanto, voc no pode usar um nome que considerado palavra reservada. Os parmetros vo especificar qual informao, caso haja alguma, preciso providenciar para que a funo seja usada. Em outra palavras, os parmetros dizem o que a funo precisa para executar tarefas. Observe tambm a presena dos dois pontos (:); isso indica que o cdigo que est nas linhas seguidas a ele faz parte da funo que ser criada. As linhas seguintes aparecero avanadas em relao primeira linha; isso o que chamamos de indentao, e uma forma de respeito sintaxe da linguagem que estamos usando.

Para podemos executar a funo, devemos simplesmente chamar o seu nome e passar os parmetros. A lista de parmetros pode ser vazia, ter apenas um parmetro, ou ter mais de um parmetro, sempre separados por vrgulas. Independente disso, os parnteses so obrigatrios no momento de definir uma funo.

Vamos a um breve exemplo prtico, para entender melhor:

Python:

def add_func(a, b):    resultado = a + b    return resultadoz = add_func(10, 12)print(z)

Neste bloco de cdigo, estamos fazendo duas coisas: definir uma funo e criar uma varivel chamando essa funo. O nome dessa funo add_func, que possui dois parmetros, ae b. Dentro da funo h dois comandos: resultadoe o return resultado; isso quer dizer que, no caso dessa funo, se solicitar a soma dos dois parmetros j citados (a + b) e, para expressar essa soma, a funo dar um retorno (return) com o resultado.

A varivel z possuir como valor o resultado do uso da funo add_func, tendo como parmetros os nmeros 10 e 12. Uma vez criada, podemos verificar qual ser o valor da varivel z, usando a funo print(z). O resultado sair conforme est no output abaixo:

Output:

O assunto referente s funes pode se estender bem mais, uma vez que funes podem comportar mais de um parmetro ou comando, mas no nos ateremos muito a isso. O objetivo aqui entender como se faz uma funo, para que, mais frente, consigamos entender melhor como trabalhar com as bibliotecas Python que sero apresentadas na srie.

Com isso, j temos um arcabouo de como o Python funciona, com seus elementos principais e funes. Nas prximas aulas, comear a parte de mexer com dados; justamente a que o Python fica bem mais interessante.

Aproveite para dar seu feedback, e nos vemos nas prximos posts da srie!

Para ler mais:

Literatura recomendada:

Captulo 8 do Curso Intensivo de Python, de Eric Matthes (Library Genesis)
Captulo 2 do Data Science do Zero, de Joel Grus (Library Genesis)
Captulos 3 e 4 do Learn to Program with Python 3, de Irv Kalb (Library Genesis)
Captulo 3 do Basic Core Python Programming, de Meenu Kohli (Library Genesis)

Aula 2 - Introdução aos elementos do Python

Matheus Halmenschlager — Thu, 05 Aug 2021 17:29:36 GMT

Passada a introduo terica, podemos nos aprofundar em uma parte introdutria mais prtica do Python, com algumas linhas de cdigo. Nessa aula, veremos:

Operaes bsicas no Python: adio, subtrao, multiplicao, diviso, potenciao, e mdulo aritmtico;
Operaes de lgica e comparao;
Tipos de dados em Python: strings, integers, e floats;
Sequncias em Python: listas e tuplas;
Dicionrios.

Operaes bsicas em Python

Como foi dito na aula anterior, uma das coisas mais bsicas para fazer com a linguagem Python us-la como uma "calculadora cientfica", fazendo operaes matemticas bsicas com uma linha de cdigo somente. Aqui esto alguns exemplos:

Python:

2 + 2 #Adio (veja 'NOTA 1' para entender o papel do '#')

Output:

Python:

5 - 8 #Subtrao

Output:

Python:

6 * 2 #Multiplicao

Output:

Python:

50 / 5 #Diviso

Output:

Python:

2 ** 2 #Potenciao

Output:

Python:

13 % 5 #Mdulo aritmtico (para entender do que se trata, veja 'NOTA 2')

Output:

Operaes de lgica, comparao, e identidade

Ns podemos tambm utilizar operadores de lgica e comparao (<, >, ==, !=, <=, >=) em uma s linha de cdigo em Python:

Python:

3 > 4

Output:

False

Python:

6 == 6

Output:

True

Alm disso, podemos escrever operaes de identidade (and, or, not) e obter resultados:

Python:

True and True

Output:

True

Python:

True and False

Output:

False

Estes resultados obtidos (True e False) so dados que chamamos de booleanos (boolean). Inclusive, sobre os tipos de dados que falaremos em seguida.

Tipos de dados em Python

Uma das coisas que tambm est entre as mais bsicas no Python a associao de valores variveis. Isso quer dizer que, quando introduzimos dados em um ambiente ou notebook, devemos nome-los, para que possamos identific-los ao trabalhar com funes e bibliotecas. Essa associao feita usando o operador de atribuio =. Um detalhe: no confunda esse operador com o de comparao ==.

Por exemplo:

Python:

texto = "Exemplo de texto"  # Um exemplo de linha (string)numero = 42  # Um exemplo de nmero inteiro (integer)pi_valor = 3.1415  # Um exemplo de nmero decimal (float)

Junto do exemplo est uma exposio de alguns tipos de dados que podemos utilizar em Python:

Linhas (string): so sequncias de caracteres, que podem ser letras, nmeros (quando dentro de aspas), pontuaes e at emojis (🤔);
Nmeros inteiros (integer): nmeros inteiros que podem ser utilizados em funes e operaes;
Nmeros decimais (float): nmeros separados por pontos, que tambm podem ser utilizados em funes ou operaes.
Dados booleanos (boolean): so dados que retornam aps operaes lgicas ou de comparao. Basicamente, apontam se uma operao como as citadas procedente ou no, verdadeira ou falsa. Tambm podem se referir a um dado ausente ou presente num dado dataframe ou dataset. No Python, os dados booleanos aparecem como True ou False.

Tudo que est em Python possui um tipo, e importante sempre ter em mente quais so os tipos de dados que esto sendo utilizados, para evitar erros de interpretao ou incompatibilidades. Para descobrir qual o tipo de um objeto, lanamos mo da funo type().

Python:

type(texto)

Output:

<class 'str'>

Ns podemos ver o valor de alguma coisa usando a funo print().

Python:

texto_novo = 'Um outro exemplo de texto'print(texto_novo)

Output:

Um outro exemplo de texto

Sequncias em Python: Listas e tuplas

Nesta parte da aula, veremos como lidar com uma sequncia ordenada de elementos. Temos dois casos a cobrir: listas e tuplas.

Listas: so sequncias simples de elementos, separados por vrgulas. Criamos uma lista usando colchetes ([]).
Python:
```
lista = [1, 2, 3, 4]
```
Em uma sequncia ordenada como essa, cada elemento acessvel por meio de um ndice. Importante notar que, em Python, os ndices sempre iniciam em 0, em vez de 1. Ou seja, para acessar o primeiro elemento, necessrio chamar o nmero 0.
Python:
```
lista[0]
```
Output:
```
1
```
Tuplas: tambm so sequncia simples de elementos, tais como as listas; a diferena que, nesse caso, os elementos dentro de uma tupla so imutveis (no podem ser mudados aps sua criao). Criamos uma tupla usando parnteses.
Python:
```
tupla = (1, 2, 3, 4)outra_tupla = ('um', 'dois', 'trs', 'quatro')
```

Dicionrios

Em Python, consideramos como dicionrios os objetos que possuem um par de outros objetos em seu interior. Tambm funcionam como as listas e tuplas, mas, em vez de terem ndices, so organizados por chaves - como se fosse uma etiqueta nica ou um nome do objeto.

Para entender como funciona:

ordem = {'um': 'primeiro', 'dois': 'segundo'}

Perceba que os objetos 'um' e 'primeiro'esto separados por dois pontos (:). assim que se formam os dicionrios: para o objeto 'um' atribudo outro objeto, o 'primeiro', e assim sucessivamente. Para localizarmos um objeto dentro de uma lista, o procedimento parecido com a lista:

Python:

ordem['um']

Output:

'primeiro'

Nesta aula, foram apresentados alguns elementos essenciais na linguagem Python que voc precisar ter em mente ao programar. Continuaremos a introduo em um prximo post da srie, onde ser mostrado um contedo referente a funes.

At a prxima aula e, caso queira, j v deixando um feedback! 😁

NOTAS:

(NOTA 1: Na linguagem Python, permitido fazer comentrios dentro de linhas de cdigo. Para tanto, basta adicionar o sinal # antes de escrever. Tais comentrios no sero consideradas pelo programa interpretador ao ler o cdigo.)

(NOTA 2: Como foi mencionado antes, em vez de ser um smbolo de porcentagem, em Python o smbolo % representa uma operao aritmtica distinta, o mdulo. Basicamente, o mdulo representa o resto de uma diviso.Exemplo: no caso acima, quando chamada a linha 13 % 5, estamos efetuando a diviso de 13 por 5; o quociente dessa diviso 5, enquanto que o resto (que o que aparece no output) 3. Voc pode ver mais sobre isso clicando aqui e aqui)

Para ler mais:

Literatura recomendada

Basic Core Python Programming, de Meenu Kohli (Library Genesis)
Coding Python, de Michael e Eric Scratch
Curso Intensivo de Python, de Eric Matthes (Library Genesis)
Data Science do Zero: Primeiras Regras com Python, de Joel Grus (Library Genesis)

Aula 1 - Sua Excelência, o Python

Matheus Halmenschlager — Tue, 03 Aug 2021 18:07:20 GMT

Antes de comearmos a ver linhas e blocos de cdigo para fazer a anlise e visualizao de dados propriamente dita, essencial ir esclarecendo alguns pontos e apresentando conceitos importantes, como a linguagem em si. Ento, senhoras e senhores, a partir de agora lhes apresento Sua Excelncia, a linguagem Python!

Nesta aula, veremos:

O que a linguagem Python e por que utiliz-la ao analisar e visualizar dados;
Esclarecer os conceitos de codificao e programao;
Entender como escrever os primeiros cdigos de Python, seja em linhas de cdigo ou blocos.

O que o Python, afinal?

O Python uma linguagem de programao que possui um propsito geral; isso significa que sua concepo se apoia no intuito de atender um grande nmero de reas. No caso da anlise de dados, o Python utilizado em boa parte das aplicaes, por sua rpida e fcil capacidade de desenvolvimento e processamento.

H grandes vantagens de usar o Python, nos quais se incluem:

O Python gratuito: ao contrrio de muitos softwares de anlise de dados que existem por a, no necessrio a aquisio de licenas ou pagamento de mensalidades para usar o Python. Ele gratuito, e sempre ser.
Ele de cdigo aberto: isso significa que voc pode fazer cpias, modificaes e reutilizaes do Python sem nenhuma preocupao. Esse um fato importante, pois o uso do Python se torna ilimitado. Voc pode criar bibliotecas, algoritmos, e outras aplicaes no Python livremente.
O Python est disponvel nos principais sistemas operacionais: no importa se voc usa Windows, Linux ou Mac para fazer suas atividades, o Python estar l, de diversas formas. Inclusive, projetos como o Google Colaboratory permitem que voc use Python tendo apenas acesso Internet e um navegador.
Uma imensa comunidade de desenvolvedores, cientistas de dados e, esperamos a partir de agora, eclogos usam o Python. s vezes, voc pode se sentir perdido quando for usar o Python, o que normal. O importante aqui que, se for buscar respostas para suas dvidas, quase certamente as achar, pois algum da comunidade Python tambm passou pelas mesmas dificuldades. Plataformas como Kaggle e Stack Overflow so timos lugares para encontrar respostas para aquilo que voc ainda tem dvida.
O Python possui um riqussimo ecossistema de pacotes/bibliotecas criadas por terceiros: Pesquisadores e desenvolvedores de todos os cantos do mundo desenvolvem diariamente pacotes de cdigos em Python para atender as necessidades de vrias reas do conhecimento (a Ecologia, como ser visto nas prximas aulas, est entre essas reas.)

O que programao? O que codificao?

Antes de comearmos a ver as primeiras linhas de cdigo em Python para analisar seus dados, importante esclarecer dois conceitos: o de programao e codificao. Estes termos, apesar de comumente virem juntos, no significam a mesma coisa; 'programar' e 'codificar', portanto, no deveriam ser utilizadas de forma intercalada, como se fossem sinnimos.

Ento, o que significam esses dois termos?

Programao o ato de escrever "programas" que um computador possa executar e produzir alguns (teis, na maioria das vezes) resultados. Esse um processo que envolve vrios passos, como:

Identificar aspectos do mundo real que podem ser resolvidos computacionalmente;
Identificar uma soluo computacional para esses aspectos, focando sempre no que for melhor (mais rpido, mais fcil, mais abrangente possvel);
Implementar essa soluo em uma linguagem de computao especfica;
Testar, validar, e ajustar essa soluo implementada de forma frequente.

A codificao uma parte do processo geral de programao, mais especificamente o terceiro passo: "Implementar a soluo em uma linguagem de computao especfica". Isso significa, portanto, fazer um processo de transcrio da soluo para uma linguagem que possa ser interpretada por um computador. Seria o mesmo que o processo de escrever um texto em um determinado idioma, ou at mesmo escrever uma funo matemtica; nessas situaes, voc transfere algo que voc pensou/imaginou para o papel ou para uma tela de uma maneira que outros entes (pessoas ou computadores) possam interpretar a mensagem e, quando necessrio, fazer mais abstraes sobre ela.

muito importante notar que, quando falamos na "melhor" soluo computacional, temos sempre de considerar fatores muito alm do computador. Aspectos como quem usar o programa, quais recursos (sejam financeiros ou mo-de-obra) o projeto possui e, sobretudo, a quantidade de tempo necessria h para formatar tal soluo e assim poder extrair o melhor dela.

Agora, que voc j tem ideia do que o Python, e alguns pontos foram esclarecidos, podemos comear a ver como funciona a linguagem.

Primeiras linhas em Python para comear a entender

O Python uma linguagem interpretada, que pode ser usada de duas principais maneiras:

De forma interativa: quando voc usa o Python como se fosse uma "calculadora cientfica", executando um comando de cada vez. Aqui entra os arquivos .ipynb, os chamados notebooks, com os quais trabalharemos na srie.
Um exemplo simples disso fazer uma operao matemtica:
Python:
```
2+2
```
Output:
```
4
```
Tambm podemos utilizar como exemplo o caso da funo print()
Python:
```
print('Hello world!')
```
Output:
```
Hello world!
```
Para entender melhor: abra um novo notebook no Google Colab e repita as linhas indicadas como Python acima. Observe os resultados.
Em forma de script: quando voc vai executar uma srie de comandos salvos num arquivo de texto. Usualmente, tais arquivos vm em extenso .py.
- Exemplo: imagine que voc tenha escrito em um ambiente do Anaconda um comando print('Hello, world!')e o tenha salvo num arquivo meu_script.py. Uma vez que voc execute esse arquivo em um console Python, o resultado ser a execuo do comando que est dentro do arquivo .py. Para fazer a edio do arquivo, voc precisar de uma IDE, pois o console apenas faz a execuo.

Para as aulas dessa srie, como j vimos, usaremos o Jupyter Notebook, seja no Anaconda ou no Google Colab. Nessas plataformas, usaremos a maneira interativa, atravs de arquivos .ipynb, para aprendermos a mexer com cdigos Python, uma vez que trabalharemos com uma ou mais linhas de cdigo, atravs de blocos.

Exemplificando: toda vez que iniciamos um notebook, precisamos importar algumas bibliotecas para podermos analisar e visualizar dados. Nesse caso, podemos, em vez de executar uma linha de cada vez para importao, puxar todas as bibliotecas de uma s vez usando um bloco de cdigo:

import pandas as pdimport geopandas as gpdimport seaborn as snsimport matplotlib.pyplot as plt

Estes blocos de cdigo podem comportar qualquer quantidade de linhas de cdigo necessrias para performar uma ao em especfico. Comumente o notebook separado em vrios blocos de cdigo, obedecendo o princpio de execuo de um (bloco de) cdigo por vez.

Nesta primeira aula, apresentamos a linguagem Python de forma mais terica e prosaica, com uma introduo prtica muito breve. Nas prximas aulas, iniciaremos a parte prtica da srie, misturando a teoria com cdigos para fazer suas primeiras anlises em Python, e assim entrar de vez no mundo dos dados e da programao.

Para ir conhecendo mais do Python, aproveite para explorar as referncias dos hyperlinks, da seo Para ler mais, e da literatura recomendada. um material complementar que, a cada aula, prover variadas vises e modos de explicar os assuntos abordados em cada post.

Espero que a srie possa te beneficiar o mximo possvel. Um grande abrao e at a prxima aula!

Para ler mais:

Literatura recomendada:

Pense em Python, de Allen B. Downey (Library Genesis)
Learn to Program with Python 3: A Step-by-Step Guide to Programming, de Irv Kalb (Library Genesis)
Beginning Programming with Python (Srie For Dummies), de John Paul Mueller (Library Genesis)
Starting out with Python, de Tony Gaddis (Library Genesis)
Learn Python Visually, de Tristan Bunn (Library Genesis)
Python Basics: A Practical Introduction to Python 3, de Fetcher Heisler, David Amos, Dan Bader, e Joanna Jablonski, do site Real Python (Library Genesis)
Beyond the Basic Stuff with Python, de Al Sweigart (Library Genesis)
Python in a Nutshell: A Desktop Quick Reference, de Alex Martelli, Anna Ravenscroft, e Steve Holden (Library Genesis)

Aula 0.2 - O que você precisa saber (e instalar) para começar

Matheus Halmenschlager — Tue, 20 Jul 2021 12:11:03 GMT

O que voc precisar para acompanhar a srie?

Nessa srie de posts, como j foi escrito, utilizaremos a linguagem Python para analisar dados. Uma vantagem de se utilizar o Python para analisar dados a sua faciliade de acesso: para us-lo, em um primeiro momento, necessrio apenas um computador com acesso Internet. A razo para tanto simples: na rede mundial esto disponveis os chamados 'notebook interfaces' (uma explicao do que se trata isso est aqui, em ingls.

Google Colaboratory para trabalhar na web

Nessa srie, em especfico, concentrarei as aulas e desafios na ferramenta Google Colaboratory. Ela baseada no Jupyter Notebook e permite fazer uma mescla de anotaes e cdigos em um s local, usando a computao em nuvem da Google para isso. Portanto, quem no possui uma mquina capaz de fazer um processamento de dados mais robusto, poder usar o Google Colab livremente para a srie, sem precisar fazer download de nenhum software ou dataset. A nica coisa que voc precisar fazer, se ainda no tiver, criar uma conta Google para poder acompanhar o contedo. O vdeo a seguir relata um pouco do que se trata o Google Colab, e como voc pode utiliz-lo para fazer suas anlises em Python:

(S um detalhe: Se for usar a ferramenta Google Colab, voc provavelmente no precisar instalar nenhuma biblioteca, pois a Google fornece um ambiente com as principais ferramentas de anlises instaladas. Em vrios tutoriais, inclusive na srie original que est sendo base para essa, h orientaes de como instalar bibliotecas no Python, mas em algum post prximo escreverei sobre o procedimento.)

Instalando o pacote Anaconda para trabalhar localmente/off-line

No caso de voc querer trabalhar localmente ou off-line com os notebooks, voc pode instalar o pacote Anaconda. No caso, voc precisar instalar o Anaconda verso Python 3, onde voc poder acessar o Jupyter Notebook. Aqui vai uma sugesto de vdeo com um tutorial para instalao do Jupyter atravs do Anaconda:

(Outro detalhe: Aqui, diferente de quando se vai trabalhar com o Google Colab, necessrio que voc instale as bibliotecas que ir utilizar antes de comear a fazer qualquer coisa. Como j foi escrito, num prximo post estarei explicando como fazer isso em pacotes como o Anaconda e no Jupyter Notebook.)

Acessando o repositrio no GitHub

O GitHub, para quem no conhece, como uma rede social, mas voltada ao compartilhamento de cdigos, softwares e outros notebooks. nele que se encontrar o repositrio de notebooks que sero criados e utilizados para a srie, alm dos dados que utilizaremos nas aulas. Voc no precisa necessariamente criar uma conta no GitHub, mas interessante dar uma olhada na plataforma, que pode lhe ajudar em projetos futuros. Ela baseada no sistema Git de versionamento de arquivos, que relativamente fcil de aprender. Uma breve explicao sobre o Git e o GitHub pode ser encontrada aqui.

Datasets

Falando em dados, importante saber que os datasets (ou seja, os conjuntos de dados) que utilizaremos nas aulas, estaro disponveis na Internet, seja no repositrio do GitHub, seja em outras fontes. No incio de cada parte prtica, os links para acessar os dados sero disponibilizados. A no ser que voc queira trabalhar com os dados off-line, os datasets no precisaro ser salvos da mquina, uma vez que sero 'puxados' desses links. Instrues sobre como fazer isso, alm de orientaes sobre como possvel trabalhar off-line com o Python e os dados, aparecero nas prximas aulas.

Uma vez conhecidos esses pontos, acredito que voc estar pronto para comear a aprender como usar o Python para analisar seus dados. Quaisquer outras dvidas, fique vontade para questionar pelos canais de comunicao.

Um grande abrao e at a primeira aula!

Aula 0.1 - Apresentação

Matheus Halmenschlager — Tue, 20 Jul 2021 11:51:08 GMT

print('Ol, pessoas!')

Apresentao

Primeiramente, seja muito bem-vindo(a) a essa srie de posts que sero feitos aqui no blog!

Quem sou eu?

Para quem ainda no me conhece direito, muito prazer: meu nome Matheus, sou formado em Biologia pela Universidade de Santa Cruz do Sul. Desde que eu comecei a graduao, fui tomado por uma avalanche de dados e estatsticas, atravs de minhas aventuras como bolsista de Iniciao Cientfica no Laboratrio de Zoologia da Universidade. Durante esse tempo, experimentei vrios softwares para anlise de dados, como o BioEstat e o PAST, mas j sentia mais curiosidade em relao a linguagens de programao, como o R. Desde a metade do ano passado estou estudando muito mais a fundo sobre o mundo da Cincia de Dados e da linguagem Python, deixando o PAST de lado (muito grato, no entanto, vale relatar) e me aventurando a fazer notebooks; os resultados de tudo isso j esto aparecendo, e esta srie, espero eu, um deles.

Se vocs quiserem me conhecer melhor e saber mais sobre os projetos que ando divulgando por a, acessem meu portflio e meu LinkedIn ; estou sempre atualizando a rede com trabalhos e treinamentos.

De onde veio a ideia pra fazer a srie?

Esta srie inspirada em um treinamento muito interessante para eclogos chamada "Data Analysis and Visualization in Python for Ecologists". Para quem est mais habituado com a lngua inglesa e j queira explorar o site, recomendo bastante. A minha pretenso mais do que traduzir essa srie de aulas; tentarei expandir at onde der os conhecimentos sobre dados e Python, baseados nos materiais que uso para estudar. Espero tambm, alm do dataset original da srie, trabalhar com outros dados relacionados Ecologia e Biologia; caso voc tenha alguma sugesto de dado para utilizar medida em que os posts estiverem saindo, fique vontade para contatar-me de qualquer maneira.

Para no deixar esse post muito longo, logo depois desse haver um texto explicando o que voc precisa saber, e o que precisar ter e instalar em seu computador para poder acompanhar a srie e, espero, explorar cada vez mais esse mundo que estou querendo mostrar pra voc a partir de hoje.

Na primeira aula da srie, escreverei um pouco sobre o Python, e por que voc deve consider-lo para quando for analisar os dados daquele seu relatrio, TCC, artigo ou outra coisa que esteja fazendo. O mundo do Python e dos dados fascinante; espero com essa srie de posts motivar mais gente a aprender a linguagem e explorar exausto os dados que tm em mos.

Muito obrigado desde j por fazer parte dessa jornada. Um grande abrao, e at o incio!

Matheus Halmenschlager

Aula 10.1 - Análise e visualização de dados em Python - biblioteca pandas (parte 6)

Combinar dataframes com o pandas

Antes de mais nada: carregando os datasets para uso no pandas

Concatenao: funo concat()

Aula 9 - Análise e visualização de dados com Python - biblioteca pandas (parte 5)

Afinal, o que so dados nulos (e por que eles aparecem?)

Como detectar dados nulos

Funes head()e tail()

Funo info()

Funo isnull()

Funo notnull()

Funes isna() e notna()

Como lidar com dados nulos?

Funo dropna()

Funo fillna()

Funo interpolate()

Aula 8 - Análise e visualização de dados com Python - biblioteca pandas (Parte 4)

Ento, como podemos visualizar os dados com o pandas?

O bsico do bsico: funo plot()

Grfico de linha

Avanando na funo plot(): outros tipos de grficos disponveis

Grfico de barras

Grfico de pizza

Grfico de caixa (boxplot)

Outros tipos de grfico suportados pelo pandas

Aula 7 - Análise e visualização de dados em Python - Biblioteca pandas (parte 3)

Outros mtodos de fatiamento: loc e iloc

Mtodo loc - Localizao por rtulos

Mtodo iloc - Localizao por nmeros inteiros

Selees por critrios

Entendi foi nada: o que seriam esses 'critrios' ou 'condies'?

Aula 6 - Análise e visualização de dados em Python - Biblioteca pandas (Parte 2)

Um pouco mais sobre agrupamento

Funes unique() e count()

A diferena entre associar/referenciar e copiar objetos

Copiando objetos

Referenciando objetos

Aula 5 - Análise e visualização de dados em Python - Biblioteca pandas (Parte 1)

Mas antes, algumas consideraes sobre os dados

Vamos logo parte prtica?

Instalao e importao do Pandas para um notebook Jupyter (ou do Google Colaboratory)

Importao de dados

Primeiras visualizaes com pandas

Medidas de tendncia central e disperso (mdia, mediana, moda, desvio-padro)

Agrupamentos no pandas

Filtragem do conjunto de dados por fatiamento

Aula 4 - Análise e visualização de dados em Python - Apresentando as bibliotecas

O que so bibliotecas afinal?

Como instalar e importar bibliotecas em um ambiente Jupyter Notebook

As bibliotecas mais importantes para trabalhar com dados

pandas

NumPy

GeoPandas

Matplotlib

Seaborn

Onde encontrar outras bibliotecas teis para dados

Python Package Index

Para ler mais:

Aula 3 - Introdução às funções em Python

O que so funes?

Como criar funes no Python

Para ler mais:

Literatura recomendada:

Aula 2 - Introdução aos elementos do Python

Operaes bsicas em Python

Operaes de lgica, comparao, e identidade

Tipos de dados em Python

Sequncias em Python: Listas e tuplas

Dicionrios

NOTAS:

Para ler mais:

Literatura recomendada

Aula 1 - Sua Excelência, o Python

O que o Python, afinal?

O que programao? O que codificao?

Primeiras linhas em Python para comear a entender

Aula 0.2 - O que você precisa saber (e instalar) para começar

O que voc precisar para acompanhar a srie?

Google Colaboratory para trabalhar na web

Concatenao: funo `concat()`

Funes `head()`e `tail()`

Funo `info()`

Funo `isnull()`

Funo `notnull()`

Funes `isna()` e `notna()`

Funo `dropna()`

Funo `fillna()`

Funo `interpolate()`

O bsico do bsico: funo `plot()`

Avanando na funo `plot()`: outros tipos de grficos disponveis

Outros mtodos de fatiamento: `loc` e `iloc`

Mtodo `loc` - Localizao por rtulos

Mtodo `iloc` - Localizao por nmeros inteiros

Funes `unique()` e `count()`