O que você precisará para acompanhar a série?

Nessa série de posts, como já foi escrito, utilizaremos a linguagem Python para analisar dados. Uma vantagem de se utilizar o Python para analisar dados é a sua faciliade de acesso: para usá-lo, em um primeiro momento, é necessário apenas um computador com acesso à Internet. A razão para tanto é simples: na rede mundial estão disponíveis os chamados 'notebook interfaces' (uma explicação do que se trata isso está aqui, em inglês.

Google Colaboratory para trabalhar na web

Nessa série, em específico, concentrarei as aulas e desafios na ferramenta Google Colaboratory. Ela é baseada no Jupyter Notebook e permite fazer uma mescla de anotações e códigos em um só local, usando a computação em nuvem da Google para isso. Portanto, quem não possui uma máquina capaz de fazer um processamento de dados mais robusto, poderá usar o Google Colab livremente para a série, sem precisar fazer download de nenhum software ou dataset. A única coisa que você precisará fazer, se ainda não tiver, é criar uma conta Google para poder acompanhar o conteúdo. O vídeo a seguir relata um pouco do que se trata o Google Colab, e como você pode utilizá-lo para fazer suas análises em Python:

(Só um detalhe: Se for usar a ferramenta Google Colab, você provavelmente não precisará instalar nenhuma biblioteca, pois a Google fornece um ambiente com as principais ferramentas de análises instaladas. Em vários tutoriais, inclusive na série original que está sendo base para essa, há orientações de como instalar bibliotecas no Python, mas em algum post próximo escreverei sobre o procedimento.)

Instalando o pacote Anaconda para trabalhar localmente/off-line

No caso de você querer trabalhar localmente ou off-line com os notebooks, você pode instalar o pacote Anaconda. No caso, você precisará instalar o Anaconda versão Python 3, onde você poderá acessar o Jupyter Notebook. Aqui vai uma sugestão de vídeo com um tutorial para instalação do Jupyter através do Anaconda:

(Outro detalhe: Aqui, diferente de quando se vai trabalhar com o Google Colab, é necessário que você instale as bibliotecas que irá utilizar antes de começar a fazer qualquer coisa. Como já foi escrito, num próximo post estarei explicando como fazer isso em pacotes como o Anaconda e no Jupyter Notebook.)

Acessando o repositório no GitHub

O GitHub, para quem não conhece, é como uma rede social, mas voltada ao compartilhamento de códigos, softwares e outros notebooks. É nele que se encontrará o repositório de notebooks que serão criados e utilizados para a série, além dos dados que utilizaremos nas aulas. Você não precisa necessariamente criar uma conta no GitHub, mas é interessante dar uma olhada na plataforma, que pode lhe ajudar em projetos futuros. Ela é baseada no sistema Git de versionamento de arquivos, que é relativamente fácil de aprender. Uma breve explicação sobre o Git e o GitHub pode ser encontrada aqui.

Datasets

Falando em dados, é importante saber que os datasets (ou seja, os conjuntos de dados) que utilizaremos nas aulas, estarão disponíveis na Internet, seja no repositório do GitHub, seja em outras fontes. No início de cada parte prática, os links para acessar os dados serão disponibilizados. A não ser que você queira trabalhar com os dados off-line, os datasets não precisarão ser salvos da máquina, uma vez que serão 'puxados' desses links. Instruções sobre como fazer isso, além de orientações sobre como é possível trabalhar off-line com o Python e os dados, aparecerão nas próximas aulas.

Uma vez conhecidos esses pontos, acredito que você estará pronto para começar a aprender como usar o Python para analisar seus dados. Quaisquer outras dúvidas, fique à vontade para questionar pelos canais de comunicação.

Um grande abraço e até a primeira aula!

Aula 0.2 - O que você precisa saber (e instalar) para começar

Preparando seu computador (e sua mente) para entrar no mundo dos dados e do Python

O que você precisará para acompanhar a série?

Google Colaboratory para trabalhar na web

Instalando o pacote Anaconda para trabalhar localmente/off-line

Acessando o repositório no GitHub

Datasets