Visualizando Datasets Reais com Pandas e Matplotlib em Python
Duas bibliotecas indispensáveis nesse processo são:
Pandas: para manipulação e análise de dados em estruturas tabulares (semelhantes ao Excel).
Matplotlib: para criar gráficos personalizáveis e explorar visualmente datasets.
Neste artigo, você vai aprender:
Como carregar e explorar datasets reais com Pandas.
Como gerar gráficos com Matplotlib.
Diferentes tipos de visualizações (linha, barras, pizza, dispersão).
Exemplo prático usando um dataset público.
🔹 1. Preparando o ambiente
Antes de começar, instale as bibliotecas necessárias (se ainda não tiver):
pip install pandas matplotlib
🔹 2. Carregando um Dataset Real
Para este exemplo, vamos usar o dataset de vendas de lojas, simulando registros com produtos, quantidades e valores.
📂 Arquivo vendas.csv (exemplo simplificado):
data,produto,quantidade,preco
2025-01-01,Camiseta,10,50
2025-01-01,Calça,5,120
2025-01-02,Camiseta,8,50
2025-01-02,Tênis,4,250
2025-01-03,Calça,6,120
2025-01-03,Camiseta,12,50
Agora, carregamos no Pandas:
import pandas as pd
# Lendo o dataset
df = pd.read_csv("vendas.csv")
print(df.head())
Saída:
data produto quantidade preco
0 2025-01-01 Camiseta 10 50
1 2025-01-01 Calça 5 120
2 2025-01-02 Camiseta 8 50
3 2025-01-02 Tênis 4 250
4 2025-01-03 Calça 6 120
🔹 3. Calculando valores totais
Vamos criar uma nova coluna chamada faturamento:
df["faturamento"] = df["quantidade"] * df["preco"]
print(df.head())
Saída:
data produto quantidade preco faturamento
0 2025-01-01 Camiseta 10 50 500
1 2025-01-01 Calça 5 120 600
2 2025-01-02 Camiseta 8 50 400
3 2025-01-02 Tênis 4 250 1000
4 2025-01-03 Calça 6 120 720
🔹 4. Visualizando dados com Matplotlib
Agora entra o Matplotlib.
import matplotlib.pyplot as plt
4.1. Gráfico de barras – faturamento por produto
faturamento_produto = df.groupby("produto")["faturamento"].sum()
faturamento_produto.plot(kind="bar", color="skyblue", edgecolor="black")
plt.title("Faturamento por Produto")
plt.xlabel("Produto")
plt.ylabel("Faturamento (R$)")
plt.show()
👉 Esse gráfico mostra quais produtos geraram mais receita.
4.2. Gráfico de linhas – faturamento por dia
df["data"] = pd.to_datetime(df["data"])
faturamento_dia = df.groupby("data")["faturamento"].sum()
faturamento_dia.plot(kind="line", marker="o", color="green")
plt.title("Faturamento por Dia")
plt.xlabel("Data")
plt.ylabel("Faturamento (R$)")
plt.grid(True)
plt.show()
👉 Ideal para observar tendências de vendas ao longo do tempo.
4.3. Gráfico de pizza – participação de cada produto
faturamento_produto.plot(kind="pie", autopct="%1.1f%%", figsize=(6,6))
plt.title("Participação de Faturamento por Produto")
plt.ylabel("") # remove o label automático
plt.show()
👉 Esse gráfico mostra a participação relativa de cada produto nas vendas.
4.4. Gráfico de dispersão – quantidade x faturamento
plt.scatter(df["quantidade"], df["faturamento"], color="purple")
plt.title("Quantidade vs Faturamento")
plt.xlabel("Quantidade Vendida")
plt.ylabel("Faturamento (R$)")
plt.show()
👉 Útil para ver se existe correlação entre quantidade vendida e faturamento.
🔹 5. Aplicação prática com dataset real público
Você pode treinar usando datasets públicos do site Kaggle ou diretamente do Pandas.
Exemplo com o dataset de passageiros do Titanic (já embutido no Seaborn, mas também pode ser baixado em CSV):
import seaborn as sns
titanic = sns.load_dataset("titanic")
print(titanic.head())
# Gráfico de sobreviventes por classe
titanic.groupby("class")["survived"].mean().plot(kind="bar", color="orange")
plt.title("Taxa de Sobrevivência por Classe")
plt.xlabel("Classe")
plt.ylabel("Taxa de Sobrevivência")
plt.show()
🔹 6. Conclusão
Com Pandas e Matplotlib, você consegue:
Carregar e explorar datasets reais.
Fazer cálculos e transformações rápidas.
Entender padrões e comunicar informações de forma visual.
Essas ferramentas formam a base de qualquer pipeline de análise de dados e machine learning em Python.
🚀 Se você já domina o básico, o próximo passo é aprender a usar Seaborn, que se integra ao Matplotlib e cria gráficos ainda mais bonitos e informativos com poucas linhas de código.

Comentários
Postar um comentário