Visualizando Datasets Reais com Pandas e Matplotlib em Python

- novembro 15, 2025

Quando falamos em ciência de dados, não basta apenas coletar e processar informações — é fundamental visualizar os dados para entender padrões, identificar tendências e comunicar resultados de forma clara.

Duas bibliotecas indispensáveis nesse processo são:

Pandas: para manipulação e análise de dados em estruturas tabulares (semelhantes ao Excel).
Matplotlib: para criar gráficos personalizáveis e explorar visualmente datasets.

Neste artigo, você vai aprender:

Como carregar e explorar datasets reais com Pandas.
Como gerar gráficos com Matplotlib.
Diferentes tipos de visualizações (linha, barras, pizza, dispersão).
Exemplo prático usando um dataset público.

🔹 1. Preparando o ambiente

Antes de começar, instale as bibliotecas necessárias (se ainda não tiver):

pip install pandas matplotlib

🔹 2. Carregando um Dataset Real

Para este exemplo, vamos usar o dataset de vendas de lojas, simulando registros com produtos, quantidades e valores.

📂 Arquivo vendas.csv (exemplo simplificado):

data,produto,quantidade,preco
2025-01-01,Camiseta,10,50
2025-01-01,Calça,5,120
2025-01-02,Camiseta,8,50
2025-01-02,Tênis,4,250
2025-01-03,Calça,6,120
2025-01-03,Camiseta,12,50

Agora, carregamos no Pandas:

import pandas as pd

# Lendo o dataset
df = pd.read_csv("vendas.csv")

print(df.head())

Saída:

         data  produto  quantidade  preco
0  2025-01-01  Camiseta         10     50
1  2025-01-01     Calça          5    120
2  2025-01-02  Camiseta          8     50
3  2025-01-02     Tênis          4    250
4  2025-01-03     Calça          6    120

🔹 3. Calculando valores totais

Vamos criar uma nova coluna chamada faturamento:

df["faturamento"] = df["quantidade"] * df["preco"]
print(df.head())

Saída:

         data  produto  quantidade  preco  faturamento
0  2025-01-01  Camiseta         10     50          500
1  2025-01-01     Calça          5    120          600
2  2025-01-02  Camiseta          8     50          400
3  2025-01-02     Tênis          4    250         1000
4  2025-01-03     Calça          6    120          720

🔹 4. Visualizando dados com Matplotlib

Agora entra o Matplotlib.

import matplotlib.pyplot as plt

4.1. Gráfico de barras – faturamento por produto

faturamento_produto = df.groupby("produto")["faturamento"].sum()

faturamento_produto.plot(kind="bar", color="skyblue", edgecolor="black")

plt.title("Faturamento por Produto")
plt.xlabel("Produto")
plt.ylabel("Faturamento (R$)")
plt.show()

👉 Esse gráfico mostra quais produtos geraram mais receita.

4.2. Gráfico de linhas – faturamento por dia

df["data"] = pd.to_datetime(df["data"])
faturamento_dia = df.groupby("data")["faturamento"].sum()

faturamento_dia.plot(kind="line", marker="o", color="green")

plt.title("Faturamento por Dia")
plt.xlabel("Data")
plt.ylabel("Faturamento (R$)")
plt.grid(True)
plt.show()

👉 Ideal para observar tendências de vendas ao longo do tempo.

4.3. Gráfico de pizza – participação de cada produto

faturamento_produto.plot(kind="pie", autopct="%1.1f%%", figsize=(6,6))

plt.title("Participação de Faturamento por Produto")
plt.ylabel("")  # remove o label automático
plt.show()

👉 Esse gráfico mostra a participação relativa de cada produto nas vendas.

4.4. Gráfico de dispersão – quantidade x faturamento

plt.scatter(df["quantidade"], df["faturamento"], color="purple")

plt.title("Quantidade vs Faturamento")
plt.xlabel("Quantidade Vendida")
plt.ylabel("Faturamento (R$)")
plt.show()

👉 Útil para ver se existe correlação entre quantidade vendida e faturamento.

🔹 5. Aplicação prática com dataset real público

Você pode treinar usando datasets públicos do site Kaggle ou diretamente do Pandas.

Exemplo com o dataset de passageiros do Titanic (já embutido no Seaborn, mas também pode ser baixado em CSV):

import seaborn as sns

titanic = sns.load_dataset("titanic")
print(titanic.head())

# Gráfico de sobreviventes por classe
titanic.groupby("class")["survived"].mean().plot(kind="bar", color="orange")

plt.title("Taxa de Sobrevivência por Classe")
plt.xlabel("Classe")
plt.ylabel("Taxa de Sobrevivência")
plt.show()

🔹 6. Conclusão

Com Pandas e Matplotlib, você consegue:

Carregar e explorar datasets reais.
Fazer cálculos e transformações rápidas.
Gerar gráficos de barras, linhas, pizza e dispersão.
Entender padrões e comunicar informações de forma visual.

Essas ferramentas formam a base de qualquer pipeline de análise de dados e machine learning em Python.

🚀 Se você já domina o básico, o próximo passo é aprender a usar Seaborn, que se integra ao Matplotlib e cria gráficos ainda mais bonitos e informativos com poucas linhas de código.

Pesquisar este blog

The Master Coder