Visualizando Datasets Reais com Pandas e Matplotlib em Python

Quando falamos em ciência de dados, não basta apenas coletar e processar informações — é fundamental visualizar os dados para entender padrões, identificar tendências e comunicar resultados de forma clara.

Duas bibliotecas indispensáveis nesse processo são:

  • Pandas: para manipulação e análise de dados em estruturas tabulares (semelhantes ao Excel).

  • Matplotlib: para criar gráficos personalizáveis e explorar visualmente datasets.

Neste artigo, você vai aprender:

  • Como carregar e explorar datasets reais com Pandas.

  • Como gerar gráficos com Matplotlib.

  • Diferentes tipos de visualizações (linha, barras, pizza, dispersão).

  • Exemplo prático usando um dataset público.


🔹 1. Preparando o ambiente

Antes de começar, instale as bibliotecas necessárias (se ainda não tiver):

pip install pandas matplotlib

🔹 2. Carregando um Dataset Real

Para este exemplo, vamos usar o dataset de vendas de lojas, simulando registros com produtos, quantidades e valores.

📂 Arquivo vendas.csv (exemplo simplificado):

data,produto,quantidade,preco
2025-01-01,Camiseta,10,50
2025-01-01,Calça,5,120
2025-01-02,Camiseta,8,50
2025-01-02,Tênis,4,250
2025-01-03,Calça,6,120
2025-01-03,Camiseta,12,50

Agora, carregamos no Pandas:

import pandas as pd

# Lendo o dataset
df = pd.read_csv("vendas.csv")

print(df.head())

Saída:

         data  produto  quantidade  preco
0  2025-01-01  Camiseta         10     50
1  2025-01-01     Calça          5    120
2  2025-01-02  Camiseta          8     50
3  2025-01-02     Tênis          4    250
4  2025-01-03     Calça          6    120

🔹 3. Calculando valores totais

Vamos criar uma nova coluna chamada faturamento:

df["faturamento"] = df["quantidade"] * df["preco"]
print(df.head())

Saída:

         data  produto  quantidade  preco  faturamento
0  2025-01-01  Camiseta         10     50          500
1  2025-01-01     Calça          5    120          600
2  2025-01-02  Camiseta          8     50          400
3  2025-01-02     Tênis          4    250         1000
4  2025-01-03     Calça          6    120          720

🔹 4. Visualizando dados com Matplotlib

Agora entra o Matplotlib.

import matplotlib.pyplot as plt

4.1. Gráfico de barras – faturamento por produto

faturamento_produto = df.groupby("produto")["faturamento"].sum()

faturamento_produto.plot(kind="bar", color="skyblue", edgecolor="black")

plt.title("Faturamento por Produto")
plt.xlabel("Produto")
plt.ylabel("Faturamento (R$)")
plt.show()

👉 Esse gráfico mostra quais produtos geraram mais receita.


4.2. Gráfico de linhas – faturamento por dia

df["data"] = pd.to_datetime(df["data"])
faturamento_dia = df.groupby("data")["faturamento"].sum()

faturamento_dia.plot(kind="line", marker="o", color="green")

plt.title("Faturamento por Dia")
plt.xlabel("Data")
plt.ylabel("Faturamento (R$)")
plt.grid(True)
plt.show()

👉 Ideal para observar tendências de vendas ao longo do tempo.


4.3. Gráfico de pizza – participação de cada produto

faturamento_produto.plot(kind="pie", autopct="%1.1f%%", figsize=(6,6))

plt.title("Participação de Faturamento por Produto")
plt.ylabel("")  # remove o label automático
plt.show()

👉 Esse gráfico mostra a participação relativa de cada produto nas vendas.


4.4. Gráfico de dispersão – quantidade x faturamento

plt.scatter(df["quantidade"], df["faturamento"], color="purple")

plt.title("Quantidade vs Faturamento")
plt.xlabel("Quantidade Vendida")
plt.ylabel("Faturamento (R$)")
plt.show()

👉 Útil para ver se existe correlação entre quantidade vendida e faturamento.


🔹 5. Aplicação prática com dataset real público

Você pode treinar usando datasets públicos do site Kaggle ou diretamente do Pandas.

Exemplo com o dataset de passageiros do Titanic (já embutido no Seaborn, mas também pode ser baixado em CSV):

import seaborn as sns

titanic = sns.load_dataset("titanic")
print(titanic.head())

# Gráfico de sobreviventes por classe
titanic.groupby("class")["survived"].mean().plot(kind="bar", color="orange")

plt.title("Taxa de Sobrevivência por Classe")
plt.xlabel("Classe")
plt.ylabel("Taxa de Sobrevivência")
plt.show()

🔹 6. Conclusão

Com Pandas e Matplotlib, você consegue:

Essas ferramentas formam a base de qualquer pipeline de análise de dados e machine learning em Python.

🚀 Se você já domina o básico, o próximo passo é aprender a usar Seaborn, que se integra ao Matplotlib e cria gráficos ainda mais bonitos e informativos com poucas linhas de código.

Comentários

Postagens mais visitadas deste blog

Manipulação de Arquivos no C#: Como Ler, Escrever e Trabalhar com Arquivos de Forma Simples

Gerando Relatórios em PDF com Python (ReportLab e FPDF)

Laços de Repetição em Python: Conceitos e Exemplos Práticos