Como ler planilha Excel com Pandas
Neste tutorial veremos os dados de uma planilha do excel, utilizando a lib do pandas.
Introdução
Neste artigo, demonstrarei como utilizar a biblioteca Pandas para ler dados de uma planilha Excel em Python. Este tutorial breve destaca a simplicidade de acessar os dados usando Pandas e a biblioteca Xlrd
O que é o Pandas?
O Pandas é uma biblioteca da linguagem Python, com intuito de facilitar a manipulação e análise de dados, muito utilizada por cientista de dados.
Para execução deste tutorial será necessário os requisitos abaixo:
- Python;
- Pandas;
- Xlrd (lib utilizada para manipular arquivos xls…);
Como ler uma planilha do excel com Pandas
Antes de iniciarmos a codificação precisamos ter instalada as libs do Pandas
e do Xlrd
. Para instalarmos basta abrir o terminal de comandos e digitar as seguintes instruções:
pip install pandas
pip install xlrd
Após a instalarmos as libs podemos iniciar a implementação do código, então 1ª Importamos a lib do Pandas no inicio do código:
import pandas as pd
Depois informamos o nome do arquivo que será lido:
file_name = "dados.xls"
Após armazenamos o nome do arquivo a ser lido na varável (file_name
) já podemos definir a variável que corresponderá a linha do cabeçalho da tabela, precisamos sempre lembrar que as linhas no Excel a contagem começa no número "0".
header = 0
Após a definição do cabeçalho para leitura do arquivo utlizaremis a função (read_excel)
do pandas, passando em seus parâmetros o nome do arquivo a ser lido e a variável que contém a identificação do cabeçalho.
Ao executarmos a função (read_excel)
ela nos retornará um dataframe com as informações contidas no arquivo que acabamos de ler.
df = pd.read_excel(file_name, header = header)
Pronto após a leitura do arquivo com a função (read_excel)
e armazenamos a informação na variável df
, podemos imprimir o cabeçalho da tabela, para isso utilizamos a função df.columns
do Pandas, conforme mostrado abaixo;
print(df.columns)
#Saída:
Index(['Order', 'Name', 'Sexo', 'Date'], dtype='object')
Para conseguirmos imprimir todo conteúdo da tabela basta digitar o comando (print) passando o dataframe como parâmetro, segue o código implementado abaixo:
print(df)
#Saída:
Order Name Sexo Date
0 1 Paulo Santos M 2020-04-25
1 2 Lais Souza F 2022-08-05
2 3 Ana Clara F 2021-06-04
3 4 Ivan Silva M 2022-01-05
4 5 Clara Rosa F 2022-07-12
Logo abaixo mostro o código completo que utilizamos na execução deste artigo:
# Importamos a lib do Pandas
import pandas as pd
# Informamos o nome do arquivo
file_name = "dados.xls"
# Atribuimos indice do cabeçalho
header = 0
# Utilizamos a função (read_excel) do pandas, para ler o arquivo
# Passando para a função o nome do arquivo a ser lido e informando a linha que contém o cabeçalho
df = pd.read_excel(file_name, header = header)
# Imprime o cabeçalho da tabela
print(df.columns)
# Imprime os dados da tabela
print(df)
Código fonte do tutorial: