O preço da gasolina como case de análise de dados

Conteúdos deste artigo:

O preço da gasolina atingiu novos picos este ano e, enquanto nos últimos meses tem havido reduções, nós desenvolvemos uma solução de data analysis para continuar abastecendo seu carro com a maior vantagem.

Posto de gasolina vazio à noite.

E o que análise de dados tem a ver com o preço da gasolina? Pensa com a gente: Para economizar, você pode comparar a tabela de preços em diferentes postos e abastecer seu carro onde houver a maior vantagem. Mas nem sempre você tem o tempo e os recursos necessários! Por isso, vamos mostrar uma maneira de automatizar esse processo.

Análise dos dados do preço da gasolina

Nesse artigo, vamos simular o trabalho de um analista de dados para lidar com a alta dos combustíveis. Você pode seguir o passo a passo para cumprir todas as etapas do processo de análise, desde a captação dos dados até a tomada de decisão! São esses e outros princípios de Business Intelligence, ou inteligência de negócios, que nós vamos usar para alcançar os melhores resultados.

Qlik Sense

Para executar esse projeto, podemos usar o Qlik Sense, a ferramenta de Business Intelligence da Qlik. No Qlik Sense, podemos associar diversas fontes de informação e criar visualizações completas com muita autonomia. Assim, teremos uma jornada única de descoberta com dados! Além disso, não vamos precisar de nenhum conhecimento técnico de programação e nossa experiência poderá ser totalmente intuitiva. Quer saber mais? Conheça nossos treinamentos de Qlik Sense e outras ferramentas.

Base de dados

A ANP — Agência Nacional do Petróleo, Gás Natural e Biocombustíveis — disponibiliza uma base de dados com os valores praticados em todo o país desde 2004. Ou seja, podemos ver não só os valores atuais, como toda a escalada de preços. 

ETL — Extract, Transform & Load

Vamos começar revisando as etapas de ETL, isto é, Extract, Transform and Load. A primeira etapa, Extração, trata de obter todos os dados que vamos utilizar na análise.

Os dados da ANP são disponibilizados por semestre, em arquivos .csv. O arquivo de metadados nos mostra o formato da base:

Tabela demonstrando: região, estado, município, revenda (nome do posto), CNPJ da revenda, nome da rua, número da rua, complemento, bairro, CEP, produto (gasolina, etanol ou diesel), data da coleta, valor de venda, valor de compra, unidade de medida (R$/litro) e bandeira.

Depois de baixar todos os arquivos de dados, podemos abrir o Qlik Sense.

Vale ressaltar que o Qlik Sense é uma solução de análise de dados SaaS — software as a service. Isso significa que podemos armazenar toda a base de dados na própria nuvem do Qlik e, assim, não ficamos limitados ao hardware quando for preciso executar scripts mais complexos e demorados.

Script de extração de todas as colunas da tabela da imagem anterior do arquivo.

De forma resumida, o que esse script faz é criar uma tabela com as colunas originais da base de dados. Nessa etapa, não é recomendado fazer nenhum tipo de alteração dos dados.

Já na etapa de Transformação, usamos outro script para carregar todos os dados extraídos e poder aplicar as alterações que desejo para minha análise:

Script com várias redefinições de variáveis, como "Regiao - Sigla" = DES_Nome_Região.

Por exemplo, aplicamos a estrutura de Mapping/ApplyMap para substituir os valores do campo “Região – Sigla” pelos seus respectivos nomes em extenso.

Aplicamos, também, a transformação Num(Num#(“Valor de Venda”),’##,##’), com o propósito de garantir que a coluna de “Valor de Venda” de fato terá valores numéricos – ao invés de uma possível string – e com duas casas decimais.

Por fim, através da instrução where, criamos um filtro em toda a base de dados para retornar apenas dados relativos à gasolina, descartando os demais tipos de combustível para obter uma melhor performance na análise.

Chegamos, então, à última etapa: Carga. Vamos carregar para o dashboard apenas os campos significativos para a análise. As únicas transformações recomendadas nessa etapa são mudanças no nome dos campos, a fim de deixá-los mais user friendly.

Script de definição dos parâmetros de cada variável.

Análises e visualizações

Com os dados preparados, é hora de trabalhar as análises e desenvolver as visualizações apropriadas. Em outras palavras, é hora de criar o dashboard!

Em Business Intelligence, é importante que os dados sejam visualizados em gráficos e tabelas para facilitar o compartilhamento e, por fim, a tomada de decisão! Note que, em uma empresa, não só os líderes e gestores fazem escolhas importantes para o sucesso do negócio. Por isso, é importante tor8nar os dados acessíveis nos diferentes níveis da organização!

Logo, nosso relatório precisa ser claro e objetivo e não se limitar a conhecimentos técnicos. Vamos dar uma olhada em cada um dos elementos que o compõem:

Página do relatório com Preço Médio no período (R$5,95), gráfico de mapa "Preço Médio por Localidade", gráfico de linha "Evolução Temporal", gráficos de barras "Top 5 - Cidades" e "Top 5 - Bandeiras" e tabela "Top 5 - Postos".

Como a nossa intenção é identificar os locais com a gasolina mais cara, é interessante usar um visual de mapa. Aplicando, ainda, um gradiente de cores, conseguimos ter uma visão clara das localidades com os maiores preços.

Nos dados filtrados para o ano de 2021 e os primeiros meses de 2022, percebemos que os estados do Rio de Janeiro e do Acre apresentaram a gasolina mais cara, numa média de R$ 6,50. O Amapá, por outro lado, teve o preço mais barato, R$ 5,10 no mesmo período.

Imagem aproximada do gráfico de mapa do relatório, "Preço Médio por Localidade". O menor preço médio (R$5,10) está no Amapá e o maior (R$6,50) no Acre e no Rio de Janeiro. Os demais preços médio variam, em sua maioria, de R$5,93 a R$6,35.

O Qlik Sense nos permite criar diferentes camadas para um mesmo mapa, o que aumenta a granularidade da análise. O que isso significa na prática? Da mesma forma que vimos os estados com os maiores preços, é possível descer para o nível de cidades, e então enxergar a informação com mais profundidade.

Veja o exemplo a seguir. Nele, foram usados filtros para um mesmo período de tempo e, na sequência, filtrou-se apenas o estado de Minas Gerais. Dessa forma, é possível ver que, dentre todas as cidades mineiras presentes na base de dados, foi Itabira que apresentou a gasolina mais cara, com um preço médio de R$ 7,20.

Imagem aproximada do gráfico de mapa do relatório, "Preço Médio por Localidade", demonstrando os estados da região Sudeste. O menor preço médio (R$5,66) está em São Paulo e o maior (R$6,50) no Rio de Janeiro.
Imagem aproximada do gráfico de mapa do relatório, "Preço Médio por Localidade", demonstrando cidades do estado de Minas Gerais. Os preços médios variam de R$4,95 a R$7,20.

Nesse dashboard, os pontos plotados vão até o nível de cidade. Ainda seria possível descer ao nível de CEP ou até mesmo de ruas (desde que se tivesse os valores de latitude e longitude, para estes casos).

O mesmo conceito de granularidade é aplicado também no gráfico de linhas: utilizando-se de dimensões hierarquizadas, o mesmo gráfico pode ser representado em função de anos, meses, semanas ou dias.

Esse conceito permite uma melhor visualização da disparada de preços que ocorreu a partir de 2020, assim como permite ver mais de perto o grande salto que se deu entre Janeiro e Março de 2021.

Gráfico de linha "Evolução Temporal" demonstrando a variação do preço médio no período de 2004 a 2022. Os valores começam a escalar em 2014 (de R$2,89 em 2013 a R$3,01), caem brevemente em 2020 (de R$4,42 em 2019 a R$4,28) e voltam a subir até R$6,6 em 2022.
Gráfico de linha "Evolução Temporal" demonstrando a variação do preço médio no período de janeiro de 2020 a fevereiro de 2022. Os preço médio cai apenas no intervalo de janeiro a maio de 2020 (de R$4,62 a R$3,85) e no intervalo de novembro de 2021 a fevereiro de 2022 (de R$6,74 a R$6,6).

Outros visuais trabalhados no dashboard podem ajudar a identificar rapidamente os 5 locais onde a gasolina é mais cara. Os dois gráficos de barra a seguir categorizam essa informação, tanto por cidade quanto pela bandeira da distribuidora de gasolina. Vemos que 4 das 5 cidades do Top 5 pertencem ao estado do Rio de Janeiro:

Gráfico de barras "Top 5 - Cidades": Angra dos Reis, com preço médio de R$7,78; Três Rios, R$7,76; Petrópolis, R$7,63; Cabo Frio, R$7,62; e Cruzeiro do Sul, R$7,51. Gráfico de barras "Top 5 - Bandeiras": Petrobahia, com preço médio de R$7,14; Montepetro, R$7,07; Tobras, R$7,00; Equador, R$6,93; e Rio Branco, R$6,92.

No visual de tabela a seguir, apesar da informação ser um pouco mais densa, é possível encontrar exatamente os postos mais caros no cenário analisado. Perceba que 3 dos 5 postos são de Angra dos Reis/RJ, corroborando o que foi visto anteriormente:

Tabela "Top 5 - Postos", demonstrando, para cada um, a bandeira, a cidade, o endereço, a data e o preço da gasolina. Os números 1, 2 e 4 da lista são postos em Angra dos Reis.

Agora, trabalhando com estes visuais e com os campos de filtros disponíveis, é possível fazer diversas análises. Por exemplo, este é o resultado ao se filtrar a cidade de Piracicaba/SP nos meses de 2022:

Página do relatório com Preço Médio no período (R$6,34), gráfico de mapa "Preço Médio por Localidade", gráfico de linha "Evolução Temporal", gráficos de barras "Top 5 - Cidades" e "Top 5 - Bandeiras" e tabelas "Top 5 - Postos + Caros" e "Top 5 - Postos + Baratos".

No primeiro nível da análise, vemos que o preço médio da gasolina no ano é de R$ 6,34.

Na sequência, os gráficos de barras mostram os bairros e bandeiras com gasolina mais cara. A partir deles, podemos criar novos filtros e me aprofundar mais um nível na análise: digamos que você queira descobrir, por exemplo, como estão os preços dos postos da Raízen (Shell) considerando os bairros Centro, Paulicéia e Vila Industrial. O resultado é mostrado nos Top 5 a seguir:

Imagem ampliada dos gráficos de barras "Top 5 - Cidades" e "Top 5 - Bandeiras" e tabelas "Top 5 - Postos + Caros" e "Top 5 - Postos + Baratos".

Com essa amostra, é possível perceber que, dentre as regiões escolhidas, o Auto Posto São Jorge aparenta estar com os preços frequentemente acima da média local, enquanto o Auto Posto A6 costuma ter a gasolina com preços mais em conta.

Assim, a partir destes filtros e visuais, podemos explorar uma infinidade de cenários a fim de conhecer melhor a distribuição dos preços na região.

Para complementar o dashboard, adicionamos também uma tabela completa com os dados em uma segunda aba, o que permite a exploração total dos dados e a criação de novas análises.

Tabela completa com todos os dados da base do relatório.

Faça você mesmo!

Ficou curioso sobre o preço da gasolina na sua cidade? Você pode acessar o dashboard que usamos e fazer novas edições para descobrir seus próprios insights relacionados à alta dos combustíveis. Comece a tomar decisões baseadas em dados agora!

A Inteligência de Dados tem muitas outras aplicações e, além de gerar economia, pode contribuir para a qualidade do seu produto, do seu marketing e do seu atendimento! Revolucione o seu serviço com Business Intelligence. Agende uma demonstração conosco.