# Projeto desafio 1 - vendas online

## Etapa 1

In [None]:
# Import do pandas
import pandas as pd
# Ler o arquivo json com read_json
dados = pd.read_json('/content/dados_vendas_clientes.json')
# Aplicar json_normalize na coluna dados_vendas
dados = pd.json_normalize(dados['dados_vendas'])
# Mostrar valores
dados

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


## Etapa 2

In [None]:
# Coletar os valores das colunas e verificar
colunas = list(dados.columns)
colunas

['Data de venda', 'Cliente', 'Valor da compra']

In [None]:
# Destrinchar as listas com explode
dados = dados.explode(colunas[1:])
# Resetar os index das linhas
dados.reset_index(drop=True,inplace=True)
# Observar o DataFrame
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"


In [None]:
# Verificar os tipos de dados com info
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 608.0+ bytes


In [None]:
# A coluna numérica é a 'Valor da compra'
dados['Valor da compra']

0      R$ 836,5
1     R$ 573,33
2      R$ 392,8
3     R$ 512,34
4     R$ 825,31
5     R$ 168,07
6     R$ 339,18
7     R$ 314,69
8     R$ 682,05
9     R$ 386,34
10    R$ 622,65
11    R$ 630,79
12     R$ 390,3
13    R$ 759,16
14    R$ 334,47
15    R$ 678,78
16    R$ 314,24
17    R$ 311,15
18    R$ 899,16
19    R$ 885,24
Name: Valor da compra, dtype: object

In [None]:
# Iniciar a transformação
# Import da biblioteca numpy
import numpy as np
# Remover os textos presentes na base
# Trocar as vírgulas separadoras do decimal por ponto
dados['Valor da compra'] = dados['Valor da compra'].apply(lambda x: x.replace('R$ ', '').replace(',','.').strip())
# Alterar os tipo de dado para float
dados['Valor da compra'] = dados['Valor da compra'].astype(np.float64)
# Verificar a transformação
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 608.0+ bytes


## Etapa 3

In [None]:
# Transformar os textos de Cliente para texto em minúsculo
dados['Cliente'] = dados['Cliente'].str.lower()
# Verificar o resultado
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ana _lucia 321,836.5
1,06/06/2022,diego armandiu 210,573.33
2,06/06/2022,diego armandiu 210,392.8
3,06/06/2022,diego armandiu 210,512.34
4,07/06/2022,isabely joanes 738,825.31


In [None]:
# Opção de substituição - necessário verificar o resultado da substituição
# O regex não seleciona todas as letras de a-z e espaços em branco ' '
# Tudo que satisfaz o regex é apagado
dados['Cliente'].str.replace('[^a-z ]', '', regex=True)

0          ana lucia 
1     diego armandiu 
2     diego armandiu 
3     diego armandiu 
4     isabely joanes 
5     isabely joanes 
6     isabely joanes 
7     isabely joanes 
8     isabely joanes 
9        joo gabriel 
10    julya meireles 
11    julya meireles 
12    julya meireles 
13       maria julia 
14       maria julia 
15       maria julia 
16       maria julia 
17       pedro pasco 
18      paulo castro 
19     thiago fritzz 
Name: Cliente, dtype: object

In [None]:
# Realizar a substituição dos dados na coluna textual
dados['Cliente'] = dados['Cliente'].str.replace('[^a-z ]', '', regex=True).str.strip()
# Visualizar o resultado final
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31


## Etapa 4


In [None]:
# Transformar para o tipo datetime definindo o formato de data como DD/MM/AAAA ('%d/%m/%Y')
dados['Data de venda'] = pd.to_datetime(dados['Data de venda'], format='%d/%m/%Y')
# Visualizar o resultado
dados

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,2022-06-06,ana lucia,836.5
1,2022-06-06,diego armandiu,573.33
2,2022-06-06,diego armandiu,392.8
3,2022-06-06,diego armandiu,512.34
4,2022-06-07,isabely joanes,825.31
5,2022-06-07,isabely joanes,168.07
6,2022-06-07,isabely joanes,339.18
7,2022-06-07,isabely joanes,314.69
8,2022-06-08,isabely joanes,682.05
9,2022-06-08,joo gabriel,386.34


In [None]:
# Verificar o resultado da transformação
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     object        
 2   Valor da compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 608.0+ bytes


In [None]:
# Calcular o total arrecadado em compras por cada cliente
total_compras = dados.groupby(['Cliente'])['Valor da compra'].sum()
# Visualizar o resultado
total_compras

Cliente
ana lucia          836.50
diego armandiu    1478.47
isabely joanes    2329.30
joo gabriel        386.34
julya meireles    1643.74
maria julia       2086.65
paulo castro       899.16
pedro pasco        311.15
thiago fritzz      885.24
Name: Valor da compra, dtype: float64