Casas Prefabricadas Casas de Madera Casas Modulares Casas Co
ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO … · ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO...
Transcript of ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO … · ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO...
ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO
Utilizando modelos de analytics para a criação de uma ferramenta
de suporte ao televendas
Gabriela Espozel Pinheiro da Silva
Gustavo Morais Adler
Projeto de Graduação apresentado ao Curso
de Engenharia de Produção da Escola
Politécnica, Universidade Federal do Rio de
Janeiro, como parte dos requisitos necessários
à obtenção do título de Engenheiro.
Orientador: Lino Guimarães Marujo
Rio de Janeiro
Setembro de 2017
Espozel, Gabriela Pinheiro da Silva
Adler, Gustavo Morais
ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO
Utilizando modelos de analytics para a criação de uma ferramenta de suporte
ao televendas – Rio de Janeiro: UFRJ/ Escola Politécnica, 2017.
x , 58 p.: il.; 29,7 cm.
Orientador: Lino Marujo
Projeto de Graduação – UFRJ/ POLI/ Curso de Engenharia de Produção,
2017.
Referências Bibliográficas: p. 57-58
1. Análise da cesta de compras 2. Varejo alimentício 3. Apriori, 4. CRISP-DM
I. Marujo, Lino Guimarães II. Universidade Federal do Rio de Janeiro, UFRJ, Curso
de Engenharia de Produção. III. ANÁLISE DA CESTA DE COMPRAS NA CASAS
PEDRO Utilizando modelos de analytics para a criação de uma ferramenta de
suporte ao televendas.
ii
Resumo do Projeto de Graduação apresentado à Escola Politécnica UFRJ
como parte dos requisitos necessários para a obtenção do grau de Engenheiro de
Produção.
ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO
Utilizando modelos de analytics para a criação de uma ferramenta de suporte ao
televendas
Gabriela Espozel Pinheiro da Silva
Gustavo Morais Adler
Setembro/2017
Orientador: Lino Guimarães Marujo
Curso: Engenharia de Produção
A análise de dados tem se mostrado cada vez mais vantajosa para as empresas
de varejo, fornecendo informações que servem de insumo para a tomada de decisão. A
Casas Pedro é uma empresa de varejo alimentício que possui como alguns de seus
objetivos o desenvolvimento de seu televendas e a adoção de tecnologias de suporte
mais sofisticadas. Para atender as demandas da Casas Pedro, foi desenvolvido um
modelo de análise de cesta de compras que busca examinar os produtos que os clientes
costumam comprar em conjunto e utilizar essa informação para criar promoções,
sugestões ou vendas casadas. Esse projeto foi estruturado de acordo com o modelo
Cross Industry Standard Process for Data Mining (CRISP-DM) e utiliza a metodologia
Apriori para a análise da cesta de compras.
Palavras-chave: Análise da cesta de compras, Apriori, CRISP-DM
iii
Abstracts of Undergraduate Project presented to POLI/UFRJ as a partial
fulfillment of the requirement for the degree of Industrial Engineering
MARKET BASKET ANALYSIS IN CASAS PEDRO
Using analytics models to create a telesales support tool
Gabriela Espozel Pinheiro da Silva
Gustavo Morais Adler
September/2017
Advisor: Prof. Lino Guimarães Marujo
Course: Industrial Engineering
Data analysis has been increasingly advantageous for retail companies by
providing information that serves as input for decision making. Casas Pedro is a retail
food company that has as one of its objectives the development of its telesales and the
adoption of more sophisticated support technologies. To meet Casas Pedro's demands,
a market basket analysis model was developed to examine the products that customers
usually buy together and use this information to create promotions, suggestions, or tie-
in sales. This project was structured according to the Cross Industry Standard Process
for Data Mining (CRISP-DM) model and uses the Apriori methodology for the analysis of
the market basket.
Keywords: Market Basket Analysis, Apriori, CRISP-DM
iv
LISTA DE FIGURAS
Figura 1: Exemplos de regras e os seus indicadores ...................................................... 15
Figura 2 - Sequenciamento de etapas do modelo CRISP-DM ........................................ 18
Figura 3: Resumo da problemática no televendas ......................................................... 21
Figura 4- Boxplot da quantidade de produtos por nota fiscal antes e depois da remoção
de outliers ....................................................................................................................... 24
Figura 5 - Histograma da quantidade de produtos por nota fiscal ................................ 25
Figura 6 - Número de itens vendidos por mês ............................................................... 26
Figura 7- Itens mais frequentes durante o período selecionado para análise ............... 29
Figura 8 - Metodologia CRISP-DM para seleção de modelos ......................................... 30
Figura 9- Etapas do modelo Eclat ................................................................................... 31
Figura 10 - Frequência para dos 1024 itens da base de dados ...................................... 32
Figura 11 - Frequência dos 100 itens mais presentes na base de dados ....................... 32
Figura 12 - Etapas do modelo Apriori ............................................................................. 33
Figura 13- Número de clientes distintos vs Contagem de regras geradas ..................... 38
Figura 14 - Suporte vs Confiança .................................................................................... 39
Figura 15 - Suporte vs Lift ............................................................................................... 39
Figura 16- Suporte vs Confiança .................................................................................... 40
Figura 17- Matriz com 50 regras de maior lift ................................................................ 41
Figura 18 - Suporte vs Confiança de regras de ordem 2 ................................................ 42
Figura 19 - Tela de seleção de itens gerada, em que o usuário pode um ou mais itens
para visualizar ................................................................................................................. 45
Figura 20 - Grafo gerado pela ferramenta ..................................................................... 46
Figura 21 - Destaque para relações diretas com o FARELO DE TRIGO KG ..................... 46
Figura 22 - Simples consulta da confiança de uma regra ............................................... 47
Figura 23 - Destacando o item ACUCAR MASCAVO KG ................................................. 48
Figura 24 - Funcionalidades do grafo gerado ................................................................. 48
v
LISTA DE TABELAS
Tabela 1 - Resumo da quantidade de produtos por nota fiscal ........................ 23
Tabela 2 - Resumo da quantidade de produtos por nota fiscal após remoção de
outliers............................................................................................................. 24
Tabela 3 - Número de interseções entre os 100 itens mais vendidos em cada
mês do ano de 2016 ........................................................................................ 27
Tabela 4 - Indicadores gerados com limitação de suporte ............................... 34
Tabela 5 - Indicadores gerados com limitação de suporte e lift ....................... 35
Tabela 6 - Contagem de regras geradas por número de clientes distintos ...... 37
Tabela 7 - Legenda para numeração dos itens na visualização por matriz ...... 41
Tabela 8 - Associações de ordem 2 resultantes da análise ............................. 43
vi
LISTA DE ABREVIATURAS E SIGLAS
CRISP-DM - Cross Industry Standard Process for Data Mining
EBITDA - Earnings Before Interest, Tax, Depreciation and Amortization
ERP - Enterprise resource planning
LHS – Left Hand Side
RHS – Right Hand Side
SSS – Same Store Sales
vii
Sumário
1. Introdução ............................................................................................................... 10
1.1. Objetivos ......................................................................................................... 11
1.1.1. Objetivos Gerais ........................................................................................ 11
1.1.2. Objetivos Específicos ................................................................................. 11
1.2. Organização e Estrutura do Trabalho .............................................................. 12
2. Referencial Teórico.................................................................................................. 13
2.1. Análise da Cesta de Compras .......................................................................... 13
2.1.1. Modelagem Matemática ........................................................................... 13
2.2. Modelo CRISP-DM ........................................................................................... 16
3. Entendimento do Negócio ...................................................................................... 18
3.1. Apresentação da Casas Pedro ......................................................................... 18
3.2. Estratégia ......................................................................................................... 19
3.3. Problemática ................................................................................................... 20
4. Entendimento dos Dados ........................................................................................ 22
4.1. Peças por Atendimento ................................................................................... 23
4.2. Sazonalidade ................................................................................................... 25
5. Modelagem ............................................................................................................. 28
5.1. Preparação dos dados ..................................................................................... 28
5.2. Seleção do modelo .......................................................................................... 29
5.3. Seleção dos parâmetros .................................................................................. 33
6. Análise dos resultados ............................................................................................. 35
6.1. Validação do modelo ....................................................................................... 35
6.2. Análise gráfica das regras geradas .................................................................. 38
6.3. Exemplos de associações descobertas ............................................................ 41
7. Implementação ....................................................................................................... 44
7.1. A visualização das regras resultantes .............................................................. 44
viii
7.2. Ferramenta de visualização das associações .................................................. 44
7.3. Resultados esperados ..................................................................................... 49
7.4. Próximos passos .............................................................................................. 49
8. Conclusão ................................................................................................................ 50
9. Referências Bibliográficas ....................................................................................... 57
10
1. Introdução
O setor do varejo é um dos mais dinâmicos e competitivos do mercado brasileiro,
exigindo, assim, que as empresas estejam sempre preocupadas em como aumentar
suas vendas, conquistar e fidelizar clientes. Neste contexto, ser pioneiro na adoção de
estratégias de gestão diferenciadas e na utilização da tecnologia para alcançar uma
maior eficiência operacional e multiplicar as vendas faz-se uma grande vantagem
competitiva. Para tanto, as empresas fazem uso de ferramentas como bancos de dados
e sistemas operacionais.
Novas tecnologias têm surgido nos últimos anos para endereçar as limitações
técnicas das ferramentas convencionais em lidar com as demandas de processamento
cada vez mais sofisticadas, tempos de resposta cada vez menores e crescentes
volumes de dados (Latouzé 2012, Goldman et al, 2012). Algumas tecnologias já são
muito difundidas no varejo online como, por exemplo, a análise dos dados referentes ao
histórico de vendas para a sugestão de produtos aos clientes com base em seu perfil
de consumo. Entretanto, apesar de sua eficiência comprovada, este tipo de tecnologia
ainda é pouco utilizado no varejo físico, sobretudo em empresas de pequeno porte ou
com estrutura familiar.
Empresas familiares costumam fazer uso de ferramentas mais simples e
processos com menor nível de controle, o que pode aumentar sua fragilidade em
momentos de crise, por exemplo. Assim, para permanecer no mercado, é importante
possuir uma estratégia clara e ter consciência de seus diferenciais competitivos, de
modo a garantir que os mesmos serão conservados e viabilizarão a perpetuação do
negócio.
A Casas Pedro é uma empresa familiar de varejo alimentício que possui 20 lojas
localizadas no estado do Rio de Janeiro. Assim, como muitas empresas de seu porte, a
Casas Pedro possuía processos com um baixo nível de controle e poucas ferramentas
de auxílio à gestão. Nos últimos anos, entretanto, a empresa vem buscando se atualizar
para garantir sua prosperidade, sobretudo, no momento de crise no qual o Rio de
Janeiro encontra-se.
Em sua busca por se atualizar, a Casas Pedro adotou ferramentas mais
modernas de controle de estoque e redesenhou diversos de seus processos em busca
de uma maior eficiência. Durante este movimento, entretanto, garantiu que seus
11
diferenciais de variedade, paixão pelas vendas e qualidade no atendimento não fossem
perdidos.
As iniciativas têm se mostrado um sucesso e o desempenho das lojas apresenta
uma melhora consistente, entretanto, sabe-se que muito ainda pode ser feito para que
a Casas Pedro se torne uma empresa de excelência. Alguns de seus principais pontos
de desenvolvimento atuais encontram-se no serviço de televendas e no uso de
ferramentas de suporte a decisão mais modernas.
Durante a recente evolução da empresa, o televendas ficou aquém da evolução
apresentada pelas lojas pois, além de não apresentar crescimento nas vendas, o
diferencial de atendimento não é tão forte nas vendas por telefone. Além disso, apesar
de ter aumentado significativamente nos últimos anos, a utilização da tecnologia para
auxílio na gestão ainda é muito incipiente e, com base nos ganhos obtidos
recentemente, é do interesse da diretoria torná-la mais difundida.
Sendo assim, este trabalho busca auxiliar a Casas Pedro na conquista de dois
de seus objetivos atuais, o desenvolvimento do televendas e a utilização de tecnologias
avançadas para auxílio nas vendas.
1.1. Objetivos
1.1.1. Objetivos Gerais
O objetivo geral deste trabalho é o desenvolvimento de um modelo de apoio às
decisões do televendas da Casas Pedro, de forma a suportar a indicação de produtos
para seus clientes.
Para orientar este desenvolvimento será elaborado um estudo de caso baseado
nos dados da Casas Pedro e serão utilizadas metodologias de análise de cesta de
compras e de desenvolvimento de projetos de data mining.
1.1.2. Objetivos Específicos
Os objetivos específicos deste trabalho são:
Identificar combinações de produtos que costumam estar presentes em
uma mesma cesta de compra;
Identificar combinações de produtos que possam aumentar a venda de
determinados itens;
12
Desenvolver uma ferramenta que permita que o usuário verifique qual
produto indicar a um cliente dado que o mesmo deseja comprar
determinado item ou cesta de itens;
Aumentar as vendas do Televendas, via um aumento do ticket médio e
do número de peças por atendimento;
Incentivar a venda proativa do televendas da Casas Pedro.
1.2. Organização e Estrutura do Trabalho
Este trabalho está estruturado em: introdução, conclusão e seis capítulos de
desenvolvimento (2 a 7). Segue as normas da ABNT de formatação de trabalhos
acadêmicos e foi desenvolvido no período de março a setembro de 2017.
O segundo capítulo apresenta a metodologia e os fundamentos teóricos
utilizados para a elaboração do estudo apresentado. Nesse, é introduzida a metodologia
utilizada para a análise da cesta de compras e apresentado o modelo CRISP-DM, que
foi utilizado para guiar o desenvolvimento e estrutura do trabalho.
O terceiro capítulo contempla a apresentação da Casas Pedro como uma
empresa de varejo alimentício com metas agressivas de crescimento na cidade do Rio
de Janeiro. Em seguida, é exposta a problemática na qual a mesma está inserida e
oferecida uma possível solução para o problema em questão. Tomando como referência
o modelo CRISP-DM, este capítulo corresponde a sua primeira etapa: “Entendimento
do Negócio”.
O quarto capítulo aborda o entendimento dos dados, apresentando a base de
dados utilizada no televendas e os resultados de uma análise exploratória realizada com
os mesmos.
No capítulo cinco é desenvolvida a descrição do modelo aplicado para a solução
do problema descrito anteriormente. Para tanto, apresenta-se todo o conteúdo que
tange a etapa de modelagem matemática, desde a preparação dos dados até a seleção
do modelo e a definição dos parâmetros utilizados.
No sexto capítulo apresenta-se a validação do modelo frente as imposições
dadas, as análise gráficas das associações geradas e alguns exemplos ilustrativos de
opções de cestas frequentes a partir da análise dos resultados obtidos durante a
modelagem.
13
Por fim, no sétimo capítulo será abordado como os resultados obtidos foram
tangibilizados a partir da criação de uma ferramenta de suporte a tomada de decisão
bem como um exemplo de utilização desta ferramenta.
Finalmente as conclusões do projeto são desenvolvidas no oitavo capítulo.
2. Referencial Teórico
2.1. Análise da Cesta de Compras
Nos dias de hoje as organizações de varejo produzem diariamente um enorme
volume de dados transacionais sobre suas vendas. A análise da cesta de compras é um
dos métodos mais populares para se extrair informações úteis de um banco de dados
grande (Hahsler, Chelluboina, 2011). Essa metodologia busca examinar os produtos
que os clientes costumam comprar em conjunto, as chamadas regras de associação, e
utilizar essa informação para criar promoções, sugestões ou vendas casadas. Gerentes
de marketing querem esse tipo de informação para tomar diversas decisões sobre sua
estratégia de vendas (Blattberg, Kim, Nelsin, 2008). Em pesquisa do Aberdeen Group,
38% dos varejistas americanos disseram utilizar técnicas de análise da cesta de
compras e sentir que isso tinha um efeito positivo sob seu negócio (Nishi, 2005).
Algumas regras de associação são comuns e conhecidas, como por exemplo a
correlação entre vendas de café e açúcar, conceito que é conhecido no campo da
microeconomia como bens complementares (Mankiw, 2014). Porém, considerando os
milhares ou dezenas de milhares de produtos que um supermercado moderno possui,
muitas relações podem não ser reconhecidas com essa facilidade. O caso mais famoso
da indústria é a relação entre fraldas e cervejas que foi descoberta por métodos de
análise da cesta de compras. Aparentemente os pais que iam comprar fraldas para seus
filhos também compravam cervejas. Assim, ao posicionar os itens próximos nas lojas o
varejista conseguia aumentar as vendas casadas desses produtos. Os métodos
desenvolvidos não necessitam de interação humana e assim conseguem descobrir
regras de associação que não são óbvias inicialmente. (Blattberg, Kim, Neslin, 2008)
2.1.1. Modelagem Matemática
A prática de examinar grandes bases de dados com o objetivo identificar regras
de associação, ou seja, a mineração destes bancos de dados para tal objetivo, foi
introduzida por Agrawal, Imielinski, e Swami (1993) e pode ser definida como:
Seja I = {i1, i2, . . . , in} um conjunto de n atributos binários chamados de itens.
Seja D = {t1, t2, . . . , tm} um conjuntos de transações chamado de base de dados. Cada
14
transação em D contém um identificador único e um subconjunto de itens em I. Uma
regra é definida como uma implicação do formato X ⇒ Y onde X, Y ⊆ I e X ∩ Y = ∅. Os
conjuntos de itens X e Y são chamados de antecedente (lado esquerdo, Left Hand Side
ou LHS) e consequente (lado direito, Right Hand Side ou RHS) da regra. Muitas vezes
uma regra se restringe a apenas um item do RHS.
Para selecionar uma regra interessante dentre todas as regras possíveis foram
criadas maneiras de medir a significância de cada relação. O suporte de uma regra
SUP(XY) é definido como:
𝑆𝑈𝑃(𝑋𝑌) = 𝑃(𝑋 ∪ 𝑌)
Equação 1 - Definição do suporte de uma regra
Essa medida é a proporção das transações na base de dados que contém X ∪
Y. Ou seja, se em um universo de 5 transações o conjunto X ∪ Y aparece em 2, podemos
dizer que SUP(XY) = ⅖ = 40%.
A confiança de uma regra é definida como:
𝐶𝑂𝑁𝐹(𝑋 => 𝑌) =𝑆𝑈𝑃(𝑋𝑌)
SUP(X)
Equação 2 - Definição da confiança de uma regra
A confiança pode ser interpretada como um estimador P(Y|X), ou seja, a
probabilidade de achar o RHS dado que a transação também contém o LHS. (Hipp,
Guntzer, and Nakhaeizadeh 2000). Se o conjunto X ∪ Y aparece em 20% da base de
dados e o item X aparece em 40% da base de dados então CONF(X ⇒ Y ) = 20% / 40%
= 0.5 e pode-se estimar que a chance de encontrar X dado que foi comprado Y é de
50%.
Uma regra de associação então se define como uma regra que supera o valor
mínimo escolhido para seu suporte e confiança (Blatterb, Kim, Nslin 2008), satisfazendo
então as seguintes condições, onde σ e δ são o mínimo suporte e confiança
respectivamente:
𝑆𝑈𝑃(𝑋 ∪ 𝑌) ≥ 𝜎
𝐶𝑂𝑁𝐹 (𝑋 => 𝑌) ≥ 𝛿
Equação 3 - Condições para que a relação X=>Y seja definida uma regra de associação
Mesmo com esses dois limitantes, outras medidas foram criadas para filtrar ou
ranquear o conjunto de regras de associação descoberto, visando destacar as melhoras
15
regras dentre as identificadas, que sinalizavam afinidades mais fortes. A elevação ou
LIFT(X=>Y) (Brin, Motwani, Ullman, and Tsur 1997) é definida como:
𝐿𝐼𝐹𝑇 (𝑋 => 𝑌) =𝑆𝑈𝑃(𝑋 ∪ 𝑌)
𝑆𝑈𝑃(𝑋) × 𝑆𝑈𝑃(𝑌) =
𝐶𝑂𝑁𝐹 (𝑋 => 𝑌)
𝑆𝑈𝑃 (𝑌)
Equação 4 - Definição do LIFT de uma regra X=>Y
Essa medida representa o desvio do suporte da regra (X ⇒ Y) frente ao suporte
esperado sob independência dos itens X e Y. Valores maiores de lift representam regras
mais interessantes.
Por exemplo, se o item Y aparece em 40% da base (SUP(Y)=40%) e o item X
em 25% da base (SUP(X) = 20%) seria esperado que o conjunto X ∪ Y aparecesse em
10% da base (40% multiplicado por 25%). Digamos que o conjunto X ∪ Y aparece em
20% da base (SUP(X ∪ Y) = 20%). Sendo assim, podemos dizer que LIFT(X ⇒ Y) = 2,
significando que a associação é duas vezes mais forte do que a chance aleatória
esperada de encontrar Y em conjunto com X em uma transação.
Um valor de lift maior do que 1 significa que Y tem uma probabilidade de ser
encontrado junto a X maior do que a probabilidade aleatória de Y aparecer.
Consequentemente, um valor de lift menor do que 1 significa que Y tem probabilidade
de aparecer aleatoriamente na base maior do que a probabilidade de aparecer junto a
X. Assim, regras interessantes, ou seja, que mostram uma relação de caráter
complementar entre bens da base de dados, são aquelas com lift maior do que 1. Um
resumo das regras e seus indicadores se encontra na figura 1.
Figura 1: Exemplos de regras e os seus indicadores
As regras de associação são geradas em um processo de duas fases.
Primeiramente, é gerado o conjunto de todos os itens que contêm suporte maior do que
o valor mínimo para o suporte escolhido. Conjuntos de itens frequentes são aqueles que
satisfazem o parâmetro mínimo de suporte. Em seguida, cada item é utilizado para gerar
16
todas as possíveis combinações e as regras que não satisfazem o parâmetro mínimo
de confiança são descartadas. Assim, a partir de uma base de n itens, serão gerados
no máximo 2n - n - 1 conjuntos de itens frequentes com dois ou mais itens.
Desse conjunto, cada item pode ter no mínimo duas regras, resultando em um
crescimento linear do número de regras pelo número de itens n. É desejável aumentar
o valor mínimo de suporte para limitar a dimensão da base de regra gerada, afim de
assegurar que seu tratamento e manuseio sejam eficientes computacionalmente.
Porém, isso pode também acabar por remover regras que são interessantes, tornando
a análise menos rica. Muitas vezes, em cenários de aplicação real, é necessário lidar
com grandes bases de regras (Hahsler, Chelluboina, 2011).
2.2. Modelo CRISP-DM
O Cross Industry Standard Process for Data Mining (CRISP-DM), desenvolvido
em 1996 pelas empresas DaimlerChrysler, SPSS e NCR Corporation, é um modelo de
processo de data mining bastante difundido no mercado que possui como objetivo a
resolução de problemas a partir da análise, exploração e modelagem de dados. O
desenvolvimento deste modelo foi baseado na experiência de profissionais que
conduziam projetos de data mining no mercado de trabalho.
De acordo com a metodologia, o ciclo de vida de um projeto de data mining é
dividido em seis fases que não possuem um sequenciamento rígido. Assim, é o
resultado, e não simplesmente a conclusão de uma determinada fase, que determina
qual fase deverá ser executada em sequência. Na figura 2 encontram-se os possíveis
sequenciamentos que podem ser adotados. O círculo externo representa a natureza
cíclica do data mining, que não chega a um fim quando uma solução é implementada.
As fases de um projeto de data mining, que nortearam o desenvolvimento deste projeto,
são as seguintes:
1. Entendimento do Negócio:
A fase inicial consiste no entendimento dos objetivos e requisitos do
projeto a partir da perspectiva do negócio. Ao final desta fase, os conhecimentos
adquiridos devem ser convertidos na definição de um problema de data mining
e em um plano preliminar traçado para atingir os objetivos mapeados;
2. Entendimento dos Dados:
O entendimento dos dados é principiado com a coleta inicial de dados e
contempla atividades que possibilitam a familiaridade com os dados,
17
identificando problemas de qualidade, obtendo percepções iniciais e detectando
amostras interessantes para elaboração de hipóteses;
3. Preparação dos dados:
Esta etapa engloba todas as atividades necessárias para a construção
da base de dados final a partir dos dados coletados. As atividades de preparação
dos dados tendem a ser executadas diversas vezes e não possuem um
sequenciamento pré-determinado. Algumas atividades desta etapa são a
seleção de atributos e a transformação e limpeza dos dados que serão usados
na modelagem;
4. Modelagem:
Nesta etapa, diversas técnicas de modelagem são selecionadas e
aplicadas, cujos parâmetros são calibrados para adquirirem os valores ideais.
Em geral, diversas técnicas podem ser utilizadas para solucionar um mesmo
problema de data mining. Algumas técnicas requerem que os dados possuam
características específicas, com isso, é comum que seja necessário retornar a
fase de preparação dos dados;
5. Análise:
Durante a fase de análise, um ou mais modelos que aparentam possuir
alta qualidade, de acordo com a perspectiva de análise de dados, são
selecionados. Entretanto, antes da implementação, é importante realizar uma
avaliação mais profunda e revisar os passos seguidos para garantir que o
modelo atinge as expectativas do negócio. Um objetivo desta análise é
determinar se alguma característica importante do negócio não foi considerada.
Ao final dessa fase, espera-se que a decisão de utilizar os resultados da
modelagem seja tomada;
6. Implementação:
A criação do modelo, em geral, não representa o final do projeto. Mesmo
que a intenção seja aumentar o conhecimento dos dados, os conhecimentos
adquiridos serão organizados e apresentados de uma forma que o cliente possa
utilizá-los. Frequentemente, isso envolve a criação de modelos “vivos” que
podem ser usados no processo de tomada de decisão. Em diversos casos, o
responsável pela implementação é o cliente e não o desenvolvedor do modelo.
Entretanto, mesmo caso o desenvolvedor seja o responsável por essa etapa, é
importante que o cliente entenda quais medidas devem ser tomadas para
garantir que os resultados serão corretamente utilizados.
18
3. Entendimento do Negócio
3.1. Apresentação da Casas Pedro
A Casas Pedro é uma empresa de mais de 80 anos presente na cidade do Rio
de Janeiro. Foi fundada em 1932 por um imigrante libanês, e a administração da
empresa foi passando de geração a geração - atualmente encontra-se na terceira. Suas
lojas vendem produtos a granel como temperos, grãos, castanhas, frutas secas, farinhas
e sementes, conservas e azeitonas. Encontra-se também nas prateleiras pescados e
bacalhau, doces e chocolates, produtos naturais e bebidas alcoólicas e não alcoólicas
dentre outros. A empresa se caracteriza por uma grande operação no período do natal
- quando cestas são vendidas tendo o bacalhau como produto principal.
A rede de armazéns árabes hoje totaliza 20 lojas pela cidade e, apesar da atual
crise econômica no Rio de Janeiro, vem mostrando um crescimento significativo, com o
aumento do faturamento das lojas acima da inflação em 2016 se comparado com o ano
anterior. Além disso, o grupo está visando expansão de lojas, com metas agressivas de
abertura de 100 lojas próprias até 2022.
Figura 2 - Sequenciamento de etapas do modelo CRISP-DM
Fonte: Traduzido de Chaptman (2000), página 10
19
Além das lojas, a Casas Pedro possui um escritório administrativo no centro da
cidade e um Centro de Distribuição em São Cristóvão, onde encontra-se localizada a
estrutura do Televendas da empresa. O Televendas, assim como as demais lojas,
possui seu próprio estoque e é abastecido pelo centro de distribuição, sua principal
diferença é o atendimento via telefone e voltado para empresas, como restaurantes, ao
invés de pessoas físicas.
Devido ao público concentrado em pessoas jurídicas, o ticket médio e o número
de peças por atendimento do televendas é o mais elevado da companhia, o que resulta
também no maior faturamento entre as lojas. Atualmente, o televendas conta com um
gerente 8 vendedores cuja principal função é receber pedidos via telefone e enviá-los
para a equipe responsável pelo estoque do televendas que realiza a separação e, em
seguida, encaminha os produtos para que a área de logística realize as entregas.
Assim como as demais áreas da empresas, o televendas utiliza o Protheus,
desenvolvido pela Totvs, como sistema operacional. O sistema foi implantado em 2015
e suporta toda a operação da empresa, contendo, por exemplo, o registro de todas as
vendas realizadas e os cadastros de clientes e produtos
Apesar de ser conhecida por seus produtos à granel, o diferencial da Casas
Pedro não se encontra exclusivamente nos produtos, mas sim na paixão pelas vendas
e na capacidade de proporcionar uma experiência diferenciada de atendimento. O
ímpeto em conquistar cada venda e o foco da gerência e operação para que as lojas
estejam sempre prontas para atender os clientes da melhor forma possível é o que
possibilita que as lojas perdurem por tantos anos.
O atendimento diferenciado se dá, principalmente, por duas vertentes. A primeira
é a visão do atendente mordomo, com o atendimento personalizado e com a relação de
amizade. O segundo é com o conceito de “Disneylândia dos alimentos”, com um mix de
produtos diferenciado, com a imagem de empório único para especialidades.
3.2. Estratégia
Em 2013 a Casas Pedro começou uma virada em seus pensamento estratégico.
A empresa nascida na década de 30 tinha que decidir se continuava como um pequeno
varejo alimentício na cidade do Rio de Janeiro, com uma dúzia de lojas ou fazia uma
virada. Ao mesmo tempo, a terceira geração, dos netos do fundador, estava se
consolidando nas posições de liderança da empresa e vinha com anseios de ver o
negócio construído por seu avô se tornar uma potência do varejo alimentício. Assim,
neste ano, se consolidou a criação da empresa Nova Geração, consolidando Felipe
20
Mussalem como o CEO da empresa. Essa virada aconteceu ao mesmo tempo da
escolha da Visagio Consultoria como parceiro estratégico para apoiar a
profissionalização dos negócios a via do crescimento desejado. Essa parceria se dá
hoje tanto com consultores da Visagio atuando em cargos executivos da empresa
quanto com sócios atuando no conselho de administração.
As metas estratégicas da empresa estão em três grandes áreas: lucratividade,
caixa e longevidade. O desempenho em cada uma dessas esferas é medido através de
indicadores. A lucratividade é medida pelo EBITDA, focando bastante na redução de
custos e despesas nas operações, enquanto o caixa possui como principal indicador a
dívida líquida sobre o EBITDA. Já a longevidade pode ser medida pelo Same Store
Sales (SSS), que mede o quanto uma loja vendeu a mais em valor naquele ano
comparada ao mesmo período do ano anterior.
Para alcançar suas metas, alguns projetos estratégicos foram implantados na
Casas Pedro nos último anos, como a implantação do reabastecimento automático das
lojas, que começou a ser implantado em 2016 e está sofrendo ajustes neste ano de
2017. Com isso, se deseja que o pedido de mercadorias para a loja pelo CD seja criado
automaticamente, com base na previsão de vendas da loja. Assim, é possível tirar uma
carga grande das lojas de criar os pedidos e colocá-los no sistema ERP, possibilitando
que os lojistas foquem em melhorar o atendimento e a exposição dos produtos. Além
disso, se visa melhorar a qualidade dos pedidos, que são calculados com base em
parâmetros quantitativos vindos do histórico de cada loja, assim buscando otimizar o
sortimento e o nível de estoque das filiais. Porém, esse processo não pode ser
totalmente automatizado para poder incorporar informações qualitativas que o gerente
da loja pode pegar no dia a dia, logo não minando o sentimento de dono dos
funcionários.
3.3. Problemática
A estratégia de expansão da Casas Pedro tem tido como principal foco a
abertura de novas lojas e o aprimoramento das lojas já existentes, sobretudo através da
revisão de processos, para garantir que a qualidade do atendimento e as vendas
continuam a crescer. Assim, ao longo dos últimos anos, iniciativas como o
reabastecimento automático das lojas foram tomadas para garantir a prosperidade da
rede.
Os resultados dessas iniciativas podem ser considerados de sucesso, visto que
indicador de Same Store Sales vem crescendo ao passo em que novas lojas são
21
inauguradas pela cidade. Entretanto, apesar disso ser uma verdade para as lojas
tradicionais, o cenário do Televendas Casas Pedro não tem seguido o mesmo caminho.
Em 2016, o resultado do Televendas foi inferior ao esperado, sobretudo no mês do natal,
principalmente devido a redução do número de cestas de natal vendidas em relação ao
ano anterior. Tradicionalmente, um grande volume de cestas de natal é vendido por
esse canal, representando uma grande parte do faturamento, em 2016, o fraco
desempenho, provocou resultados financeiros abaixo do esperado e um estoque de
produtos natalinos ao fim do ano maior que o planejado.
Além dos resultados alarmantes do ano de 2016, o Televendas teve impactos
mais tímidos em relação a mudança de estratégia adotada em 2013. A migração para a
Nova Geração e o sonho de chegar a 100 lojas fez com que a cultura da Casas Pedro
se fortalecesse e, aqueles que não se motivaram com o sonho da empresa acabaram
se afastando da mesma. Este movimento que ocorreu, sobretudo nas lojas e no
escritório, não teve grandes impactos no centro de distribuição e no televendas, onde a
equipe manteve grande parte dos funcionários da Velha Geração que não foram muito
conquistados pelas novas metas da empresa.
Assim como os funcionários, os processos do Televendas também foram menos
impactados pela transição quando comparado aos das demais unidades. O
reabastecimento automático, por exemplo, foi aplicado a todas as lojas, com exceção
do televendas dado ao seu perfil de vendas particular. Essa diferença de perfil também
tem impactos no atendimento, pois, ter um atendimento próximo com o perfil de
atendente mordomo é mais difícil de ser conquistado via telefone. Com isso, é
necessário que os funcionários do Televendas busquem vendas de forma pró-ativa para
fortalecer seu relacionamento com os clientes, o que não vem acontecendo da forma
esperada. Um resumo da problemática se encontra na figura 3.
Figura 3: Resumo da problemática no televendas
22
Assim, para incentivar o atendimento pró ativo necessário para que o
Televendas trabalhe da forma que se espera na Casas Pedro e conquiste os resultados
almejados, a equipe de Comercial da empresa deseja desenvolver um sistema de
sugestão de itens para auxiliar nas vendas. A ideia é que os atendentes possuam uma
ferramenta que consiga lhes informar quais produtos devem ser oferecidos a cada
cliente com base em seu perfil de compras para aumentar o número de peças por
atendimento e o ticket médio das vendas.
Atualmente, diversas empresas, em especial àquelas que realizam vendas on-
line, possuem esse tipo de ferramenta, que faz uso do big data para analisar sua base
de vendas e identificar produtos que costumam ser vendidos para um mesmo cliente.
Assim, quando um novo cliente solicitar um daqueles produtos, o outro será sugerido e,
se aceito, além de aumentar as vendas, irá contribuir para a satisfação do cliente que
reconhecerá que a empresa conhece suas preferências e o orienta para melhorar sua
experiência de compra.
Desta forma, a equipe da Casas Pedro acredita que uma ferramenta como esta
será essencial para que o Televendas possua um atendimento de melhor qualidade e
consiga realizar vendas mais eficientes e proativas. Esta solução também irá aproximar
a Casas Pedro da possibilidade de realizar vendas on-line de qualidade, desejo que a
equipe Comercial também possui.
4. Entendimento dos Dados
Nesta etapa, será aprofundado o conhecimento sobre os dados disponíveis
específicos do televendas da Casas Pedro. Assim, se deseja obter familiaridade com o
objeto cerne do problema identificado.
Para o entendimento dos dados de vendas do televendas da Casas Pedro, foram
acessadas três tabelas do banco de dados da empresas, sendo estas as tabelas que
armazenam os dados das vendas, cadastro de produtos e cadastro de clientes. A tabela
de vendas contempla detalhes das transações realizadas, como, por exemplo, data e
filial da transação, preço, quantidade e faturamento de cada produto vendido. A base de
produtos possui as informações de cadastro dos mesmos, incluindo informações como
descrição e custo. Já a base de clientes, consiste nas informações cadastrais dos
clientes da Casas Pedro e armazena informações como nome e endereço.
Como o ERP utilizado pela Casas Pedro foi implantado em 2015, a equipe
comercial aconselhou que, para garantir a confiabilidade das informações, apenas os
23
dados a partir do ano de 2016 fossem utilizados. Assim, o histórico disponível para
análise é correspondente ao período entre primeiro de janeiro de 2016 e primeiro de
agosto de 2017, contemplando, assim, um ano e sete meses de vendas. Com esse
histórico como referência, foram selecionados os dados relativos às vendas realizadas
pela filial do Televendas.
A filial Televendas possui um espaço físico próprio para estocagem, separação
e expedição de suas vendas anexo ao Centro de Distribuição que atende as lojas.
Quando identifica-se que algum item não está com o giro esperado, realiza-se a
devolução destes produtos do estoque do Televendas de volta para o Centro de
Distribuição. Essas movimentação de devolução são registradas na base de vendas e,
por não representarem de fato a venda de produtos, não devem ser considerada na
análise aqui realizada. Sendo assim, após a coleta dos dados, foram retirados da base
os registros referentes a devolução de produtos do estoque do Televendas para o
Centro de Distribuição.
Após a seleção dos dados a serem analisados, foram feitas duas análises
preliminares, uma ligada ao número de peças por atendimento e outra a sazonalidade.
4.1. Peças por Atendimento
Os filtros citados acima resultaram em uma base com 218.335 observações,
onde cada observação corresponde a venda de um produto. Essas observações são
referentes a venda de 1.545 itens diferentes e distribuídas em 34.536 notas fiscais, o
que resulta em uma média de 6,4 produtos por atendimento. Os detalhes da distribuição
da quantidade de pedidos por nota fiscal podem ser vistos na tabela 1.
Medida Valor
Mínimo 1,0
Primeiro Quartil 2,0
Mediana 5,0
Média 6,3
Terceiro Quartil 8,0
Máximo 79,0 Tabela 1 - Resumo da quantidade de produtos por nota fiscal
A partir da elaboração do boxplot do número de itens por pedido, pode-se
observar um grande número de outliers, que foram removidos para uma análise mais
detalhada. A base resultante da remoção de outliers contém o registro de 32.030 notas
fiscais com uma média de 5,7 peças por atendimento. Os detalhes da distribuição da
quantidade de pedidos por nota fiscal após a remoção de outliers podem ser vistos na
24
tabela 2. Os boxplots de peças por atendimento antes e depois da remoção de outliers
estão representados na figura 4.
Medida Valor
Mínimo 1,0
Primeiro Quartil 2,0
Mediana 5,0
Média 5,6
Terceiro Quartil 8,0
Máximo 17,0 Tabela 2 - Resumo da quantidade de produtos por nota fiscal após remoção de outliers
Para complementar a visualização dos dados mantidos, foi elaborado o
histograma do número de itens por nota fiscal (figura 5). No histograma, a mediana é
representada por uma linha vertical vermelha, enquanto a média por uma linha vertical
azul. O histograma revela que, apesar de ambas as medidas de posição nele
representadas (média e mediana) estarem em torno de 5, a moda, que representa o
valor mais frequente, é igual a 1, o que significa que a maioria dos clientes compram
apenas um item por pedido.
Figura 4- Boxplot da quantidade de produtos por nota fiscal antes e depois da remoção de outliers
25
Figura 5 - Histograma da quantidade de produtos por nota fiscal
Com a remoção de outliers, são retiradas da base 3,2% das notas fiscais
existentes. A regra utilizada para esta remoção foi a exclusão de registros de valores
superiores a soma do terceiro quartil com 1,5 vezes a amplitude interquartílica, ou seja,
todas as notas fiscais referentes a 18 ou mais itens distintos foram retiradas. Entretanto,
a partir da análise dos outliers, realizada em conjunto com os funcionários responsáveis
pelo Televendas da Casas Pedro, identificou-se que essa remoção retiraria da base
algumas das maiores e mais representativas vendas do último ano, com isso, optou-se
por seguir o trabalho com a base original, anterior à remoção de outliers.
4.2. Sazonalidade
Em conversa com os funcionários da Casas Pedro, foi informado que,
historicamente, sabe-se que existe uma forte sazonalidade no período de natal. Esta
sazonalidade é devida a dois principais fatores: a maior busca por produtos natalinos
que são especialidades da Casas Pedro, como nozes, bacalhau e frutas secas e a
venda de cestas de natal. Além da sazonalidade existente no final do ano também foi
citado um pico menos expressivo no período de páscoa, justificado pelo maior consumo
de bacalhau nesta época.
26
Para identificar e evidenciar o impacto da sazonalidade no período utilizado para
as análises, foi elaborado um gráfico (figura 6) que mostra a evolução do número de
itens vendidos por mês ao longo do período analisado.
É possível observar um máximo global no mês de dezembro de 2016, que pode
ser explicado pela sazonalidade e evidencia a hipótese de que as vendas do Televendas
são maiores em dezembro. Além do máximo global em dezembro, também pode-se
observar dois máximos locais nos meses de março de 2016 e março de 2017. Esses
dois pontos também podem ser frutos de uma sazonalidade causada pela Páscoa,
época do ano em que os produtos da Casas Pedro também costumam ser mais
procurados.
Além da análise da sazonalidade do volume de itens vendidos, também foi realizada
uma análise para verificar se o mix de produtos vendidos pelo Televendas varia ao longo
do ano. Para isso, foi elaborada uma matriz (Tabela 3) que verifica o grau de similaridade
entre os 100 itens mais vendidos em cada mês do ano de 2016.
Figura 6 - Número de itens vendidos por mês
27
Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Média
Jan 83 82 82 80 82 79 80 77 82 72 56 78
Fev 80 82 81 79 78 79 74 76 70 53 76
Mar 84 87 81 83 82 80 79 73 55 79
Abr 85 84 80 84 81 83 76 59 80
Mai 84 82 83 83 81 76 58 80
Jun 84 85 81 82 75 55 79
Jul 84 84 86 75 58 79
Ago 84 85 76 58 80
Set 84 76 59 78
Out 78 60 80
Nov 73 75
Dez 59
Tabela 3 - Número de interseções entre os 100 itens mais vendidos em cada mês do ano de 2016
Cada elemento do tabela 3 representa número de itens em comum nas listas
dos cem itens mais vendidos em cada dupla de meses do ano de 2016, ou seja, 83 dos
100 produtos mais vendidos em janeiro também podem ser encontrados na lista dos
100 produtos mais vendidos em fevereiro. Os meses que apresentaram vendas mais
semelhantes em 2016 foram março e maio, com 87 itens em comum, enquanto a menor
semelhança ocorreu entre fevereiro e dezembro, que apresentaram apenas 53 itens em
comum nas listas dos mais vendidos.
Pode-se observar que a similaridade entre os itens mais vendidos em cada mês
gira em torno de 80%, apresentando uma média de 77% e moda de 84%. Essa variação
entre os valores da moda e da média pode ser justificada pelos resultados obtidos para
28
os dois últimos meses do ano, em especial dezembro, que possuem um perfil de vendas
diferente. Os meses de novembro e dezembro apresentam uma similaridade média de
de 75% e 59%, respectivamente, o que pode ser explicado pela sazonalidade, uma vez
que, no mês de novembro inicia-se a venda de cestas de natal, que representa um
volume significativo neste mês e corresponde ao maior número de vendas em
dezembro.
Assim, de forma geral, pode-se concluir que o perfil de vendas não varia muito
ao longo do ano, com exceção do período de natal, no qual a sazonalidade gera um
grande impacto nas preferências dos clientes. Para garantir a consistência do resultado
da análise foi determinado que o mês de dezembro seria desconsiderado durante a
etapa de modelagem. Essa decisão será melhor justificada na etapa seguinte, relativa
a modelagem.
5. Modelagem
Após a etapa da análise exploratória foi iniciada a modelagem conforme as
técnicas de análise da cesta de compras apresentada na seção 2.1. Na etapa de
preparação dos dados serão descrito todos os passos do pré processamento dos dados
como, seleção das variáveis e janela de análise, limpeza dos dados e combinação das
bases de dados existentes para alimentar a modelagem. Em seguida será explicado
como foi feita a modelagem para o problema que tínhamos em mãos, desde a seleção
do modelo e dos parâmetros utilizados.
5.1. Preparação dos dados
O grupo teve amplo e completo acesso às bases de dados da Casas Pedro,
inclusive às bases de vendas que são necessárias para esse tipo de análise. Com base
nesses dados, foram realizadas as análises presentes na seção 4, que fizeram parte da
preparação dos dados.
Primeiramente, decidiu-se excluir o período do natal dado sua sazonalidade e o
consequente aumento das vendas que poderia influenciar nos resultados obtidos pelo
modelo. Esse ponto foi alinhado com o gerente comercial, Pedro Coutinho, que sugeriu
que a análise fosse realizada para o ano inteiro, com exceção do período natalino, dado
que durante essa época a equipe do televendas está focada na venda das cestas de
natal e a sugestão de itens não seria tão valiosa quanto no restante do ano. Sendo
assim, o período escolhido para análise dos dados foi, inicialmente, de janeiro a agosto
de 2017, visando retirar a influência que o final do ano teria nos resultados.
29
Entretanto, ao longo das análises, notou-se que grande parte das correlações
encontradas se davam entre itens presentes nas cestas de natal vendidas pela
empresa. Em nova reunião com Pedro Coutinho, entendeu-se que tais vendas eram
relativas às cestas sobressalentes de dezembro que acabavam por ser vendidas
também nos meses de janeiro e fevereiro, muitas vezes com descontos. Além disso, por
uma limitação sistêmica, as vendas das cestas não eram cadastradas como o SKU
“cesta de natal”, mas sim com todos os itens pertencentes àquele kit discriminados na
base. Com o objetivo de não poluir a modelagem com essas correlações causadas, não
por afinidade natural entre os produtos mas pelo fato deles estarem sendo vendidos em
um kit, foram expurgados da análise os dois primeiros meses do ano, resultando em um
período de análise de 01/03/2017 até 01/08/2017. Logo, foram analisadas 10.692
transações com 64.905 itens vendidos, com uma média de 5,98 itens por transação.
A figura 7 mostra a frequência dos itens mais representativos ao longo do
período analisado, contendo no eixo x o nome dos produtos em questão e no eixo y a
frequência em que os mesmos são encontrados na base de dados.
Figura 7- Itens mais frequentes durante o período selecionado para análise
5.2. Seleção do modelo
Para a seleção do modelo para a análise, foi utilizada a metodologia CRISP-DM,
passando pelas fases de definição do universo de técnicas disponíveis na ferramenta
de escolha, escolha das técnicas apropriadas para o problema, definição dos limites
impostos pelo problema de negócio e definição de limitações de tempo, características
30
e conhecimento até chegar na definição final das técnicas utilizadas. Um resumo dessa
metodologia está presente na figura 8.
No universo de técnicas de análise de cestas de compras se destacam dois
algoritmos principais: Eclat e Apriori. Ambos buscam obter as relações de afinidades (ou
regras) entre itens a partir de uma base grande de transações de clientes e assim
responder a pergunta “quem comprou X também comprou o que?”.
Ambos algoritmos são alimentados com uma matriz esparsa, contendo o id da
transação nas linhas e todos os itens nas colunas. Assim, quando uma transação
contém um determinado item o valor na matriz é preenchido com 1 e quando não contém
o item é preenchido com zero. A matriz é dita esparsa por ser composta, em sua grande
maioria, por zeros dado que as transações comumente contém poucos itens do universo
possível. A partir disso são calculados os indicadores de suporte, confiança e lift que
serão utilizados para descobrir as correlações mais interessantes presentes na base de
dados.
Figura 8 - Metodologia CRISP-DM para seleção de modelos
Fonte: Traduzido de Chaptman (2000), página 48
31
O modelo Eclat é o mais simples dos dois e olha apenas para o indicador de
suporte. Primeiramente, é definido um suporte mínimo pelo usuário. Em seguida é
calculado o suporte para todas as combinações de itens a partir da matriz esparsa
obtida. Essas combinações devem ter no mínimo 2 itens. Finalmente, são filtrados todos
os conjuntos de itens com o suporte maior ou igual ao suporte mínimo escolhido
inicialmente. Então, os resultados são ordenados do maior para o menor suporte para
melhor visualização. Essa técnica busca apenas compreender quais são os conjuntos
mais frequentes na base de dados afim de encontrar as afinidades. Um resumo de suas
etapas podem ser visualizadas através da figura 9.
Figura 9- Etapas do modelo Eclat
Essa técnica é altamente influenciada por itens com alta frequência na base de
dados. Os itens com maior suporte irão sempre aparecer nas melhores regras, não
necessariamente por uma afinidade ou complementaridade mas pela sua grande
representatividade. Por causa disso, não é sugerido utilizar essa técnica para conjuntos
de transações altamente concentrados (Blattberg, Kim, Neslin, 2008). Analisando o
suporte dos 1024 itens presentes no histórico e dos 100 itens mais frequentes para o
período selecionado, a partir das figuras 10 e 11, respectivamente, podemos ver a
altíssima concentração de alguns itens, fazendo com que essa modelagem não seja a
mais recomendada para o problema em mãos.
32
Figura 10 - Frequência para dos 1024 itens da base de dados
Figura 11 - Frequência dos 100 itens mais presentes na base de dados
O modelo Apriori é mais sofisticado, utilizando os indicadores de suporte
confiança e lift. Primeiramente, os valores mínimos para suporte e confiança são
definidos pelo usuário. Em seguida, o suporte para todas as combinações possíveis é
calculado e as combinações com o suporte maior do que o suporte mínimo definido são
filtradas. Normalmente se limita a quantidade máxima de itens presentes em uma
combinação como 10 e o mínimo como 2 para tornar os cálculos menos custosos
(Blattberg, Kim, Neslin, 2008). Tendo em mãos todas as combinações com o suporte
maior que o mínimo, são geradas todas as possíveis regras dessas combinações no
formato X ⇒ Y, sendo que X pode conter de 1 a 9 itens e Y contém apenas 1 item.
33
Posteriormente, a confiança para todas as regras geradas é calculada e filtram-se as de
confiança maior do que o mínimo definido. Finalmente, as regras restantes são
ordenadas de acordo com o lift para obtermos as regras mais relevantes. As etapas do
modelo Apriori encontram-se listadas na figura 12.
Figura 12 - Etapas do modelo Apriori
Esse foi o modelo escolhido para a análise pois possibilita visualizar associações
com itens de menor frequência na base de dados, não sendo tão influenciada por itens
com maior suporte, o que o torna mais apropriado para o problema em questão.
5.3. Seleção dos parâmetros
A seleção dos parâmetros da modelagem Apriori serve para limitar o número de
regras geradas pelo modelo, de modo que o resultado contenha apenas as regras mais
interessantes de acordo com as medidas de suporte, confiança e lift. A literatura
recomenda que o parâmetro de suporte mínimo seja definido em alinhamento com o
problema de negócio a ser resolvido, definindo uma frequência mínima aceitável para
uma regra (Blattberg, Kim, Neslin, 2008).
Em reunião com Pedro Coutinho, foi alinhado que desejava-se visualizar
somente regras compostas por itens que saíam pelo menos em média 1 vez por
semana. Como período de análise, de 01/03/2017 até 01/08/2017, contém 22 semanas,
um item deveria aparecer no mínimo em 22 transações da base para possuir o suporte
34
mínimo desejado. Em um universo de 10.692 transações isso significa um suporte de
22/10.692 = 0,002 ou 0,2%.
Inicialmente, o modelo foi gerado com limitações apenas para o suporte. Foram
resultantes 8.431 regras de associação consideradas interessantes. Essas regras
tiveram no mínimo 2 e no máximo 6 itens, possuindo em média 2,654 itens. Os
indicadores gerados estão resumidos na tabela 4.
Tabela 4- Indicadores gerados com limitação de suporte
Analisando o grande número de regras obtidas, concluiu-se que era necessário
determinar uma confiança mínima afim de se obter resultados mais concisos e expurgar
associações não tão relevantes. Nota-se que todo o primeiro quartil possui confiança
menor do que 8,96%, ou seja, a probabilidade de encontrar o RHS dado que se comprou
o LHS é pequena. Além disso nota-se que existem regras com o lift menor do que 1,
sendo, assim, menos prováveis que a chance aleatória de encontrar os itens em
conjunto.
Afim de limitar o número de regras obtidas e filtrar apenas associações
interessantes (com probabilidade de ocorrer maior do que a probabilidade aleatória)
foram feitos testes para encontrar um valor mínimo de confiança que nos desse apenas
regras com lift>1. Assim, chegou-se ao modelo com confiança mínima de 13%, cujo
resumo pode ser observado na tabela 5.
35
Tabela 5 - Indicadores gerados com limitação de suporte e lift
Pode-se notar que o número de regras obtidas caiu em 36,6% quando
comparado ao primeiro modelo, totalizando 5.345 regras. A maior parte das regras
retiradas foi de 2 itens, o que aumentou a média de itens por regra para 2,985. O lift
mínimo do modelo agora é de 1,01, ou seja, todas as regras são interessantes segundo
a premissa adotada.
6. Análise dos resultados
6.1. Validação do modelo
Algumas validações foram realizadas para garantir que o modelo estava
representando bem as relações na cesta de compras dos clientes da Casas Pedro. Com
isso, buscou-se garantir que os resultados gerados não continham erros conceituais,
viés ou problemas gerados por má qualidade dos dados.
Procurou-se avaliar se as relações encontradas eram comuns entre vários
clientes. Como no televendas a maior parte dos clientes é composta por redes de
restaurantes, hotéis ou outros comerciantes de alimentos, é de se esperar que exista
uma maior fidelização desse tipo de cliente. Esse foi um risco levantado pela equipe de
projeto e pela equipe do televendas, que tinha receio de que os resultados fossem
causados por um cliente fiel comprando uma combinação de itens exótica.
36
Para a análise da cesta de compras isso é um risco, dado que as regras
descobertas podem não significar uma associação comum que pode gerar uma
sugestão de compras, mas sim um pacote comumente comprado por um cliente que
não necessariamente se aplica a outros.
A metodologia padrão da análise da cesta de compras não prevê a identificação
do cliente para realizar a análise pois é normalmente usada em pontos de vendas de
lojas físicas ou em grandes varejos online (Blatterb, Kim, Nslin 2008). O modelo do
televendas possibilita a identificação de todos os clientes o que torna possível a
validação da quantidade de clientes distintos por regra gerada e o entendimento de se
o resultado pode ser usado para alavancar vendas e gerar sugestões.
Assim, foi possível cruzar a base de regras de associação gerada com a base
de transações com os clientes identificados. O produto final da análise consiste no
número de diferentes clientes que compraram cada conjunto de itens apontados como
associações interessantes. É de se esperar que as regras somente irão apontar uma
sugestão se o conjunto tenha sido comprado por mais de um cliente no histórico.
Com isso pode-se validar o modelo retirando o número de clientes distintos que
compraram cada conjunto considerado como uma regra interessante. Para essa
validação foram utilizados as 322 regras com lift maior ou igual a 5, parâmetro
considerado suficiente pela equipe do televendas. A partir disto, foi gerada a tabela 6 e
a figura 13.
38
Figura 13- Número de clientes distintos vs Contagem de regras geradas
A validação mostra que nenhuma regra gerada teve menos de dois clientes
distintos relacionados. Assim, a condição imposta pela área do televendas foi satisfeita,
e as regras geradas são compostas sempre por mais de um cliente. A maior parte das
regras apresenta 10 clientes distintos e em média uma regra tem 14,3 clientes distintos.
Considerando o modelo de atendimento do televendas esse número foi considerado
satisfatório e o modelo foi validado.
Além disso, nota-se que um subproduto da análise é a relação de clientes que
faz conjuntos de compras similares. Como a base de clientes não é dividida em
segmentos (por exemplo restaurante japonês, restaurante italiano, doceiras e etc) esse
pode ser um primeiro passo para a esse tipo de análise. O conjunto de compras é um
fator importante para auxiliar na classificação do cliente e será mais explorado nos
próximos passos.
6.2. Análise gráfica das regras geradas
Para a melhor visualização das regras geradas pelo algoritmo Apriori foram
gerados gráficos que visam resumir aspectos importantes dos resultados. Foi utilizado
o pacote Arulesviz da ferramenta de análise estatística R que possui funções específicas
para visualizar e entender os resultados de uma análise da cestas de compras.
A primeira maneira de visualizar a relação entre as regras é num gráfico de
dispersão considerando as três principais medidas de afinidade: suporte, confiança e lift
(figura 14). Esse tipo de visualização pode ser visto em Bayardo, Jr. and Agrawal (1999)
e tem o suporte e a confiança nos eixos x e y, respectivamente, e uma escala de cor
representando o lift. Pode-se notar que as regras com maior lift são aquelas com o
menor suporte, confirmando a relação inversa que se espera dessas duas variáveis. Na
figura 15 temos uma conclusão similar, mas agora com o lift no eixo y, é possível ver
39
que algumas regras possuem lift muito alto, na casa das centenas. Além disso pode-se
notar que essas regras também apresentam confiança muito alta e o suporte baixo.
Figura 14 - Suporte vs Confiança
Figura 15 - Suporte vs Lift
Unwin, Hofmann, and Bernt (2001) introduziram o chamado Two-Key Plot, outra
forma de se visualizar as regras geradas com o suporte e a confiança nos eixos e a cor
representando a ordem da regra, ou seja, o total de itens que essa regra contém. Pela
40
figura 16, fica claro que o suporte e a ordem possuem uma forte relação negativa, o que
é um fato conhecido sobre as regras de associação (Seno and Karypis 2005). É de se
esperar que quanto mais itens estiverem presentes em uma regra, menor será a chance
deles ocorrerem em conjunto novamente, ou seja, menor será o suporte da regra.
Figura 16- Suporte vs Confiança
A visualização de matriz foi introduzida por Ong, leong Ong, Ng, e Lim (2002) e
mostra os itens consequentes (RHS) no eixo y e os antecedentes (LHS) no eixo x, além
de indicar o lift pela cor da célula (figura 17). Assim é possível encontrar itens com muitos
antecedentes ou consequentes. Para melhor visualização, foram filtradas as 50 regras
com maior lift e ordem 2. A legenda para a numeração dos itens está presente na tabela
7.
Pela visualização no formato de matriz, podemos ver que não existe nenhum
item que domina LHS ou RHS, ou seja, nenhum item tem muitos antecedentes e
nenhum antecedente possui muitos consequentes. Assim, conclui-se que as regras com
maior lift apresentam uma variedade grande de produtos representados, com 33
produtos dominando as 50 regras.
41
Tabela 7- Legenda para numeração dos itens na visualização por matriz
Figura 17- Matriz com 50 regras de maior lift
6.3. Exemplos de associações descobertas
De modo a obter exemplos de associações descobertas, pode-se ampliar
somente uma parte do gráfico afim entender detalhadamente cada indicador das regras
geradas. Para melhor visualização, foi criado o gráfico mostrado na figura 18. Nele estão
contidas somente as regras de ordem 2, ou seja, de um item no LHS e um item no RHS.
Além disso, foram destacadas as regras contidas no canto superior esquerdo do gráfico
42
de suporte versus confiança (área demarcada na figura 18). O resultado é um conjunto
de 85 regras geradas pelo modelo com os respectivos indicadores que pode ser
encontrado na tabela 8.
Figura 18 - Suporte vs Confiança de regras de ordem 2 com a área analisada em destaque
Pode-se notar que as regras encontradas parecem fazer sentido intuitivamente.
Muitos itens são da mesma categoria de produtos, como, por exemplo, na regra [4]
{MOLHO DE ALHO FENICIO 150ML} => {MOLHO DE PIM. ARABE FENICIO 150ML}.
Se espera que esses produtos apareçam juntos em uma cesta de compras de um cliente
que vende salgados árabes, por exemplo, pois ambos são molhos típicos para se comer
com esse tipo de alimento. Outros exemplos desse tipo são [17] {COBERTURA
MORANGO MARVI 1,3 KG 1641} => {COBERTURA CHOCOLATE MARVI 1,3KG
1221}, ambos os itens são coberturas de sorvetes e devem ser comprados por
sorveteiros e [43] {MOLHO DE OSTRA DRAGON 420ML} => {SAKURA TRADICIONAL
1LT} que são molhos para comidas orientais.
Outras relações chamaram a atenção do time comercial da Casas Pedro, como,
por exemplo, [27] {QUINUA EM FLOCOS KG} => {GOJI BERRY KG} e [34] {FARELO
DE TRIGO KG} => {LINHACA KG} que são produtos que tiveram aumento das vendas
com a atual onda de alimentação saudável. Destacar esse tipo de associação mostra
como o modelo se adapta aos costumes de compra dos clientes e como novas
tendências podem ser identificadas somente observando a base de vendas.
44
7. Implementação
7.1. A visualização das regras resultantes
A visualização de dados é utilizada para comunicar ideias concretas e abstratas
nas áreas de ciência, engenharia e educação (Prangsmal, van Boxtel, Kanselaar, and
Kirschner 2009). O resultado básico da análise da cesta de compras é uma base de
dados contendo todas as regras de associação com os respectivos indicadores de
suporte, confiança e lift. A visualização desses resultados foi considerada parte integral
da implementação desde o primeiro momento. Foi demandada uma forma intuitiva e
flexível para se gerar resultados confiáveis, relevantes e de fácil entendimento para
todos da equipe do televendas.
Visualizar as regras geradas de maneira gráfica foi um desafio imposto pela
Casas Pedro. Essa visualização deveria, também, limitar o número de itens vistos ao
mesmo tempo, de maneira que ao se entrar com um conjunto de itens fosse obtido o
resultado de todos os produtos sugeridos a partir daquela combinação. Com isso,
decidiu-se utilizar somente as combinações de ordem 2 para facilitar a compreensão e
minimizar o número de regras redundantes.
7.2. Ferramenta de visualização das associações
Com o objetivo de se gerar a visualização desejada, foi criado um programa em
R no qual, com base em uma lista de produtos, gera-se um grafo interativo das regras
de associação. Os parâmetros para essas regras são os mesmos descritos na seção
5.3 somados ao limite máximo de dois itens por regra.
Além disso, foi solicitado que na visualização dos resultados obtidos não fossem
apresentadas as associações entre os itens colocados como input, uma vez que o
objetivo é executar análises com base em uma cesta de compras já existente e, assim,
gerar sugestões dos próximos produtos a serem vendidos. Logo, as associações entre
os itens já dentro da cesta iriam apenas poluir a visualização e aumentar o tempo de
processamento do modelo.
Ficou definido que o resultado final seria um grafo contendo os itens presentes
na relação, setas indicando o sentido das relações (saindo do item LHS e indo para o
item RHS) e nós representando a força. Escolheu-se o indicador de confiança para
representar a força da relação pelos dois seguintes motivos. Primeiro, por ele ser mais
simples de se explicar e comunicar do que o lift, uma vez que representa a probabilidade
de compra do item sugerido dado que foi comprado determinado item, um conceito que
todos conseguem entender com relativa facilidade. Segundo, pois seu valor varia entre
45
0% e 100%, logo, a escala dos nós fica visualmente comparável. Como vimos, o lift pode
variar de 1 a o infinito, ou seja, para valores muito grandes isso iria distorcer os
tamanhos no grafo.
Como um exemplo, será simulada a utilização da ferramenta com o input de uma
cesta de compras contendo AMIDO DE MILHO KG, FARELO DE TRIGO KG e
OREGANO ITALIANO KG. Esses itens inicialmente não parecem ter nenhuma relação,
mas com a ferramenta e o grafo gerado fica fácil de visualizar quais são os melhores
itens para se sugerir para um cliente com essa cesta específica. A tela de seleção dos
itens se encontra na figura 19 e o grafo gerado em html pela ferramenta está na figura
20:
Figura 19 - Tela de seleção de itens gerada, em que o usuário pode um ou mais itens para visualizar
46
Figura 20 - Grafo gerado pela ferramenta
Inicialmente, pode-se parecer que são muitas relações a serem consideradas,
mas, é possível, gradualmente, entender as diversas informações fornecidas. É viável,
por exemplo, iluminar somente os itens relacionados a um determinado produto. Na
figura 21 estão destacados somente os itens que tem relação direta com o FARELO DE
TRIGO KG.
Figura 21 - Destaque para relações diretas com o FARELO DE TRIGO KG
47
Também é possível visualizar a confiança da relação somente passando o
mouse por cima do nó correspondente. A figura 22 mostra que a confiança da regra
{FARELO DE TRIGO KG} => {LINHACA KG} é de 42.5%, ou seja, os clientes compram
linhaça em 42.5% das vezes que compram farelo de trigo.
Figura 22 - Simples consulta da confiança de uma regra
Ao destacarmos o ACUCAR MASCAVO KG podemos ver que esse item tem
relação com os 3 itens que estão na cesta do cliente. Então, pode ser bem interessante
indicar esse produto para o cliente em questão visto que todos os produtos da sua cesta
apresentam afinidade com ele. Vemos também que o mesmo possui uma confiança de
37.0% na sua relação com o FARELO DE TRIGO KG pela figura 23.
48
Figura 23 - Destacando o item ACUCAR MASCAVO KG
Para facilitar a navegação, também foi incluída uma listagem que pode ser
utilizada para selecionar e iluminar determinado item ou nó do grafo. Além disso, é
possível dar zoom, movimentar e alterar a posição dos elementos do grafo para fazer
com que a visualização se torne a mais interativa o possível. Essas funcionalidades
estão ilustradas na figura 24. Mais imagens com exemplos de outros grafos gerados se
encontram no anexo 1.
Figura 24 - Funcionalidades do grafo gerado
49
7.3. Resultados esperados
Com os resultados gerados pela análise, a equipe do televendas possui, em
mãos, novas informações sobre as cestas de compras de seus clientes. Os resultados
esperados podem ser divididos em duas principais frentes que serão descritas nessa
seção.
A primeira é mais proativa, na qual os resultados gerados são analisados pela
equipe comercial em conjunto com a liderança do televendas. Assim, podem-se
determinar informações relevantes como, por exemplo, a análise dos produtos não
somente por seus indicadores individuais como margem de lucro e faturamento, mas
também por sua relação com outros produtos. Essa informação é especialmente
importante para descontinuar produtos, por exemplo. Será possível saber se a
descontinuação de um determinado produto pode afetar a venda de outros que são
interessantes para a empresa. (Cox, 2012)
Além disso, o acompanhamento da evolução dos novos produtos introduzidos
no sortimento é simplificado, pois pode-se analisar quais são as principais associações
que esse novo item irá apresentar com os produtos existentes após sua introdução.
Outro ponto proativo está ligado a promoções. Se dois itens apresentam forte afinidade,
por exemplo, promocionar um deles deve acarretar em maiores vendas do outro. Além
disso, sabe-se que não se deve promocionar os dois itens ao mesmo tempo, pois, assim,
arrisca-se apenas diminuir a margem de lucro sem alavancar as vendas (Cox,
2012). Vendas casadas também são uma opção viável, criando, por exemplo, kits de
produtos que possuem forte associação e podem ser oferecidos aos clientes.
Por outro lado, a análise pode render frutos de caráter mais reativo para o
operacional do televendas. É possível utilizá-la para sugerir os próximos itens para
determinado cliente com base no que ele possui em sua cesta de compras. Assim, ao
inserir os produtos do pedido na ferramenta, pode-se fazer sugestões ainda antes da
compra ser finalizada. Esse tipo de utilização é mais complicado, uma vez que o
operador faz uso da ferramenta no momento de interação com o cliente. Entretanto,
introduzir esse tipo de informação para o vendedor pode alavancar significativamente o
potencial de vendas.
7.4. Próximos passos
A análise da cesta de compras é um primeiro passo para outras diversas
análises em potencial para o televendas e para a Casas Pedro como um todo. O cenário
de ferramentas analíticas na empresa ainda é muito imaturo, a área comercial se baseia
50
muito na experiência dos vendedores e gerentes e algumas ferramentas comuns no
varejo ainda não são utilizadas.
Especificamente para o televendas, destaca-se o fato de que eles não possuem
um cadastro de clientes segmentado por tipo de estabelecimento. A análise da cesta de
compras é um primeiro passo para gerar esse tipo de informação, sendo base para
comparar compras comuns entre diferentes clientes e entender as similaridades. Esse
tipo de informação poderia ser aproveitado para especializar os vendedores para um
atendimento mais personalizado para os diferentes perfis de clientes atendidos, como
por exemplo para restaurantes italianos, japoneses, doceiras e confeiteiros, entre
outros. Assim, cria-se uma base mais sólida de clientes que busca a Casas Pedro não
somente pelo mix de produtos mas também pela capacidade de sugerir itens
interessantes. Além disso, é um importante passo para a expansão da empresa,
atendendo grandes franquias do varejo alimentício e acelerando sua expansão.
Ademais, um próximo passo para esse tipo de análise é estendê-la para as lojas
físicas da empresa, tornando a informação de produtos com afinidade acessível aos
vendedores e gerentes. Assim, pode-se criar um sistema de sugestão de produtos
customizado para cada loja, agradando ainda mais os clientes de cada loja.
Além de todas as vantagens comerciais que essa informação pode gerar, ainda
existe outro ponto importante: o layout dos produtos na loja. Colocar produtos com forte
associação próximos pode alavancar suas vendas casadas. Por outro lado, colocá-los
distantes pode forçar o cliente a andar mais pela loja para conseguir os itens que deseja
e, assim, aumentar as chances dele comprar outro item em seu caminho (Cox, 2012).
Diversas são as possibilidades com a análise da cestas de compras para lojas físicas,
que estão fora do escopo deste trabalho. Porém, com a empresa dominando essa
capacitação no televendas estender o conhecimento para as lojas fica mais simples.
8. Conclusão
As associações obtidas pela análise da cesta de compras do televendas da
Casas Pedro evidenciam combinações de itens que costumam ser vendidos em
conjunto e podem ser usadas como base para a tomada de decisões referentes a, por
exemplo, promoções e sugestões. Algumas associações obtidas já eram conhecidas
pelos funcionários da empresa, como, por exemplo, a venda em conjunto de molhos
utilizados na culinária árabe. Outras relações foram recebidas pelo setor comercial com
considerável surpresa, entretanto, ao analisá-las, conseguiu-se identificar causas
interessantes para tais relações. Um exemplo deste caso é a associação entre os
51
produtos quinua em flocos e gojiberry que, apesar de pertencerem a categorias de
alimentos distintas, costumam ser procurados por clientes que buscam uma alimentação
saudável.
A visualização dos resultados em forma de grafo interativo que permite que o
usuário consulte as principais associações relacionadas a uma determinada cesta de
compras deixa a ferramenta mais amigável. Desta forma, tanto o setor comercial quanto
o operacional do televendas conseguem acessá-la de forma a obter informações
interessantes para o melhor desempenho em trabalho.
Assim, pode-se considerar que os objetivos do projeto de identificar
combinações de produtos que costumam estar presentes em uma mesma cesta de
compras e que podem alavancar as vendas de outros itens foi alcançado com o
resultado do modelo Apriori. O desejo de se obter uma ferramenta que permite ao
usuário verificar quais produtos podem ser indicados a determinado cliente com base
nos demais itens consumidos pelo mesmo foi alcançado a partir da ferramenta de
visualização gráfica desenvolvida.
Por fim, o potencial de vendas gerado pelas associações mostradas na
ferramenta foi reconhecido pelo gerente comercial, Pedro Coutinho, e pela equipe do
televendas. Desta forma, cabe ao time da Casas Pedro o bom uso das informações que
podem ser extraídas do modelo para aumentar a pró-atividade das vendas do
televendas, bem como seu resultado, com o aumento do ticket, médio, do número de
peças por atendimento e a fidelização do cliente, que podem ser incentivados pela
realização de sugestões e promoções de qualidade.
O produto deste projeto fornece a Casas Pedro mais um insumo que utiliza
algumas das tecnologias e metodologias mais modernas da atualidade para orientar as
decisões da empresa e suportá-la na conquista de seus objetivos estratégicos de curto
e longo prazo. Vale ressaltar que mesmo com mais este passo, ainda existem diversas
técnicas e ferramentas que podem ser aplicadas na Casas Pedro ao longo de seu
desenvolvimento e espera-se que, com mais este recurso em mãos, a empresa consiga
seguir em sua busca de seu crescimento e desenvolvimento de forma ainda mais
consistente.
57
9. Referências Bibliográficas
Algorithms (Interface 2011). The Interface Foundation of North America.
Bayardo, Jr RJ, Agrawal R (1999). “Mining the most interesting rules.” In KDD ’99:
Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery
and data mining, pp. 145–154. ACM
Blasttber, R., Kim, B., Neslin, S., (2008.) “Database Marketing: Analysing and Managing
Customers” Springer
Berry MJA, Linoff GS (1997). Data Mining Techniques for Marketing, Sales and
Customer Support. Wiley Computer Publishing.
CHAPMAN, P; CLINTON, J; KERBER, R; KHABAZA, T; REINARTZ, T; SHEARER, C;
WIRTH, R. CRISP-DM 1.0. CRISP-DM consortium, 2000.
GOLDMAN, A., et al. (2012). Apache Hadoop: Conceitos Teóricos e Práticos, Evolução
e Novas Possibilidades. XXXI JORNADAS DE ATUALIZAÇÕES EM INFORMÁTICA.
Hahsler M, Chelluboina S (2011). “Visualizing Association Rules in Hierarchical Groups.”
In 42nd Symposium on the Interface: Statistical, Machine Learning, and Visualization
Hipp J, Guntzer U, Nakhaeizadeh G (2000). “Algorithms for Association Rule Mining – A
¨General Survey and Comparison.” SIGKDD Explorations, 2(2), 1–58.
LETOUZÉ, E. (2012). Big Data for Development:Challenges&Opportunities. UN Global
Pulse.
Nishi, D. (2005). Market-basket mystery. Chain Store Age, 12A–14A.
MANKIW, N. Gregory. (2005). Introdução à Economia. São Paulo: Pioneira Thomson
Learning.
Ong KH, leong Ong K, Ng WK, Lim EP (2002). “CrystalClear: Active Visualization of
Association Rules.” In In ICDM’02 International Workshop on Active Mining AM2002.
Prangsmal ME, van Boxtel CAM, Kanselaar G, Kirschner PA (2009). “Concrete and
abstract visualizations in history learning tasks.” British Journal of Educational
Psychology, 79, 371–387.
Seno M, Karypis G (2005). “Finding Frequent Itemsets Using Length-Decreasing
Support Constraint.” Data Mining and Knowledge Discovery, 10, 197–228.
58
Unwin A, Hofmann H, Bernt K (2001). “The TwoKey Plot for Multiple Association Rules
Control.” In PKDD ’01: Proceedings of the 5th European Conference on Principles of
Data Mining and Knowledge Discovery, pp. 472–483. Springer-Verlag.
Cox, E. (2011). Retail Analytics: The Secret Weapon (Wiley and SAS Business
Series). USA: John Wiley & Sons.