ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO … · ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO...

59
ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO Utilizando modelos de analytics para a criação de uma ferramenta de suporte ao televendas Gabriela Espozel Pinheiro da Silva Gustavo Morais Adler Projeto de Graduação apresentado ao Curso de Engenharia de Produção da Escola Politécnica, Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Engenheiro. Orientador: Lino Guimarães Marujo Rio de Janeiro Setembro de 2017

Transcript of ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO … · ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO...

ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO

Utilizando modelos de analytics para a criação de uma ferramenta

de suporte ao televendas

Gabriela Espozel Pinheiro da Silva

Gustavo Morais Adler

Projeto de Graduação apresentado ao Curso

de Engenharia de Produção da Escola

Politécnica, Universidade Federal do Rio de

Janeiro, como parte dos requisitos necessários

à obtenção do título de Engenheiro.

Orientador: Lino Guimarães Marujo

Rio de Janeiro

Setembro de 2017

Espozel, Gabriela Pinheiro da Silva

Adler, Gustavo Morais

ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO

Utilizando modelos de analytics para a criação de uma ferramenta de suporte

ao televendas – Rio de Janeiro: UFRJ/ Escola Politécnica, 2017.

x , 58 p.: il.; 29,7 cm.

Orientador: Lino Marujo

Projeto de Graduação – UFRJ/ POLI/ Curso de Engenharia de Produção,

2017.

Referências Bibliográficas: p. 57-58

1. Análise da cesta de compras 2. Varejo alimentício 3. Apriori, 4. CRISP-DM

I. Marujo, Lino Guimarães II. Universidade Federal do Rio de Janeiro, UFRJ, Curso

de Engenharia de Produção. III. ANÁLISE DA CESTA DE COMPRAS NA CASAS

PEDRO Utilizando modelos de analytics para a criação de uma ferramenta de

suporte ao televendas.

ii

Resumo do Projeto de Graduação apresentado à Escola Politécnica UFRJ

como parte dos requisitos necessários para a obtenção do grau de Engenheiro de

Produção.

ANÁLISE DA CESTA DE COMPRAS NA CASAS PEDRO

Utilizando modelos de analytics para a criação de uma ferramenta de suporte ao

televendas

Gabriela Espozel Pinheiro da Silva

Gustavo Morais Adler

Setembro/2017

Orientador: Lino Guimarães Marujo

Curso: Engenharia de Produção

A análise de dados tem se mostrado cada vez mais vantajosa para as empresas

de varejo, fornecendo informações que servem de insumo para a tomada de decisão. A

Casas Pedro é uma empresa de varejo alimentício que possui como alguns de seus

objetivos o desenvolvimento de seu televendas e a adoção de tecnologias de suporte

mais sofisticadas. Para atender as demandas da Casas Pedro, foi desenvolvido um

modelo de análise de cesta de compras que busca examinar os produtos que os clientes

costumam comprar em conjunto e utilizar essa informação para criar promoções,

sugestões ou vendas casadas. Esse projeto foi estruturado de acordo com o modelo

Cross Industry Standard Process for Data Mining (CRISP-DM) e utiliza a metodologia

Apriori para a análise da cesta de compras.

Palavras-chave: Análise da cesta de compras, Apriori, CRISP-DM

iii

Abstracts of Undergraduate Project presented to POLI/UFRJ as a partial

fulfillment of the requirement for the degree of Industrial Engineering

MARKET BASKET ANALYSIS IN CASAS PEDRO

Using analytics models to create a telesales support tool

Gabriela Espozel Pinheiro da Silva

Gustavo Morais Adler

September/2017

Advisor: Prof. Lino Guimarães Marujo

Course: Industrial Engineering

Data analysis has been increasingly advantageous for retail companies by

providing information that serves as input for decision making. Casas Pedro is a retail

food company that has as one of its objectives the development of its telesales and the

adoption of more sophisticated support technologies. To meet Casas Pedro's demands,

a market basket analysis model was developed to examine the products that customers

usually buy together and use this information to create promotions, suggestions, or tie-

in sales. This project was structured according to the Cross Industry Standard Process

for Data Mining (CRISP-DM) model and uses the Apriori methodology for the analysis of

the market basket.

Keywords: Market Basket Analysis, Apriori, CRISP-DM

iv

LISTA DE FIGURAS

Figura 1: Exemplos de regras e os seus indicadores ...................................................... 15

Figura 2 - Sequenciamento de etapas do modelo CRISP-DM ........................................ 18

Figura 3: Resumo da problemática no televendas ......................................................... 21

Figura 4- Boxplot da quantidade de produtos por nota fiscal antes e depois da remoção

de outliers ....................................................................................................................... 24

Figura 5 - Histograma da quantidade de produtos por nota fiscal ................................ 25

Figura 6 - Número de itens vendidos por mês ............................................................... 26

Figura 7- Itens mais frequentes durante o período selecionado para análise ............... 29

Figura 8 - Metodologia CRISP-DM para seleção de modelos ......................................... 30

Figura 9- Etapas do modelo Eclat ................................................................................... 31

Figura 10 - Frequência para dos 1024 itens da base de dados ...................................... 32

Figura 11 - Frequência dos 100 itens mais presentes na base de dados ....................... 32

Figura 12 - Etapas do modelo Apriori ............................................................................. 33

Figura 13- Número de clientes distintos vs Contagem de regras geradas ..................... 38

Figura 14 - Suporte vs Confiança .................................................................................... 39

Figura 15 - Suporte vs Lift ............................................................................................... 39

Figura 16- Suporte vs Confiança .................................................................................... 40

Figura 17- Matriz com 50 regras de maior lift ................................................................ 41

Figura 18 - Suporte vs Confiança de regras de ordem 2 ................................................ 42

Figura 19 - Tela de seleção de itens gerada, em que o usuário pode um ou mais itens

para visualizar ................................................................................................................. 45

Figura 20 - Grafo gerado pela ferramenta ..................................................................... 46

Figura 21 - Destaque para relações diretas com o FARELO DE TRIGO KG ..................... 46

Figura 22 - Simples consulta da confiança de uma regra ............................................... 47

Figura 23 - Destacando o item ACUCAR MASCAVO KG ................................................. 48

Figura 24 - Funcionalidades do grafo gerado ................................................................. 48

v

LISTA DE TABELAS

Tabela 1 - Resumo da quantidade de produtos por nota fiscal ........................ 23

Tabela 2 - Resumo da quantidade de produtos por nota fiscal após remoção de

outliers............................................................................................................. 24

Tabela 3 - Número de interseções entre os 100 itens mais vendidos em cada

mês do ano de 2016 ........................................................................................ 27

Tabela 4 - Indicadores gerados com limitação de suporte ............................... 34

Tabela 5 - Indicadores gerados com limitação de suporte e lift ....................... 35

Tabela 6 - Contagem de regras geradas por número de clientes distintos ...... 37

Tabela 7 - Legenda para numeração dos itens na visualização por matriz ...... 41

Tabela 8 - Associações de ordem 2 resultantes da análise ............................. 43

vi

LISTA DE ABREVIATURAS E SIGLAS

CRISP-DM - Cross Industry Standard Process for Data Mining

EBITDA - Earnings Before Interest, Tax, Depreciation and Amortization

ERP - Enterprise resource planning

LHS – Left Hand Side

RHS – Right Hand Side

SSS – Same Store Sales

vii

Sumário

1. Introdução ............................................................................................................... 10

1.1. Objetivos ......................................................................................................... 11

1.1.1. Objetivos Gerais ........................................................................................ 11

1.1.2. Objetivos Específicos ................................................................................. 11

1.2. Organização e Estrutura do Trabalho .............................................................. 12

2. Referencial Teórico.................................................................................................. 13

2.1. Análise da Cesta de Compras .......................................................................... 13

2.1.1. Modelagem Matemática ........................................................................... 13

2.2. Modelo CRISP-DM ........................................................................................... 16

3. Entendimento do Negócio ...................................................................................... 18

3.1. Apresentação da Casas Pedro ......................................................................... 18

3.2. Estratégia ......................................................................................................... 19

3.3. Problemática ................................................................................................... 20

4. Entendimento dos Dados ........................................................................................ 22

4.1. Peças por Atendimento ................................................................................... 23

4.2. Sazonalidade ................................................................................................... 25

5. Modelagem ............................................................................................................. 28

5.1. Preparação dos dados ..................................................................................... 28

5.2. Seleção do modelo .......................................................................................... 29

5.3. Seleção dos parâmetros .................................................................................. 33

6. Análise dos resultados ............................................................................................. 35

6.1. Validação do modelo ....................................................................................... 35

6.2. Análise gráfica das regras geradas .................................................................. 38

6.3. Exemplos de associações descobertas ............................................................ 41

7. Implementação ....................................................................................................... 44

7.1. A visualização das regras resultantes .............................................................. 44

viii

7.2. Ferramenta de visualização das associações .................................................. 44

7.3. Resultados esperados ..................................................................................... 49

7.4. Próximos passos .............................................................................................. 49

8. Conclusão ................................................................................................................ 50

9. Referências Bibliográficas ....................................................................................... 57

10

1. Introdução

O setor do varejo é um dos mais dinâmicos e competitivos do mercado brasileiro,

exigindo, assim, que as empresas estejam sempre preocupadas em como aumentar

suas vendas, conquistar e fidelizar clientes. Neste contexto, ser pioneiro na adoção de

estratégias de gestão diferenciadas e na utilização da tecnologia para alcançar uma

maior eficiência operacional e multiplicar as vendas faz-se uma grande vantagem

competitiva. Para tanto, as empresas fazem uso de ferramentas como bancos de dados

e sistemas operacionais.

Novas tecnologias têm surgido nos últimos anos para endereçar as limitações

técnicas das ferramentas convencionais em lidar com as demandas de processamento

cada vez mais sofisticadas, tempos de resposta cada vez menores e crescentes

volumes de dados (Latouzé 2012, Goldman et al, 2012). Algumas tecnologias já são

muito difundidas no varejo online como, por exemplo, a análise dos dados referentes ao

histórico de vendas para a sugestão de produtos aos clientes com base em seu perfil

de consumo. Entretanto, apesar de sua eficiência comprovada, este tipo de tecnologia

ainda é pouco utilizado no varejo físico, sobretudo em empresas de pequeno porte ou

com estrutura familiar.

Empresas familiares costumam fazer uso de ferramentas mais simples e

processos com menor nível de controle, o que pode aumentar sua fragilidade em

momentos de crise, por exemplo. Assim, para permanecer no mercado, é importante

possuir uma estratégia clara e ter consciência de seus diferenciais competitivos, de

modo a garantir que os mesmos serão conservados e viabilizarão a perpetuação do

negócio.

A Casas Pedro é uma empresa familiar de varejo alimentício que possui 20 lojas

localizadas no estado do Rio de Janeiro. Assim, como muitas empresas de seu porte, a

Casas Pedro possuía processos com um baixo nível de controle e poucas ferramentas

de auxílio à gestão. Nos últimos anos, entretanto, a empresa vem buscando se atualizar

para garantir sua prosperidade, sobretudo, no momento de crise no qual o Rio de

Janeiro encontra-se.

Em sua busca por se atualizar, a Casas Pedro adotou ferramentas mais

modernas de controle de estoque e redesenhou diversos de seus processos em busca

de uma maior eficiência. Durante este movimento, entretanto, garantiu que seus

11

diferenciais de variedade, paixão pelas vendas e qualidade no atendimento não fossem

perdidos.

As iniciativas têm se mostrado um sucesso e o desempenho das lojas apresenta

uma melhora consistente, entretanto, sabe-se que muito ainda pode ser feito para que

a Casas Pedro se torne uma empresa de excelência. Alguns de seus principais pontos

de desenvolvimento atuais encontram-se no serviço de televendas e no uso de

ferramentas de suporte a decisão mais modernas.

Durante a recente evolução da empresa, o televendas ficou aquém da evolução

apresentada pelas lojas pois, além de não apresentar crescimento nas vendas, o

diferencial de atendimento não é tão forte nas vendas por telefone. Além disso, apesar

de ter aumentado significativamente nos últimos anos, a utilização da tecnologia para

auxílio na gestão ainda é muito incipiente e, com base nos ganhos obtidos

recentemente, é do interesse da diretoria torná-la mais difundida.

Sendo assim, este trabalho busca auxiliar a Casas Pedro na conquista de dois

de seus objetivos atuais, o desenvolvimento do televendas e a utilização de tecnologias

avançadas para auxílio nas vendas.

1.1. Objetivos

1.1.1. Objetivos Gerais

O objetivo geral deste trabalho é o desenvolvimento de um modelo de apoio às

decisões do televendas da Casas Pedro, de forma a suportar a indicação de produtos

para seus clientes.

Para orientar este desenvolvimento será elaborado um estudo de caso baseado

nos dados da Casas Pedro e serão utilizadas metodologias de análise de cesta de

compras e de desenvolvimento de projetos de data mining.

1.1.2. Objetivos Específicos

Os objetivos específicos deste trabalho são:

Identificar combinações de produtos que costumam estar presentes em

uma mesma cesta de compra;

Identificar combinações de produtos que possam aumentar a venda de

determinados itens;

12

Desenvolver uma ferramenta que permita que o usuário verifique qual

produto indicar a um cliente dado que o mesmo deseja comprar

determinado item ou cesta de itens;

Aumentar as vendas do Televendas, via um aumento do ticket médio e

do número de peças por atendimento;

Incentivar a venda proativa do televendas da Casas Pedro.

1.2. Organização e Estrutura do Trabalho

Este trabalho está estruturado em: introdução, conclusão e seis capítulos de

desenvolvimento (2 a 7). Segue as normas da ABNT de formatação de trabalhos

acadêmicos e foi desenvolvido no período de março a setembro de 2017.

O segundo capítulo apresenta a metodologia e os fundamentos teóricos

utilizados para a elaboração do estudo apresentado. Nesse, é introduzida a metodologia

utilizada para a análise da cesta de compras e apresentado o modelo CRISP-DM, que

foi utilizado para guiar o desenvolvimento e estrutura do trabalho.

O terceiro capítulo contempla a apresentação da Casas Pedro como uma

empresa de varejo alimentício com metas agressivas de crescimento na cidade do Rio

de Janeiro. Em seguida, é exposta a problemática na qual a mesma está inserida e

oferecida uma possível solução para o problema em questão. Tomando como referência

o modelo CRISP-DM, este capítulo corresponde a sua primeira etapa: “Entendimento

do Negócio”.

O quarto capítulo aborda o entendimento dos dados, apresentando a base de

dados utilizada no televendas e os resultados de uma análise exploratória realizada com

os mesmos.

No capítulo cinco é desenvolvida a descrição do modelo aplicado para a solução

do problema descrito anteriormente. Para tanto, apresenta-se todo o conteúdo que

tange a etapa de modelagem matemática, desde a preparação dos dados até a seleção

do modelo e a definição dos parâmetros utilizados.

No sexto capítulo apresenta-se a validação do modelo frente as imposições

dadas, as análise gráficas das associações geradas e alguns exemplos ilustrativos de

opções de cestas frequentes a partir da análise dos resultados obtidos durante a

modelagem.

13

Por fim, no sétimo capítulo será abordado como os resultados obtidos foram

tangibilizados a partir da criação de uma ferramenta de suporte a tomada de decisão

bem como um exemplo de utilização desta ferramenta.

Finalmente as conclusões do projeto são desenvolvidas no oitavo capítulo.

2. Referencial Teórico

2.1. Análise da Cesta de Compras

Nos dias de hoje as organizações de varejo produzem diariamente um enorme

volume de dados transacionais sobre suas vendas. A análise da cesta de compras é um

dos métodos mais populares para se extrair informações úteis de um banco de dados

grande (Hahsler, Chelluboina, 2011). Essa metodologia busca examinar os produtos

que os clientes costumam comprar em conjunto, as chamadas regras de associação, e

utilizar essa informação para criar promoções, sugestões ou vendas casadas. Gerentes

de marketing querem esse tipo de informação para tomar diversas decisões sobre sua

estratégia de vendas (Blattberg, Kim, Nelsin, 2008). Em pesquisa do Aberdeen Group,

38% dos varejistas americanos disseram utilizar técnicas de análise da cesta de

compras e sentir que isso tinha um efeito positivo sob seu negócio (Nishi, 2005).

Algumas regras de associação são comuns e conhecidas, como por exemplo a

correlação entre vendas de café e açúcar, conceito que é conhecido no campo da

microeconomia como bens complementares (Mankiw, 2014). Porém, considerando os

milhares ou dezenas de milhares de produtos que um supermercado moderno possui,

muitas relações podem não ser reconhecidas com essa facilidade. O caso mais famoso

da indústria é a relação entre fraldas e cervejas que foi descoberta por métodos de

análise da cesta de compras. Aparentemente os pais que iam comprar fraldas para seus

filhos também compravam cervejas. Assim, ao posicionar os itens próximos nas lojas o

varejista conseguia aumentar as vendas casadas desses produtos. Os métodos

desenvolvidos não necessitam de interação humana e assim conseguem descobrir

regras de associação que não são óbvias inicialmente. (Blattberg, Kim, Neslin, 2008)

2.1.1. Modelagem Matemática

A prática de examinar grandes bases de dados com o objetivo identificar regras

de associação, ou seja, a mineração destes bancos de dados para tal objetivo, foi

introduzida por Agrawal, Imielinski, e Swami (1993) e pode ser definida como:

Seja I = {i1, i2, . . . , in} um conjunto de n atributos binários chamados de itens.

Seja D = {t1, t2, . . . , tm} um conjuntos de transações chamado de base de dados. Cada

14

transação em D contém um identificador único e um subconjunto de itens em I. Uma

regra é definida como uma implicação do formato X ⇒ Y onde X, Y ⊆ I e X ∩ Y = ∅. Os

conjuntos de itens X e Y são chamados de antecedente (lado esquerdo, Left Hand Side

ou LHS) e consequente (lado direito, Right Hand Side ou RHS) da regra. Muitas vezes

uma regra se restringe a apenas um item do RHS.

Para selecionar uma regra interessante dentre todas as regras possíveis foram

criadas maneiras de medir a significância de cada relação. O suporte de uma regra

SUP(XY) é definido como:

𝑆𝑈𝑃(𝑋𝑌) = 𝑃(𝑋 ∪ 𝑌)

Equação 1 - Definição do suporte de uma regra

Essa medida é a proporção das transações na base de dados que contém X ∪

Y. Ou seja, se em um universo de 5 transações o conjunto X ∪ Y aparece em 2, podemos

dizer que SUP(XY) = ⅖ = 40%.

A confiança de uma regra é definida como:

𝐶𝑂𝑁𝐹(𝑋 => 𝑌) =𝑆𝑈𝑃(𝑋𝑌)

SUP(X)

Equação 2 - Definição da confiança de uma regra

A confiança pode ser interpretada como um estimador P(Y|X), ou seja, a

probabilidade de achar o RHS dado que a transação também contém o LHS. (Hipp,

Guntzer, and Nakhaeizadeh 2000). Se o conjunto X ∪ Y aparece em 20% da base de

dados e o item X aparece em 40% da base de dados então CONF(X ⇒ Y ) = 20% / 40%

= 0.5 e pode-se estimar que a chance de encontrar X dado que foi comprado Y é de

50%.

Uma regra de associação então se define como uma regra que supera o valor

mínimo escolhido para seu suporte e confiança (Blatterb, Kim, Nslin 2008), satisfazendo

então as seguintes condições, onde σ e δ são o mínimo suporte e confiança

respectivamente:

𝑆𝑈𝑃(𝑋 ∪ 𝑌) ≥ 𝜎

𝐶𝑂𝑁𝐹 (𝑋 => 𝑌) ≥ 𝛿

Equação 3 - Condições para que a relação X=>Y seja definida uma regra de associação

Mesmo com esses dois limitantes, outras medidas foram criadas para filtrar ou

ranquear o conjunto de regras de associação descoberto, visando destacar as melhoras

15

regras dentre as identificadas, que sinalizavam afinidades mais fortes. A elevação ou

LIFT(X=>Y) (Brin, Motwani, Ullman, and Tsur 1997) é definida como:

𝐿𝐼𝐹𝑇 (𝑋 => 𝑌) =𝑆𝑈𝑃(𝑋 ∪ 𝑌)

𝑆𝑈𝑃(𝑋) × 𝑆𝑈𝑃(𝑌) =

𝐶𝑂𝑁𝐹 (𝑋 => 𝑌)

𝑆𝑈𝑃 (𝑌)

Equação 4 - Definição do LIFT de uma regra X=>Y

Essa medida representa o desvio do suporte da regra (X ⇒ Y) frente ao suporte

esperado sob independência dos itens X e Y. Valores maiores de lift representam regras

mais interessantes.

Por exemplo, se o item Y aparece em 40% da base (SUP(Y)=40%) e o item X

em 25% da base (SUP(X) = 20%) seria esperado que o conjunto X ∪ Y aparecesse em

10% da base (40% multiplicado por 25%). Digamos que o conjunto X ∪ Y aparece em

20% da base (SUP(X ∪ Y) = 20%). Sendo assim, podemos dizer que LIFT(X ⇒ Y) = 2,

significando que a associação é duas vezes mais forte do que a chance aleatória

esperada de encontrar Y em conjunto com X em uma transação.

Um valor de lift maior do que 1 significa que Y tem uma probabilidade de ser

encontrado junto a X maior do que a probabilidade aleatória de Y aparecer.

Consequentemente, um valor de lift menor do que 1 significa que Y tem probabilidade

de aparecer aleatoriamente na base maior do que a probabilidade de aparecer junto a

X. Assim, regras interessantes, ou seja, que mostram uma relação de caráter

complementar entre bens da base de dados, são aquelas com lift maior do que 1. Um

resumo das regras e seus indicadores se encontra na figura 1.

Figura 1: Exemplos de regras e os seus indicadores

As regras de associação são geradas em um processo de duas fases.

Primeiramente, é gerado o conjunto de todos os itens que contêm suporte maior do que

o valor mínimo para o suporte escolhido. Conjuntos de itens frequentes são aqueles que

satisfazem o parâmetro mínimo de suporte. Em seguida, cada item é utilizado para gerar

16

todas as possíveis combinações e as regras que não satisfazem o parâmetro mínimo

de confiança são descartadas. Assim, a partir de uma base de n itens, serão gerados

no máximo 2n - n - 1 conjuntos de itens frequentes com dois ou mais itens.

Desse conjunto, cada item pode ter no mínimo duas regras, resultando em um

crescimento linear do número de regras pelo número de itens n. É desejável aumentar

o valor mínimo de suporte para limitar a dimensão da base de regra gerada, afim de

assegurar que seu tratamento e manuseio sejam eficientes computacionalmente.

Porém, isso pode também acabar por remover regras que são interessantes, tornando

a análise menos rica. Muitas vezes, em cenários de aplicação real, é necessário lidar

com grandes bases de regras (Hahsler, Chelluboina, 2011).

2.2. Modelo CRISP-DM

O Cross Industry Standard Process for Data Mining (CRISP-DM), desenvolvido

em 1996 pelas empresas DaimlerChrysler, SPSS e NCR Corporation, é um modelo de

processo de data mining bastante difundido no mercado que possui como objetivo a

resolução de problemas a partir da análise, exploração e modelagem de dados. O

desenvolvimento deste modelo foi baseado na experiência de profissionais que

conduziam projetos de data mining no mercado de trabalho.

De acordo com a metodologia, o ciclo de vida de um projeto de data mining é

dividido em seis fases que não possuem um sequenciamento rígido. Assim, é o

resultado, e não simplesmente a conclusão de uma determinada fase, que determina

qual fase deverá ser executada em sequência. Na figura 2 encontram-se os possíveis

sequenciamentos que podem ser adotados. O círculo externo representa a natureza

cíclica do data mining, que não chega a um fim quando uma solução é implementada.

As fases de um projeto de data mining, que nortearam o desenvolvimento deste projeto,

são as seguintes:

1. Entendimento do Negócio:

A fase inicial consiste no entendimento dos objetivos e requisitos do

projeto a partir da perspectiva do negócio. Ao final desta fase, os conhecimentos

adquiridos devem ser convertidos na definição de um problema de data mining

e em um plano preliminar traçado para atingir os objetivos mapeados;

2. Entendimento dos Dados:

O entendimento dos dados é principiado com a coleta inicial de dados e

contempla atividades que possibilitam a familiaridade com os dados,

17

identificando problemas de qualidade, obtendo percepções iniciais e detectando

amostras interessantes para elaboração de hipóteses;

3. Preparação dos dados:

Esta etapa engloba todas as atividades necessárias para a construção

da base de dados final a partir dos dados coletados. As atividades de preparação

dos dados tendem a ser executadas diversas vezes e não possuem um

sequenciamento pré-determinado. Algumas atividades desta etapa são a

seleção de atributos e a transformação e limpeza dos dados que serão usados

na modelagem;

4. Modelagem:

Nesta etapa, diversas técnicas de modelagem são selecionadas e

aplicadas, cujos parâmetros são calibrados para adquirirem os valores ideais.

Em geral, diversas técnicas podem ser utilizadas para solucionar um mesmo

problema de data mining. Algumas técnicas requerem que os dados possuam

características específicas, com isso, é comum que seja necessário retornar a

fase de preparação dos dados;

5. Análise:

Durante a fase de análise, um ou mais modelos que aparentam possuir

alta qualidade, de acordo com a perspectiva de análise de dados, são

selecionados. Entretanto, antes da implementação, é importante realizar uma

avaliação mais profunda e revisar os passos seguidos para garantir que o

modelo atinge as expectativas do negócio. Um objetivo desta análise é

determinar se alguma característica importante do negócio não foi considerada.

Ao final dessa fase, espera-se que a decisão de utilizar os resultados da

modelagem seja tomada;

6. Implementação:

A criação do modelo, em geral, não representa o final do projeto. Mesmo

que a intenção seja aumentar o conhecimento dos dados, os conhecimentos

adquiridos serão organizados e apresentados de uma forma que o cliente possa

utilizá-los. Frequentemente, isso envolve a criação de modelos “vivos” que

podem ser usados no processo de tomada de decisão. Em diversos casos, o

responsável pela implementação é o cliente e não o desenvolvedor do modelo.

Entretanto, mesmo caso o desenvolvedor seja o responsável por essa etapa, é

importante que o cliente entenda quais medidas devem ser tomadas para

garantir que os resultados serão corretamente utilizados.

18

3. Entendimento do Negócio

3.1. Apresentação da Casas Pedro

A Casas Pedro é uma empresa de mais de 80 anos presente na cidade do Rio

de Janeiro. Foi fundada em 1932 por um imigrante libanês, e a administração da

empresa foi passando de geração a geração - atualmente encontra-se na terceira. Suas

lojas vendem produtos a granel como temperos, grãos, castanhas, frutas secas, farinhas

e sementes, conservas e azeitonas. Encontra-se também nas prateleiras pescados e

bacalhau, doces e chocolates, produtos naturais e bebidas alcoólicas e não alcoólicas

dentre outros. A empresa se caracteriza por uma grande operação no período do natal

- quando cestas são vendidas tendo o bacalhau como produto principal.

A rede de armazéns árabes hoje totaliza 20 lojas pela cidade e, apesar da atual

crise econômica no Rio de Janeiro, vem mostrando um crescimento significativo, com o

aumento do faturamento das lojas acima da inflação em 2016 se comparado com o ano

anterior. Além disso, o grupo está visando expansão de lojas, com metas agressivas de

abertura de 100 lojas próprias até 2022.

Figura 2 - Sequenciamento de etapas do modelo CRISP-DM

Fonte: Traduzido de Chaptman (2000), página 10

19

Além das lojas, a Casas Pedro possui um escritório administrativo no centro da

cidade e um Centro de Distribuição em São Cristóvão, onde encontra-se localizada a

estrutura do Televendas da empresa. O Televendas, assim como as demais lojas,

possui seu próprio estoque e é abastecido pelo centro de distribuição, sua principal

diferença é o atendimento via telefone e voltado para empresas, como restaurantes, ao

invés de pessoas físicas.

Devido ao público concentrado em pessoas jurídicas, o ticket médio e o número

de peças por atendimento do televendas é o mais elevado da companhia, o que resulta

também no maior faturamento entre as lojas. Atualmente, o televendas conta com um

gerente 8 vendedores cuja principal função é receber pedidos via telefone e enviá-los

para a equipe responsável pelo estoque do televendas que realiza a separação e, em

seguida, encaminha os produtos para que a área de logística realize as entregas.

Assim como as demais áreas da empresas, o televendas utiliza o Protheus,

desenvolvido pela Totvs, como sistema operacional. O sistema foi implantado em 2015

e suporta toda a operação da empresa, contendo, por exemplo, o registro de todas as

vendas realizadas e os cadastros de clientes e produtos

Apesar de ser conhecida por seus produtos à granel, o diferencial da Casas

Pedro não se encontra exclusivamente nos produtos, mas sim na paixão pelas vendas

e na capacidade de proporcionar uma experiência diferenciada de atendimento. O

ímpeto em conquistar cada venda e o foco da gerência e operação para que as lojas

estejam sempre prontas para atender os clientes da melhor forma possível é o que

possibilita que as lojas perdurem por tantos anos.

O atendimento diferenciado se dá, principalmente, por duas vertentes. A primeira

é a visão do atendente mordomo, com o atendimento personalizado e com a relação de

amizade. O segundo é com o conceito de “Disneylândia dos alimentos”, com um mix de

produtos diferenciado, com a imagem de empório único para especialidades.

3.2. Estratégia

Em 2013 a Casas Pedro começou uma virada em seus pensamento estratégico.

A empresa nascida na década de 30 tinha que decidir se continuava como um pequeno

varejo alimentício na cidade do Rio de Janeiro, com uma dúzia de lojas ou fazia uma

virada. Ao mesmo tempo, a terceira geração, dos netos do fundador, estava se

consolidando nas posições de liderança da empresa e vinha com anseios de ver o

negócio construído por seu avô se tornar uma potência do varejo alimentício. Assim,

neste ano, se consolidou a criação da empresa Nova Geração, consolidando Felipe

20

Mussalem como o CEO da empresa. Essa virada aconteceu ao mesmo tempo da

escolha da Visagio Consultoria como parceiro estratégico para apoiar a

profissionalização dos negócios a via do crescimento desejado. Essa parceria se dá

hoje tanto com consultores da Visagio atuando em cargos executivos da empresa

quanto com sócios atuando no conselho de administração.

As metas estratégicas da empresa estão em três grandes áreas: lucratividade,

caixa e longevidade. O desempenho em cada uma dessas esferas é medido através de

indicadores. A lucratividade é medida pelo EBITDA, focando bastante na redução de

custos e despesas nas operações, enquanto o caixa possui como principal indicador a

dívida líquida sobre o EBITDA. Já a longevidade pode ser medida pelo Same Store

Sales (SSS), que mede o quanto uma loja vendeu a mais em valor naquele ano

comparada ao mesmo período do ano anterior.

Para alcançar suas metas, alguns projetos estratégicos foram implantados na

Casas Pedro nos último anos, como a implantação do reabastecimento automático das

lojas, que começou a ser implantado em 2016 e está sofrendo ajustes neste ano de

2017. Com isso, se deseja que o pedido de mercadorias para a loja pelo CD seja criado

automaticamente, com base na previsão de vendas da loja. Assim, é possível tirar uma

carga grande das lojas de criar os pedidos e colocá-los no sistema ERP, possibilitando

que os lojistas foquem em melhorar o atendimento e a exposição dos produtos. Além

disso, se visa melhorar a qualidade dos pedidos, que são calculados com base em

parâmetros quantitativos vindos do histórico de cada loja, assim buscando otimizar o

sortimento e o nível de estoque das filiais. Porém, esse processo não pode ser

totalmente automatizado para poder incorporar informações qualitativas que o gerente

da loja pode pegar no dia a dia, logo não minando o sentimento de dono dos

funcionários.

3.3. Problemática

A estratégia de expansão da Casas Pedro tem tido como principal foco a

abertura de novas lojas e o aprimoramento das lojas já existentes, sobretudo através da

revisão de processos, para garantir que a qualidade do atendimento e as vendas

continuam a crescer. Assim, ao longo dos últimos anos, iniciativas como o

reabastecimento automático das lojas foram tomadas para garantir a prosperidade da

rede.

Os resultados dessas iniciativas podem ser considerados de sucesso, visto que

indicador de Same Store Sales vem crescendo ao passo em que novas lojas são

21

inauguradas pela cidade. Entretanto, apesar disso ser uma verdade para as lojas

tradicionais, o cenário do Televendas Casas Pedro não tem seguido o mesmo caminho.

Em 2016, o resultado do Televendas foi inferior ao esperado, sobretudo no mês do natal,

principalmente devido a redução do número de cestas de natal vendidas em relação ao

ano anterior. Tradicionalmente, um grande volume de cestas de natal é vendido por

esse canal, representando uma grande parte do faturamento, em 2016, o fraco

desempenho, provocou resultados financeiros abaixo do esperado e um estoque de

produtos natalinos ao fim do ano maior que o planejado.

Além dos resultados alarmantes do ano de 2016, o Televendas teve impactos

mais tímidos em relação a mudança de estratégia adotada em 2013. A migração para a

Nova Geração e o sonho de chegar a 100 lojas fez com que a cultura da Casas Pedro

se fortalecesse e, aqueles que não se motivaram com o sonho da empresa acabaram

se afastando da mesma. Este movimento que ocorreu, sobretudo nas lojas e no

escritório, não teve grandes impactos no centro de distribuição e no televendas, onde a

equipe manteve grande parte dos funcionários da Velha Geração que não foram muito

conquistados pelas novas metas da empresa.

Assim como os funcionários, os processos do Televendas também foram menos

impactados pela transição quando comparado aos das demais unidades. O

reabastecimento automático, por exemplo, foi aplicado a todas as lojas, com exceção

do televendas dado ao seu perfil de vendas particular. Essa diferença de perfil também

tem impactos no atendimento, pois, ter um atendimento próximo com o perfil de

atendente mordomo é mais difícil de ser conquistado via telefone. Com isso, é

necessário que os funcionários do Televendas busquem vendas de forma pró-ativa para

fortalecer seu relacionamento com os clientes, o que não vem acontecendo da forma

esperada. Um resumo da problemática se encontra na figura 3.

Figura 3: Resumo da problemática no televendas

22

Assim, para incentivar o atendimento pró ativo necessário para que o

Televendas trabalhe da forma que se espera na Casas Pedro e conquiste os resultados

almejados, a equipe de Comercial da empresa deseja desenvolver um sistema de

sugestão de itens para auxiliar nas vendas. A ideia é que os atendentes possuam uma

ferramenta que consiga lhes informar quais produtos devem ser oferecidos a cada

cliente com base em seu perfil de compras para aumentar o número de peças por

atendimento e o ticket médio das vendas.

Atualmente, diversas empresas, em especial àquelas que realizam vendas on-

line, possuem esse tipo de ferramenta, que faz uso do big data para analisar sua base

de vendas e identificar produtos que costumam ser vendidos para um mesmo cliente.

Assim, quando um novo cliente solicitar um daqueles produtos, o outro será sugerido e,

se aceito, além de aumentar as vendas, irá contribuir para a satisfação do cliente que

reconhecerá que a empresa conhece suas preferências e o orienta para melhorar sua

experiência de compra.

Desta forma, a equipe da Casas Pedro acredita que uma ferramenta como esta

será essencial para que o Televendas possua um atendimento de melhor qualidade e

consiga realizar vendas mais eficientes e proativas. Esta solução também irá aproximar

a Casas Pedro da possibilidade de realizar vendas on-line de qualidade, desejo que a

equipe Comercial também possui.

4. Entendimento dos Dados

Nesta etapa, será aprofundado o conhecimento sobre os dados disponíveis

específicos do televendas da Casas Pedro. Assim, se deseja obter familiaridade com o

objeto cerne do problema identificado.

Para o entendimento dos dados de vendas do televendas da Casas Pedro, foram

acessadas três tabelas do banco de dados da empresas, sendo estas as tabelas que

armazenam os dados das vendas, cadastro de produtos e cadastro de clientes. A tabela

de vendas contempla detalhes das transações realizadas, como, por exemplo, data e

filial da transação, preço, quantidade e faturamento de cada produto vendido. A base de

produtos possui as informações de cadastro dos mesmos, incluindo informações como

descrição e custo. Já a base de clientes, consiste nas informações cadastrais dos

clientes da Casas Pedro e armazena informações como nome e endereço.

Como o ERP utilizado pela Casas Pedro foi implantado em 2015, a equipe

comercial aconselhou que, para garantir a confiabilidade das informações, apenas os

23

dados a partir do ano de 2016 fossem utilizados. Assim, o histórico disponível para

análise é correspondente ao período entre primeiro de janeiro de 2016 e primeiro de

agosto de 2017, contemplando, assim, um ano e sete meses de vendas. Com esse

histórico como referência, foram selecionados os dados relativos às vendas realizadas

pela filial do Televendas.

A filial Televendas possui um espaço físico próprio para estocagem, separação

e expedição de suas vendas anexo ao Centro de Distribuição que atende as lojas.

Quando identifica-se que algum item não está com o giro esperado, realiza-se a

devolução destes produtos do estoque do Televendas de volta para o Centro de

Distribuição. Essas movimentação de devolução são registradas na base de vendas e,

por não representarem de fato a venda de produtos, não devem ser considerada na

análise aqui realizada. Sendo assim, após a coleta dos dados, foram retirados da base

os registros referentes a devolução de produtos do estoque do Televendas para o

Centro de Distribuição.

Após a seleção dos dados a serem analisados, foram feitas duas análises

preliminares, uma ligada ao número de peças por atendimento e outra a sazonalidade.

4.1. Peças por Atendimento

Os filtros citados acima resultaram em uma base com 218.335 observações,

onde cada observação corresponde a venda de um produto. Essas observações são

referentes a venda de 1.545 itens diferentes e distribuídas em 34.536 notas fiscais, o

que resulta em uma média de 6,4 produtos por atendimento. Os detalhes da distribuição

da quantidade de pedidos por nota fiscal podem ser vistos na tabela 1.

Medida Valor

Mínimo 1,0

Primeiro Quartil 2,0

Mediana 5,0

Média 6,3

Terceiro Quartil 8,0

Máximo 79,0 Tabela 1 - Resumo da quantidade de produtos por nota fiscal

A partir da elaboração do boxplot do número de itens por pedido, pode-se

observar um grande número de outliers, que foram removidos para uma análise mais

detalhada. A base resultante da remoção de outliers contém o registro de 32.030 notas

fiscais com uma média de 5,7 peças por atendimento. Os detalhes da distribuição da

quantidade de pedidos por nota fiscal após a remoção de outliers podem ser vistos na

24

tabela 2. Os boxplots de peças por atendimento antes e depois da remoção de outliers

estão representados na figura 4.

Medida Valor

Mínimo 1,0

Primeiro Quartil 2,0

Mediana 5,0

Média 5,6

Terceiro Quartil 8,0

Máximo 17,0 Tabela 2 - Resumo da quantidade de produtos por nota fiscal após remoção de outliers

Para complementar a visualização dos dados mantidos, foi elaborado o

histograma do número de itens por nota fiscal (figura 5). No histograma, a mediana é

representada por uma linha vertical vermelha, enquanto a média por uma linha vertical

azul. O histograma revela que, apesar de ambas as medidas de posição nele

representadas (média e mediana) estarem em torno de 5, a moda, que representa o

valor mais frequente, é igual a 1, o que significa que a maioria dos clientes compram

apenas um item por pedido.

Figura 4- Boxplot da quantidade de produtos por nota fiscal antes e depois da remoção de outliers

25

Figura 5 - Histograma da quantidade de produtos por nota fiscal

Com a remoção de outliers, são retiradas da base 3,2% das notas fiscais

existentes. A regra utilizada para esta remoção foi a exclusão de registros de valores

superiores a soma do terceiro quartil com 1,5 vezes a amplitude interquartílica, ou seja,

todas as notas fiscais referentes a 18 ou mais itens distintos foram retiradas. Entretanto,

a partir da análise dos outliers, realizada em conjunto com os funcionários responsáveis

pelo Televendas da Casas Pedro, identificou-se que essa remoção retiraria da base

algumas das maiores e mais representativas vendas do último ano, com isso, optou-se

por seguir o trabalho com a base original, anterior à remoção de outliers.

4.2. Sazonalidade

Em conversa com os funcionários da Casas Pedro, foi informado que,

historicamente, sabe-se que existe uma forte sazonalidade no período de natal. Esta

sazonalidade é devida a dois principais fatores: a maior busca por produtos natalinos

que são especialidades da Casas Pedro, como nozes, bacalhau e frutas secas e a

venda de cestas de natal. Além da sazonalidade existente no final do ano também foi

citado um pico menos expressivo no período de páscoa, justificado pelo maior consumo

de bacalhau nesta época.

26

Para identificar e evidenciar o impacto da sazonalidade no período utilizado para

as análises, foi elaborado um gráfico (figura 6) que mostra a evolução do número de

itens vendidos por mês ao longo do período analisado.

É possível observar um máximo global no mês de dezembro de 2016, que pode

ser explicado pela sazonalidade e evidencia a hipótese de que as vendas do Televendas

são maiores em dezembro. Além do máximo global em dezembro, também pode-se

observar dois máximos locais nos meses de março de 2016 e março de 2017. Esses

dois pontos também podem ser frutos de uma sazonalidade causada pela Páscoa,

época do ano em que os produtos da Casas Pedro também costumam ser mais

procurados.

Além da análise da sazonalidade do volume de itens vendidos, também foi realizada

uma análise para verificar se o mix de produtos vendidos pelo Televendas varia ao longo

do ano. Para isso, foi elaborada uma matriz (Tabela 3) que verifica o grau de similaridade

entre os 100 itens mais vendidos em cada mês do ano de 2016.

Figura 6 - Número de itens vendidos por mês

27

Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Média

Jan 83 82 82 80 82 79 80 77 82 72 56 78

Fev 80 82 81 79 78 79 74 76 70 53 76

Mar 84 87 81 83 82 80 79 73 55 79

Abr 85 84 80 84 81 83 76 59 80

Mai 84 82 83 83 81 76 58 80

Jun 84 85 81 82 75 55 79

Jul 84 84 86 75 58 79

Ago 84 85 76 58 80

Set 84 76 59 78

Out 78 60 80

Nov 73 75

Dez 59

Tabela 3 - Número de interseções entre os 100 itens mais vendidos em cada mês do ano de 2016

Cada elemento do tabela 3 representa número de itens em comum nas listas

dos cem itens mais vendidos em cada dupla de meses do ano de 2016, ou seja, 83 dos

100 produtos mais vendidos em janeiro também podem ser encontrados na lista dos

100 produtos mais vendidos em fevereiro. Os meses que apresentaram vendas mais

semelhantes em 2016 foram março e maio, com 87 itens em comum, enquanto a menor

semelhança ocorreu entre fevereiro e dezembro, que apresentaram apenas 53 itens em

comum nas listas dos mais vendidos.

Pode-se observar que a similaridade entre os itens mais vendidos em cada mês

gira em torno de 80%, apresentando uma média de 77% e moda de 84%. Essa variação

entre os valores da moda e da média pode ser justificada pelos resultados obtidos para

28

os dois últimos meses do ano, em especial dezembro, que possuem um perfil de vendas

diferente. Os meses de novembro e dezembro apresentam uma similaridade média de

de 75% e 59%, respectivamente, o que pode ser explicado pela sazonalidade, uma vez

que, no mês de novembro inicia-se a venda de cestas de natal, que representa um

volume significativo neste mês e corresponde ao maior número de vendas em

dezembro.

Assim, de forma geral, pode-se concluir que o perfil de vendas não varia muito

ao longo do ano, com exceção do período de natal, no qual a sazonalidade gera um

grande impacto nas preferências dos clientes. Para garantir a consistência do resultado

da análise foi determinado que o mês de dezembro seria desconsiderado durante a

etapa de modelagem. Essa decisão será melhor justificada na etapa seguinte, relativa

a modelagem.

5. Modelagem

Após a etapa da análise exploratória foi iniciada a modelagem conforme as

técnicas de análise da cesta de compras apresentada na seção 2.1. Na etapa de

preparação dos dados serão descrito todos os passos do pré processamento dos dados

como, seleção das variáveis e janela de análise, limpeza dos dados e combinação das

bases de dados existentes para alimentar a modelagem. Em seguida será explicado

como foi feita a modelagem para o problema que tínhamos em mãos, desde a seleção

do modelo e dos parâmetros utilizados.

5.1. Preparação dos dados

O grupo teve amplo e completo acesso às bases de dados da Casas Pedro,

inclusive às bases de vendas que são necessárias para esse tipo de análise. Com base

nesses dados, foram realizadas as análises presentes na seção 4, que fizeram parte da

preparação dos dados.

Primeiramente, decidiu-se excluir o período do natal dado sua sazonalidade e o

consequente aumento das vendas que poderia influenciar nos resultados obtidos pelo

modelo. Esse ponto foi alinhado com o gerente comercial, Pedro Coutinho, que sugeriu

que a análise fosse realizada para o ano inteiro, com exceção do período natalino, dado

que durante essa época a equipe do televendas está focada na venda das cestas de

natal e a sugestão de itens não seria tão valiosa quanto no restante do ano. Sendo

assim, o período escolhido para análise dos dados foi, inicialmente, de janeiro a agosto

de 2017, visando retirar a influência que o final do ano teria nos resultados.

29

Entretanto, ao longo das análises, notou-se que grande parte das correlações

encontradas se davam entre itens presentes nas cestas de natal vendidas pela

empresa. Em nova reunião com Pedro Coutinho, entendeu-se que tais vendas eram

relativas às cestas sobressalentes de dezembro que acabavam por ser vendidas

também nos meses de janeiro e fevereiro, muitas vezes com descontos. Além disso, por

uma limitação sistêmica, as vendas das cestas não eram cadastradas como o SKU

“cesta de natal”, mas sim com todos os itens pertencentes àquele kit discriminados na

base. Com o objetivo de não poluir a modelagem com essas correlações causadas, não

por afinidade natural entre os produtos mas pelo fato deles estarem sendo vendidos em

um kit, foram expurgados da análise os dois primeiros meses do ano, resultando em um

período de análise de 01/03/2017 até 01/08/2017. Logo, foram analisadas 10.692

transações com 64.905 itens vendidos, com uma média de 5,98 itens por transação.

A figura 7 mostra a frequência dos itens mais representativos ao longo do

período analisado, contendo no eixo x o nome dos produtos em questão e no eixo y a

frequência em que os mesmos são encontrados na base de dados.

Figura 7- Itens mais frequentes durante o período selecionado para análise

5.2. Seleção do modelo

Para a seleção do modelo para a análise, foi utilizada a metodologia CRISP-DM,

passando pelas fases de definição do universo de técnicas disponíveis na ferramenta

de escolha, escolha das técnicas apropriadas para o problema, definição dos limites

impostos pelo problema de negócio e definição de limitações de tempo, características

30

e conhecimento até chegar na definição final das técnicas utilizadas. Um resumo dessa

metodologia está presente na figura 8.

No universo de técnicas de análise de cestas de compras se destacam dois

algoritmos principais: Eclat e Apriori. Ambos buscam obter as relações de afinidades (ou

regras) entre itens a partir de uma base grande de transações de clientes e assim

responder a pergunta “quem comprou X também comprou o que?”.

Ambos algoritmos são alimentados com uma matriz esparsa, contendo o id da

transação nas linhas e todos os itens nas colunas. Assim, quando uma transação

contém um determinado item o valor na matriz é preenchido com 1 e quando não contém

o item é preenchido com zero. A matriz é dita esparsa por ser composta, em sua grande

maioria, por zeros dado que as transações comumente contém poucos itens do universo

possível. A partir disso são calculados os indicadores de suporte, confiança e lift que

serão utilizados para descobrir as correlações mais interessantes presentes na base de

dados.

Figura 8 - Metodologia CRISP-DM para seleção de modelos

Fonte: Traduzido de Chaptman (2000), página 48

31

O modelo Eclat é o mais simples dos dois e olha apenas para o indicador de

suporte. Primeiramente, é definido um suporte mínimo pelo usuário. Em seguida é

calculado o suporte para todas as combinações de itens a partir da matriz esparsa

obtida. Essas combinações devem ter no mínimo 2 itens. Finalmente, são filtrados todos

os conjuntos de itens com o suporte maior ou igual ao suporte mínimo escolhido

inicialmente. Então, os resultados são ordenados do maior para o menor suporte para

melhor visualização. Essa técnica busca apenas compreender quais são os conjuntos

mais frequentes na base de dados afim de encontrar as afinidades. Um resumo de suas

etapas podem ser visualizadas através da figura 9.

Figura 9- Etapas do modelo Eclat

Essa técnica é altamente influenciada por itens com alta frequência na base de

dados. Os itens com maior suporte irão sempre aparecer nas melhores regras, não

necessariamente por uma afinidade ou complementaridade mas pela sua grande

representatividade. Por causa disso, não é sugerido utilizar essa técnica para conjuntos

de transações altamente concentrados (Blattberg, Kim, Neslin, 2008). Analisando o

suporte dos 1024 itens presentes no histórico e dos 100 itens mais frequentes para o

período selecionado, a partir das figuras 10 e 11, respectivamente, podemos ver a

altíssima concentração de alguns itens, fazendo com que essa modelagem não seja a

mais recomendada para o problema em mãos.

32

Figura 10 - Frequência para dos 1024 itens da base de dados

Figura 11 - Frequência dos 100 itens mais presentes na base de dados

O modelo Apriori é mais sofisticado, utilizando os indicadores de suporte

confiança e lift. Primeiramente, os valores mínimos para suporte e confiança são

definidos pelo usuário. Em seguida, o suporte para todas as combinações possíveis é

calculado e as combinações com o suporte maior do que o suporte mínimo definido são

filtradas. Normalmente se limita a quantidade máxima de itens presentes em uma

combinação como 10 e o mínimo como 2 para tornar os cálculos menos custosos

(Blattberg, Kim, Neslin, 2008). Tendo em mãos todas as combinações com o suporte

maior que o mínimo, são geradas todas as possíveis regras dessas combinações no

formato X ⇒ Y, sendo que X pode conter de 1 a 9 itens e Y contém apenas 1 item.

33

Posteriormente, a confiança para todas as regras geradas é calculada e filtram-se as de

confiança maior do que o mínimo definido. Finalmente, as regras restantes são

ordenadas de acordo com o lift para obtermos as regras mais relevantes. As etapas do

modelo Apriori encontram-se listadas na figura 12.

Figura 12 - Etapas do modelo Apriori

Esse foi o modelo escolhido para a análise pois possibilita visualizar associações

com itens de menor frequência na base de dados, não sendo tão influenciada por itens

com maior suporte, o que o torna mais apropriado para o problema em questão.

5.3. Seleção dos parâmetros

A seleção dos parâmetros da modelagem Apriori serve para limitar o número de

regras geradas pelo modelo, de modo que o resultado contenha apenas as regras mais

interessantes de acordo com as medidas de suporte, confiança e lift. A literatura

recomenda que o parâmetro de suporte mínimo seja definido em alinhamento com o

problema de negócio a ser resolvido, definindo uma frequência mínima aceitável para

uma regra (Blattberg, Kim, Neslin, 2008).

Em reunião com Pedro Coutinho, foi alinhado que desejava-se visualizar

somente regras compostas por itens que saíam pelo menos em média 1 vez por

semana. Como período de análise, de 01/03/2017 até 01/08/2017, contém 22 semanas,

um item deveria aparecer no mínimo em 22 transações da base para possuir o suporte

34

mínimo desejado. Em um universo de 10.692 transações isso significa um suporte de

22/10.692 = 0,002 ou 0,2%.

Inicialmente, o modelo foi gerado com limitações apenas para o suporte. Foram

resultantes 8.431 regras de associação consideradas interessantes. Essas regras

tiveram no mínimo 2 e no máximo 6 itens, possuindo em média 2,654 itens. Os

indicadores gerados estão resumidos na tabela 4.

Tabela 4- Indicadores gerados com limitação de suporte

Analisando o grande número de regras obtidas, concluiu-se que era necessário

determinar uma confiança mínima afim de se obter resultados mais concisos e expurgar

associações não tão relevantes. Nota-se que todo o primeiro quartil possui confiança

menor do que 8,96%, ou seja, a probabilidade de encontrar o RHS dado que se comprou

o LHS é pequena. Além disso nota-se que existem regras com o lift menor do que 1,

sendo, assim, menos prováveis que a chance aleatória de encontrar os itens em

conjunto.

Afim de limitar o número de regras obtidas e filtrar apenas associações

interessantes (com probabilidade de ocorrer maior do que a probabilidade aleatória)

foram feitos testes para encontrar um valor mínimo de confiança que nos desse apenas

regras com lift>1. Assim, chegou-se ao modelo com confiança mínima de 13%, cujo

resumo pode ser observado na tabela 5.

35

Tabela 5 - Indicadores gerados com limitação de suporte e lift

Pode-se notar que o número de regras obtidas caiu em 36,6% quando

comparado ao primeiro modelo, totalizando 5.345 regras. A maior parte das regras

retiradas foi de 2 itens, o que aumentou a média de itens por regra para 2,985. O lift

mínimo do modelo agora é de 1,01, ou seja, todas as regras são interessantes segundo

a premissa adotada.

6. Análise dos resultados

6.1. Validação do modelo

Algumas validações foram realizadas para garantir que o modelo estava

representando bem as relações na cesta de compras dos clientes da Casas Pedro. Com

isso, buscou-se garantir que os resultados gerados não continham erros conceituais,

viés ou problemas gerados por má qualidade dos dados.

Procurou-se avaliar se as relações encontradas eram comuns entre vários

clientes. Como no televendas a maior parte dos clientes é composta por redes de

restaurantes, hotéis ou outros comerciantes de alimentos, é de se esperar que exista

uma maior fidelização desse tipo de cliente. Esse foi um risco levantado pela equipe de

projeto e pela equipe do televendas, que tinha receio de que os resultados fossem

causados por um cliente fiel comprando uma combinação de itens exótica.

36

Para a análise da cesta de compras isso é um risco, dado que as regras

descobertas podem não significar uma associação comum que pode gerar uma

sugestão de compras, mas sim um pacote comumente comprado por um cliente que

não necessariamente se aplica a outros.

A metodologia padrão da análise da cesta de compras não prevê a identificação

do cliente para realizar a análise pois é normalmente usada em pontos de vendas de

lojas físicas ou em grandes varejos online (Blatterb, Kim, Nslin 2008). O modelo do

televendas possibilita a identificação de todos os clientes o que torna possível a

validação da quantidade de clientes distintos por regra gerada e o entendimento de se

o resultado pode ser usado para alavancar vendas e gerar sugestões.

Assim, foi possível cruzar a base de regras de associação gerada com a base

de transações com os clientes identificados. O produto final da análise consiste no

número de diferentes clientes que compraram cada conjunto de itens apontados como

associações interessantes. É de se esperar que as regras somente irão apontar uma

sugestão se o conjunto tenha sido comprado por mais de um cliente no histórico.

Com isso pode-se validar o modelo retirando o número de clientes distintos que

compraram cada conjunto considerado como uma regra interessante. Para essa

validação foram utilizados as 322 regras com lift maior ou igual a 5, parâmetro

considerado suficiente pela equipe do televendas. A partir disto, foi gerada a tabela 6 e

a figura 13.

37

Tabela 6- Contagem de regras geradas por número de clientes distintos

38

Figura 13- Número de clientes distintos vs Contagem de regras geradas

A validação mostra que nenhuma regra gerada teve menos de dois clientes

distintos relacionados. Assim, a condição imposta pela área do televendas foi satisfeita,

e as regras geradas são compostas sempre por mais de um cliente. A maior parte das

regras apresenta 10 clientes distintos e em média uma regra tem 14,3 clientes distintos.

Considerando o modelo de atendimento do televendas esse número foi considerado

satisfatório e o modelo foi validado.

Além disso, nota-se que um subproduto da análise é a relação de clientes que

faz conjuntos de compras similares. Como a base de clientes não é dividida em

segmentos (por exemplo restaurante japonês, restaurante italiano, doceiras e etc) esse

pode ser um primeiro passo para a esse tipo de análise. O conjunto de compras é um

fator importante para auxiliar na classificação do cliente e será mais explorado nos

próximos passos.

6.2. Análise gráfica das regras geradas

Para a melhor visualização das regras geradas pelo algoritmo Apriori foram

gerados gráficos que visam resumir aspectos importantes dos resultados. Foi utilizado

o pacote Arulesviz da ferramenta de análise estatística R que possui funções específicas

para visualizar e entender os resultados de uma análise da cestas de compras.

A primeira maneira de visualizar a relação entre as regras é num gráfico de

dispersão considerando as três principais medidas de afinidade: suporte, confiança e lift

(figura 14). Esse tipo de visualização pode ser visto em Bayardo, Jr. and Agrawal (1999)

e tem o suporte e a confiança nos eixos x e y, respectivamente, e uma escala de cor

representando o lift. Pode-se notar que as regras com maior lift são aquelas com o

menor suporte, confirmando a relação inversa que se espera dessas duas variáveis. Na

figura 15 temos uma conclusão similar, mas agora com o lift no eixo y, é possível ver

39

que algumas regras possuem lift muito alto, na casa das centenas. Além disso pode-se

notar que essas regras também apresentam confiança muito alta e o suporte baixo.

Figura 14 - Suporte vs Confiança

Figura 15 - Suporte vs Lift

Unwin, Hofmann, and Bernt (2001) introduziram o chamado Two-Key Plot, outra

forma de se visualizar as regras geradas com o suporte e a confiança nos eixos e a cor

representando a ordem da regra, ou seja, o total de itens que essa regra contém. Pela

40

figura 16, fica claro que o suporte e a ordem possuem uma forte relação negativa, o que

é um fato conhecido sobre as regras de associação (Seno and Karypis 2005). É de se

esperar que quanto mais itens estiverem presentes em uma regra, menor será a chance

deles ocorrerem em conjunto novamente, ou seja, menor será o suporte da regra.

Figura 16- Suporte vs Confiança

A visualização de matriz foi introduzida por Ong, leong Ong, Ng, e Lim (2002) e

mostra os itens consequentes (RHS) no eixo y e os antecedentes (LHS) no eixo x, além

de indicar o lift pela cor da célula (figura 17). Assim é possível encontrar itens com muitos

antecedentes ou consequentes. Para melhor visualização, foram filtradas as 50 regras

com maior lift e ordem 2. A legenda para a numeração dos itens está presente na tabela

7.

Pela visualização no formato de matriz, podemos ver que não existe nenhum

item que domina LHS ou RHS, ou seja, nenhum item tem muitos antecedentes e

nenhum antecedente possui muitos consequentes. Assim, conclui-se que as regras com

maior lift apresentam uma variedade grande de produtos representados, com 33

produtos dominando as 50 regras.

41

Tabela 7- Legenda para numeração dos itens na visualização por matriz

Figura 17- Matriz com 50 regras de maior lift

6.3. Exemplos de associações descobertas

De modo a obter exemplos de associações descobertas, pode-se ampliar

somente uma parte do gráfico afim entender detalhadamente cada indicador das regras

geradas. Para melhor visualização, foi criado o gráfico mostrado na figura 18. Nele estão

contidas somente as regras de ordem 2, ou seja, de um item no LHS e um item no RHS.

Além disso, foram destacadas as regras contidas no canto superior esquerdo do gráfico

42

de suporte versus confiança (área demarcada na figura 18). O resultado é um conjunto

de 85 regras geradas pelo modelo com os respectivos indicadores que pode ser

encontrado na tabela 8.

Figura 18 - Suporte vs Confiança de regras de ordem 2 com a área analisada em destaque

Pode-se notar que as regras encontradas parecem fazer sentido intuitivamente.

Muitos itens são da mesma categoria de produtos, como, por exemplo, na regra [4]

{MOLHO DE ALHO FENICIO 150ML} => {MOLHO DE PIM. ARABE FENICIO 150ML}.

Se espera que esses produtos apareçam juntos em uma cesta de compras de um cliente

que vende salgados árabes, por exemplo, pois ambos são molhos típicos para se comer

com esse tipo de alimento. Outros exemplos desse tipo são [17] {COBERTURA

MORANGO MARVI 1,3 KG 1641} => {COBERTURA CHOCOLATE MARVI 1,3KG

1221}, ambos os itens são coberturas de sorvetes e devem ser comprados por

sorveteiros e [43] {MOLHO DE OSTRA DRAGON 420ML} => {SAKURA TRADICIONAL

1LT} que são molhos para comidas orientais.

Outras relações chamaram a atenção do time comercial da Casas Pedro, como,

por exemplo, [27] {QUINUA EM FLOCOS KG} => {GOJI BERRY KG} e [34] {FARELO

DE TRIGO KG} => {LINHACA KG} que são produtos que tiveram aumento das vendas

com a atual onda de alimentação saudável. Destacar esse tipo de associação mostra

como o modelo se adapta aos costumes de compra dos clientes e como novas

tendências podem ser identificadas somente observando a base de vendas.

43

Tabela 8- Associações de ordem 2 resultantes da análise

44

7. Implementação

7.1. A visualização das regras resultantes

A visualização de dados é utilizada para comunicar ideias concretas e abstratas

nas áreas de ciência, engenharia e educação (Prangsmal, van Boxtel, Kanselaar, and

Kirschner 2009). O resultado básico da análise da cesta de compras é uma base de

dados contendo todas as regras de associação com os respectivos indicadores de

suporte, confiança e lift. A visualização desses resultados foi considerada parte integral

da implementação desde o primeiro momento. Foi demandada uma forma intuitiva e

flexível para se gerar resultados confiáveis, relevantes e de fácil entendimento para

todos da equipe do televendas.

Visualizar as regras geradas de maneira gráfica foi um desafio imposto pela

Casas Pedro. Essa visualização deveria, também, limitar o número de itens vistos ao

mesmo tempo, de maneira que ao se entrar com um conjunto de itens fosse obtido o

resultado de todos os produtos sugeridos a partir daquela combinação. Com isso,

decidiu-se utilizar somente as combinações de ordem 2 para facilitar a compreensão e

minimizar o número de regras redundantes.

7.2. Ferramenta de visualização das associações

Com o objetivo de se gerar a visualização desejada, foi criado um programa em

R no qual, com base em uma lista de produtos, gera-se um grafo interativo das regras

de associação. Os parâmetros para essas regras são os mesmos descritos na seção

5.3 somados ao limite máximo de dois itens por regra.

Além disso, foi solicitado que na visualização dos resultados obtidos não fossem

apresentadas as associações entre os itens colocados como input, uma vez que o

objetivo é executar análises com base em uma cesta de compras já existente e, assim,

gerar sugestões dos próximos produtos a serem vendidos. Logo, as associações entre

os itens já dentro da cesta iriam apenas poluir a visualização e aumentar o tempo de

processamento do modelo.

Ficou definido que o resultado final seria um grafo contendo os itens presentes

na relação, setas indicando o sentido das relações (saindo do item LHS e indo para o

item RHS) e nós representando a força. Escolheu-se o indicador de confiança para

representar a força da relação pelos dois seguintes motivos. Primeiro, por ele ser mais

simples de se explicar e comunicar do que o lift, uma vez que representa a probabilidade

de compra do item sugerido dado que foi comprado determinado item, um conceito que

todos conseguem entender com relativa facilidade. Segundo, pois seu valor varia entre

45

0% e 100%, logo, a escala dos nós fica visualmente comparável. Como vimos, o lift pode

variar de 1 a o infinito, ou seja, para valores muito grandes isso iria distorcer os

tamanhos no grafo.

Como um exemplo, será simulada a utilização da ferramenta com o input de uma

cesta de compras contendo AMIDO DE MILHO KG, FARELO DE TRIGO KG e

OREGANO ITALIANO KG. Esses itens inicialmente não parecem ter nenhuma relação,

mas com a ferramenta e o grafo gerado fica fácil de visualizar quais são os melhores

itens para se sugerir para um cliente com essa cesta específica. A tela de seleção dos

itens se encontra na figura 19 e o grafo gerado em html pela ferramenta está na figura

20:

Figura 19 - Tela de seleção de itens gerada, em que o usuário pode um ou mais itens para visualizar

46

Figura 20 - Grafo gerado pela ferramenta

Inicialmente, pode-se parecer que são muitas relações a serem consideradas,

mas, é possível, gradualmente, entender as diversas informações fornecidas. É viável,

por exemplo, iluminar somente os itens relacionados a um determinado produto. Na

figura 21 estão destacados somente os itens que tem relação direta com o FARELO DE

TRIGO KG.

Figura 21 - Destaque para relações diretas com o FARELO DE TRIGO KG

47

Também é possível visualizar a confiança da relação somente passando o

mouse por cima do nó correspondente. A figura 22 mostra que a confiança da regra

{FARELO DE TRIGO KG} => {LINHACA KG} é de 42.5%, ou seja, os clientes compram

linhaça em 42.5% das vezes que compram farelo de trigo.

Figura 22 - Simples consulta da confiança de uma regra

Ao destacarmos o ACUCAR MASCAVO KG podemos ver que esse item tem

relação com os 3 itens que estão na cesta do cliente. Então, pode ser bem interessante

indicar esse produto para o cliente em questão visto que todos os produtos da sua cesta

apresentam afinidade com ele. Vemos também que o mesmo possui uma confiança de

37.0% na sua relação com o FARELO DE TRIGO KG pela figura 23.

48

Figura 23 - Destacando o item ACUCAR MASCAVO KG

Para facilitar a navegação, também foi incluída uma listagem que pode ser

utilizada para selecionar e iluminar determinado item ou nó do grafo. Além disso, é

possível dar zoom, movimentar e alterar a posição dos elementos do grafo para fazer

com que a visualização se torne a mais interativa o possível. Essas funcionalidades

estão ilustradas na figura 24. Mais imagens com exemplos de outros grafos gerados se

encontram no anexo 1.

Figura 24 - Funcionalidades do grafo gerado

49

7.3. Resultados esperados

Com os resultados gerados pela análise, a equipe do televendas possui, em

mãos, novas informações sobre as cestas de compras de seus clientes. Os resultados

esperados podem ser divididos em duas principais frentes que serão descritas nessa

seção.

A primeira é mais proativa, na qual os resultados gerados são analisados pela

equipe comercial em conjunto com a liderança do televendas. Assim, podem-se

determinar informações relevantes como, por exemplo, a análise dos produtos não

somente por seus indicadores individuais como margem de lucro e faturamento, mas

também por sua relação com outros produtos. Essa informação é especialmente

importante para descontinuar produtos, por exemplo. Será possível saber se a

descontinuação de um determinado produto pode afetar a venda de outros que são

interessantes para a empresa. (Cox, 2012)

Além disso, o acompanhamento da evolução dos novos produtos introduzidos

no sortimento é simplificado, pois pode-se analisar quais são as principais associações

que esse novo item irá apresentar com os produtos existentes após sua introdução.

Outro ponto proativo está ligado a promoções. Se dois itens apresentam forte afinidade,

por exemplo, promocionar um deles deve acarretar em maiores vendas do outro. Além

disso, sabe-se que não se deve promocionar os dois itens ao mesmo tempo, pois, assim,

arrisca-se apenas diminuir a margem de lucro sem alavancar as vendas (Cox,

2012). Vendas casadas também são uma opção viável, criando, por exemplo, kits de

produtos que possuem forte associação e podem ser oferecidos aos clientes.

Por outro lado, a análise pode render frutos de caráter mais reativo para o

operacional do televendas. É possível utilizá-la para sugerir os próximos itens para

determinado cliente com base no que ele possui em sua cesta de compras. Assim, ao

inserir os produtos do pedido na ferramenta, pode-se fazer sugestões ainda antes da

compra ser finalizada. Esse tipo de utilização é mais complicado, uma vez que o

operador faz uso da ferramenta no momento de interação com o cliente. Entretanto,

introduzir esse tipo de informação para o vendedor pode alavancar significativamente o

potencial de vendas.

7.4. Próximos passos

A análise da cesta de compras é um primeiro passo para outras diversas

análises em potencial para o televendas e para a Casas Pedro como um todo. O cenário

de ferramentas analíticas na empresa ainda é muito imaturo, a área comercial se baseia

50

muito na experiência dos vendedores e gerentes e algumas ferramentas comuns no

varejo ainda não são utilizadas.

Especificamente para o televendas, destaca-se o fato de que eles não possuem

um cadastro de clientes segmentado por tipo de estabelecimento. A análise da cesta de

compras é um primeiro passo para gerar esse tipo de informação, sendo base para

comparar compras comuns entre diferentes clientes e entender as similaridades. Esse

tipo de informação poderia ser aproveitado para especializar os vendedores para um

atendimento mais personalizado para os diferentes perfis de clientes atendidos, como

por exemplo para restaurantes italianos, japoneses, doceiras e confeiteiros, entre

outros. Assim, cria-se uma base mais sólida de clientes que busca a Casas Pedro não

somente pelo mix de produtos mas também pela capacidade de sugerir itens

interessantes. Além disso, é um importante passo para a expansão da empresa,

atendendo grandes franquias do varejo alimentício e acelerando sua expansão.

Ademais, um próximo passo para esse tipo de análise é estendê-la para as lojas

físicas da empresa, tornando a informação de produtos com afinidade acessível aos

vendedores e gerentes. Assim, pode-se criar um sistema de sugestão de produtos

customizado para cada loja, agradando ainda mais os clientes de cada loja.

Além de todas as vantagens comerciais que essa informação pode gerar, ainda

existe outro ponto importante: o layout dos produtos na loja. Colocar produtos com forte

associação próximos pode alavancar suas vendas casadas. Por outro lado, colocá-los

distantes pode forçar o cliente a andar mais pela loja para conseguir os itens que deseja

e, assim, aumentar as chances dele comprar outro item em seu caminho (Cox, 2012).

Diversas são as possibilidades com a análise da cestas de compras para lojas físicas,

que estão fora do escopo deste trabalho. Porém, com a empresa dominando essa

capacitação no televendas estender o conhecimento para as lojas fica mais simples.

8. Conclusão

As associações obtidas pela análise da cesta de compras do televendas da

Casas Pedro evidenciam combinações de itens que costumam ser vendidos em

conjunto e podem ser usadas como base para a tomada de decisões referentes a, por

exemplo, promoções e sugestões. Algumas associações obtidas já eram conhecidas

pelos funcionários da empresa, como, por exemplo, a venda em conjunto de molhos

utilizados na culinária árabe. Outras relações foram recebidas pelo setor comercial com

considerável surpresa, entretanto, ao analisá-las, conseguiu-se identificar causas

interessantes para tais relações. Um exemplo deste caso é a associação entre os

51

produtos quinua em flocos e gojiberry que, apesar de pertencerem a categorias de

alimentos distintas, costumam ser procurados por clientes que buscam uma alimentação

saudável.

A visualização dos resultados em forma de grafo interativo que permite que o

usuário consulte as principais associações relacionadas a uma determinada cesta de

compras deixa a ferramenta mais amigável. Desta forma, tanto o setor comercial quanto

o operacional do televendas conseguem acessá-la de forma a obter informações

interessantes para o melhor desempenho em trabalho.

Assim, pode-se considerar que os objetivos do projeto de identificar

combinações de produtos que costumam estar presentes em uma mesma cesta de

compras e que podem alavancar as vendas de outros itens foi alcançado com o

resultado do modelo Apriori. O desejo de se obter uma ferramenta que permite ao

usuário verificar quais produtos podem ser indicados a determinado cliente com base

nos demais itens consumidos pelo mesmo foi alcançado a partir da ferramenta de

visualização gráfica desenvolvida.

Por fim, o potencial de vendas gerado pelas associações mostradas na

ferramenta foi reconhecido pelo gerente comercial, Pedro Coutinho, e pela equipe do

televendas. Desta forma, cabe ao time da Casas Pedro o bom uso das informações que

podem ser extraídas do modelo para aumentar a pró-atividade das vendas do

televendas, bem como seu resultado, com o aumento do ticket, médio, do número de

peças por atendimento e a fidelização do cliente, que podem ser incentivados pela

realização de sugestões e promoções de qualidade.

O produto deste projeto fornece a Casas Pedro mais um insumo que utiliza

algumas das tecnologias e metodologias mais modernas da atualidade para orientar as

decisões da empresa e suportá-la na conquista de seus objetivos estratégicos de curto

e longo prazo. Vale ressaltar que mesmo com mais este passo, ainda existem diversas

técnicas e ferramentas que podem ser aplicadas na Casas Pedro ao longo de seu

desenvolvimento e espera-se que, com mais este recurso em mãos, a empresa consiga

seguir em sua busca de seu crescimento e desenvolvimento de forma ainda mais

consistente.

52

Anexo 1

53

54

55

56

57

9. Referências Bibliográficas

Algorithms (Interface 2011). The Interface Foundation of North America.

Bayardo, Jr RJ, Agrawal R (1999). “Mining the most interesting rules.” In KDD ’99:

Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery

and data mining, pp. 145–154. ACM

Blasttber, R., Kim, B., Neslin, S., (2008.) “Database Marketing: Analysing and Managing

Customers” Springer

Berry MJA, Linoff GS (1997). Data Mining Techniques for Marketing, Sales and

Customer Support. Wiley Computer Publishing.

CHAPMAN, P; CLINTON, J; KERBER, R; KHABAZA, T; REINARTZ, T; SHEARER, C;

WIRTH, R. CRISP-DM 1.0. CRISP-DM consortium, 2000.

GOLDMAN, A., et al. (2012). Apache Hadoop: Conceitos Teóricos e Práticos, Evolução

e Novas Possibilidades. XXXI JORNADAS DE ATUALIZAÇÕES EM INFORMÁTICA.

Hahsler M, Chelluboina S (2011). “Visualizing Association Rules in Hierarchical Groups.”

In 42nd Symposium on the Interface: Statistical, Machine Learning, and Visualization

Hipp J, Guntzer U, Nakhaeizadeh G (2000). “Algorithms for Association Rule Mining – A

¨General Survey and Comparison.” SIGKDD Explorations, 2(2), 1–58.

LETOUZÉ, E. (2012). Big Data for Development:Challenges&Opportunities. UN Global

Pulse.

Nishi, D. (2005). Market-basket mystery. Chain Store Age, 12A–14A.

MANKIW, N. Gregory. (2005). Introdução à Economia. São Paulo: Pioneira Thomson

Learning.

Ong KH, leong Ong K, Ng WK, Lim EP (2002). “CrystalClear: Active Visualization of

Association Rules.” In In ICDM’02 International Workshop on Active Mining AM2002.

Prangsmal ME, van Boxtel CAM, Kanselaar G, Kirschner PA (2009). “Concrete and

abstract visualizations in history learning tasks.” British Journal of Educational

Psychology, 79, 371–387.

Seno M, Karypis G (2005). “Finding Frequent Itemsets Using Length-Decreasing

Support Constraint.” Data Mining and Knowledge Discovery, 10, 197–228.

58

Unwin A, Hofmann H, Bernt K (2001). “The TwoKey Plot for Multiple Association Rules

Control.” In PKDD ’01: Proceedings of the 5th European Conference on Principles of

Data Mining and Knowledge Discovery, pp. 472–483. Springer-Verlag.

Cox, E. (2011). Retail Analytics: The Secret Weapon (Wiley and SAS Business

Series). USA: John Wiley & Sons.