SPSS Data Mining Tips

10
17-11-2005 Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português. 1 Refª SPClem05 SPSS Data Mining Tips Um guião para ajudá-lo a poupar tempo e dinheiro quando planeia e executa um projecto de data mining. Índice Introdução ................................................................ 2 Dicas gerais para data mining .................................. 3 Compreensão do problema ...................................... 4 Compreensão dos dados ………………………….. 5 Preparação dos dados .............................................. 5 Modelização ……………………………………… 6 Avaliação ................................................................. 7 Distribuição dos resultados ………………………. 7 Selecção de uma ferramenta de data mining ........... 7 Conclusão ................................................................ 8 A SPSS Inc .............................................................. 9 Os produtos SPSS .................................................... 9

description

 

Transcript of SPSS Data Mining Tips

Page 1: SPSS Data Mining Tips

17-11-2005

Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português.

1 Refª SPClem05

SPSS Data Mining Tips Um guião para ajudá-lo a poupar tempo e dinheiro quando planeia e executa um projecto de data mining.

Índice Introdução ................................................................ 2 Dicas gerais para data mining .................................. 3 Compreensão do problema ...................................... 4 Compreensão dos dados ………………………….. 5 Preparação dos dados .............................................. 5 Modelização ……………………………………… 6 Avaliação ................................................................. 7 Distribuição dos resultados ………………………. 7 Selecção de uma ferramenta de data mining ........... 7 Conclusão ................................................................ 8 A SPSS Inc .............................................................. 9 Os produtos SPSS .................................................... 9

Page 2: SPSS Data Mining Tips

17-11-2005

Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português.

2 Refª SPClem05

Introdução Você está envolvido num projecto de data mining ? Ou vai realizar o seu primeiro projecto ? Qualquer que seja o seu nível de experiência, o SPSS Data Mining Tips ajudá-lo-á a planear e executar essa tarefa. Utilize as dicas adiante apresentadas para poupar recursos – tempo e dinheiro – e obter resultados mensuráveis. No decorrer da leitura verá símbolos que ajudá-lo-ão a compreender melhor a informação deste guião. Este símbolo indica um exemplo ilustrativo de uma dica em particular. Em caso de dúvidas sobre qualquer dos temas em discussão neste documento contacte localmente a PSE ou visite o site www.spss.com. Temos ao seu dispôr diversos cursos de formação e programas de consultoria técnica sobre a implementação de projectos de data mining.. O que é o data mining ? Data mining resolve um paradoxo muito comum – quantos mais dados (informação) temos, mais difícil e demorado é a sua análise. O que deveria ser uma ‘mina’ permanece muitas vezes inexplorado devido à falta de recursos – sejam estes humanos, tempo ou conhecimento. O Data mining utiliza poderosas técnicas analíticas para rapidamente extrair valor de ‘montanhas’ de dados. Que dados são utilizados no data mining ? Dependendo da sua ferramenta de data mining, o seu projecto pode incluir dados provenientes das fontes mais diversas. De facto, os projectos de data mining beneficiam da utilização de diferentes tipos de dados, sempre que cada um deles adiciona informação preciosa ao objecto em análise. Tudo o que se relacione com informações sobre transacções guardadas em base de dados; com respostas contidas num inquérito; com registos dos acessos a páginas na internet; ou com informação textual, pode contribuir para aumentar a qualidade dos resultados finais. Recentes avanços na tecnologia analítica originaram dois novos tipos de mining – text mining e web mining. Estas duas tecnologias abrem novas formas de abordagem da informação ‘não estruturada’ – sejam respostas de opinião a questões abertas em inquéritos ou ficheiros de ‘log’ nos servidores de sítios na internet – acrescentando informação valiosa sobre opiniões e preferências que dão a conhecer o ‘porquê’ de determinada acção ou comportamento.

Data mining e análise predictiva O data mining descobre padrões nos dados utilizando técnicas predictivas. A análise predictiva combina estas técnicas analíticas avançadas com a optimização do processo de decisão – ou seja, os resultados analíticos são utilizados para determinar quais as acções que produzirão maiores benefícios para a instituição. Estas recomendações, bem como toda a informação que as suportam, são disponibilizadas às pessoas e sistemas que decidem. Em que é que o data mining é diferente de um sistema OLAP ou de reporting de informação ? As ferramentas OLAP (online analýtical processing) e de reporting são importantes para compreender o que aconteceu no passado. Data mining é o processo para conhecer o que acontecerá no futuro. O data mining utiliza modelos predictivos, sejam estes estatísticos ou de auto aprendizagem (do tipo rede neuronal), para prever o que acontecerá. Por exemplo, uma pesquisa de informação permite-nos obter resultados sobre ‘o que vendemos no mês de Janeiro do ano de 2005’; um quadro OLAP permite-nos ir um pouco mais longe, ‘ saber também essa informação por família de produtos’; um projecto data mining dir-nos-á quem terá maior propensão para comprar cada um dos nossos produtos no próximo mês. E com base nesta informação poderemos construir uma campanha de marketing com ofertas personalizadas para cada um dos segmentos identificados. Em que é que o data mining é diferente da estatística ? O data mining não substitui a estatística. De facto, a estatística é um bom complemento dos projectos de data mining. As técnicas estatísticas tradicionais, como a regressão, são utilizadas a par das tecnologias de data mining como é o caso das redes neuronais. As estatísticas são muitas vezes utilizadas para validar os resultados de data mining. Porquê usar o data mining ? Quando dispõe de instrumentos fiáveis para projectar o futuro do seu negócio, Você tem o poder de tomar hoje as decisões correctas. O data mining ajuda-o a gerir e actuar sobre a evolução do seu negócio, porque lhe permite compreender melhor as razões dos acontecimentos passados e presentes e projectar os cenários futuros mais previsíveis. Por exemplo, o data mining diz-lhe quais os prospects que têm mais probabilidade de se transformarem em seus clientes e quais aqueles que têm mais propensão a responder à sua proposta de valor. Com esta visão do futuro, aumenta o retorno do seu investimento (ROI). As suas decisões basearam-se numa visão de negócio e não num instinto ou num impulso.

Page 3: SPSS Data Mining Tips

17-11-2005

Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português.

3 Refª SPClem05

Que problemas poderão ser solucionados por um projecto de data mining ? O data mining pode ser-lhe extremamente útil em qualquer actividade que envolva dados, por exemplo:

Aumentar vendas a clientes Conhecer segmentos de clientes e as suas

preferências Identificar os clientes mais rentáveis e criar

estratégias para retê-los Adquirir novos clientes Aumentar a capacidade de cross-selling e de

up-selling Aumentar o ROI de campanhas de marketing,

através de melhor identificação dos alvos Detectar situações de abuso, desperdício e

fraude Determinar riscos de crédito Aumentar a rentabilidade do seu sítio na

internet Monitorar a perfomance da sua actividade

Como é que se implementa um projecto de data mining ? Os produtos de data mining SPSS – Clementine – e os serviços que lhe estão associados, asseguram-lhe resultados fiáveis e mensuráveis porque se baseiam numa metodologia de implementação conhecida por CRISP-DM (Cross-Industry Standard Process for Data Mining). Esta metodologia está estruturada em torno de tarefas e objectivos para cada uma das fases do projecto de data mining. É uma metodologia não proprietária e adoptada por um consórcio internacional de empresas, em que se inclui a SPSS Inc. A metodologia CRISP-DM inclui 6 fases:

Compreensão do problema – obter uma visão clara das necessidades a satisfazer;

Compreensão dos dados – determinar quais os dados disponíveis (e onde se encontram) para encontrar respostas;

Preparação dos dados – Adaptar e formatar os dados de forma apropriada às respostas a encontrar;

Modelização – criar modelos explicativos das necessidades a satisfazer;

Avaliação – testar os resultados encontrados contra os objectivos do projecto;

Distribuição dos resultados – disponibilizar os resultados do projecto aos decisores.

Dicas gerais para data mining Prepare-se para o sucesso Siga a metodologia CRISP-DM Utilizando o CRISP-DM como um guião de projecto, garante o seu sucesso. É crítico desenvolver o projecto segundo uma metodologia testada – as tecnologias complexas de data mining e os grandes volumes de dados disponíveis podem sobrevalorizar-se num projecto em que as necessidades a prover não estão convictamente assimiladas pela equipa. Comece com a mente focada nos ‘finalmente’ Para ser capaz de mostrar o retorno (ROI, ganho, ..) do projecto, deve saber antes de começar como serão avaliados os resultados (ou seja, que métricas utilizar na sua medição ? Como calculá-las ? ). Por exemplo, o nosso objectivo é reduzir a taxa de ‘churning’ (perda de clientes) de 70 para 60%. Como é que traduz esta informação em volume de receita recuperada (ou não perdida) ? Ou, quanto ganharia se em vez de atingir o objectivo de 60% atingisse 58% ? Coloque as expectativas no sítio certo Tenha a certeza de que os responsáveis da sua instituição sabem que o data mining não é uma ´poção mágica’ que automaticamente resolve os problemas. O data mining é um processo de negócio. E como tal tem que existir um problema resolúvel e trabalho para encontrar uma solução. Se planeia segmentar clientes para qualquer acção do seu departamento de marketing, faça com que estes saibam qual o tipo de informação que vão receber como resultado do projecto (por exemplo, estamos a utilizar informação sobre os produtos e as características demográficas dos clientes, pelo que esperamos fornecer segmentos defenidos pela idade, pelo rendimento, etc... e indicaremos qual o mix de produtos preferidos para cada um destes segmentos de clientes). Limite a abrangência do projecto inicial Comece com objectivos realísticos e prazos defenidos. À medida que vai tendo sucesso, passe para projectos mais complexos. Crie um grupo de apoio ao projecto Um projecto de data mining é um esforço de grupo. Requer-se que os utilizadores finais estejam presentes porque eles conhecem os dados e as informações relevantes subjacentes ao problema. Mas também são necessárias pessoas que percebam o que é a análise de dados. E aqueles que permitem o acesso aos dados não podem faltar.

Page 4: SPSS Data Mining Tips

17-11-2005

Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português.

4 Refª SPClem05

Evite o bloqueio do projecto pelos dados Sempre, mas sempre, determine o problema a solucionar; defina os objectivos a atingir e obtenha suporte. Se pura e simplesmente começar a analisar uma ‘montanha’ de dados sem qualquer estrutura de projecto, o mais provável é que se perca nos dados e esteja a perder tempo. Não deixe que o volume de dados dirija o seu projecto. O foco é a solução do problema. Pode não uitlizar todos os dados disponíveis – só alguns poderão ser relevantes para o projecto. Pode até mesmo descobrir que os dados que possui não são suficientes para resolver o problema. Um grande volume de dados não é garantia de que tem os dados correctos. Por exemplo, normalmente informação recente é mais importante para caraterizar um cliente do que todo o histórico da sua relação com a sua empresa. Nas secções seguintes realçamos o que achamos importante em cada uma das fases da metodologia CRISP-DM. Se quiser obter informação mais detalhada sobre esta metodologia visite o sítio na internet www.crisp-dm.org. Compreensão do problema Saiba ‘quem, o quê, quando, onde, porquê e como’ na perspectiva do problema Compreenda detalhadamente todos os parâmetros do projecto – o enquadramento actual do problema; o objectivo principal do projecto; os critérios que definem o sucesso e quem determinará se houve ou não sucesso no projecto. Defina a forma como os resultados serão entregues Pense na forma como quer utilizar os resultados do seu projecto:

Serão usados por especialistas a quem podem ser fornecidos tal como obtidos ?

Serão utilizados por diferentes tipos de utilizadores com necessidades diferentes de interpretação ?

Serão distribuídos por qualquer meio em particular (em papel, por ficheiros, electronicamente, ...) que requeira um formato específico ?

Defina a forma de manutenção do projecto Como fará a gestão dos dados uma vez terminado o projecto ? Se o projecto é parte de um processo de gestão contínuo, será que:

Os dados serão analisados periodicamente ? Novos dados serão analisados em tempo real ?

Inventarie os recursos disponíveis e necessários ao projecto Liste adiantadamente todos os aspectos do projecto e assegure-se que tem tudo o que necessita para ter sucesso:

Pessoal (‘sponsor’ do projecto, técnicos conhecedores da actividade e da análise de dados)

Fontes de dados (em data-waherouses ou nas aplicações operacionais, mas acessíveis)

Recursos computacionais (computadores e software específico de análise)

Quais são os requisitos do projecto Liste todos os requisitos do projecto:

Calendário de execução Segurança a implementar Restrições legais no acesso aos dados Formas de distribuição e apresentação dos

resultados. Que pressupostos poram estabelecidos no projecto Liste e clarifique todos os pressupostos assumidos sobre:

Qualidade dos dados (disponibilidade e fiabilidade)

Factores externos (envolvente económica, concorrentes, avanços tecnológicos)

Factores internos (o problema) Modelos (restrições, descrições, apresentação)

Sob que condicionalismos se fará o projecto ? Verifique e crie soluções para:

Restrições gerais (legais, orçamentais, de recursos, de tempo)

Direiros de acesso aos dados (restrições, passwords necessários)

Acessibilidade técnica aos dados (sistemas operativos, sistemas de gestão dos dados, formatos de ficheiros e de bases de dados, permissões de acesso)

Acessibilidade a conhecimento relevante Elabore um plano de projecto Crie um plano que realçe as tarefas a executar para atingir os objectivos do projecto de data mining e encontrar a solução desejada para o problema.

Page 5: SPSS Data Mining Tips

17-11-2005

Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português.

5 Refª SPClem05

Compreensão dos dados Assegure-se que os dados estão disponíveis Disponha de todos os dados que necessitará para o seu projecto. Se tiverem origem em mais que uma fonte, assegure-se que a sua ferramenta de data mining tem capacidades para integrá-los. Os dados com origem no seu sítio internet podem ser valiosos para o seu projecto. Utilize uma ferramenta de web mining para integrá-los no seu projecto de data mining. Os dados com origem em inquéritos de opinião podem acrescentar informação importante sobre características e atitudes dos indivíduos nos seus modelos. Mais de 80 por cento da informação relevante pode estar incluida em documentos texto não estruturados. Utilize uma ferramenta de text mining para integrá-los no seu projecto de data mining. Descreva os dados Obtenha uma fotografia de todos os dados recolhendo a informação descritiva de formatos, de variáveis (ou campos), de número de registos e de variáveis e de toda as características julgadas relevantes. Assegure-se que os dados escolhidos são os que melhor representem o problema que pretende analisar. Experimente algumas técnicas exploratórias de dados e avalie a sua qualidade Seja com ferramentas de data mining ou de análise estatística, o conhecimento exploratório dos dados ajudar-lhe-á a tomar decisões sobre a qualidade dos dados. Para prevenir futuros problemas, elabore um plano de solução de qualquer erro detectado nos dados:

Será que o nome das variáveis estão conformes com os valores que contêm?

Há valores em falta ? Há valores duplicados? Há dispersão elevada nos valores de

determinada variável ? Qual a sua causa ? Existe correlação elevada entre variáveis ? É

esperada e conhecida ? Reveja variáveis que conjugadas contêm informação errada e que o senso comum detecta de imediato (por exemplo, homens grávidos) Exclua qualquer dado não relevante (por exemplo, se estamos a analisar comportamentos de automobilistas, excluimos todos aqueles que não têm carta de condução)

Preparação dos dados Seleccione os dados a utilizar Decida sobre quais os dados a utilizar na análise e liste as razões das suas decisões. Podem ser:

Níveis de significância e testes de correlação que determinaram a inclusão de variáveis

Condicionantes da selecção de subconjuntos de dados

Técnicas de amostragem utilizadas para ver a adequadabilidade dos dados

Decida se certos atributos são mais importantes que outros e pondere-os de forma adequada. Para aumentar a fiabilidade dos modelos, veja os benefícios de incluir neles informação não estruturada e que pode não estar disponível nas bases de dados da sua instituição. Por exemplo, será que a informação que recolheu no inquérito de satisfação aos seus clientes é importante para o seu projecto de retenção de clientes ? Melhore a qualidade dos dados Para obter resultados fiáveis, perca agora tempo a corrigir os erros detectados nos dados aquando da avaliação da sua qualidade. Pode ter que realizar as seguintes actividades:

Determinar como lidar com elementos anormais – valores em falta; valores extremos; ou outras anomalias próprias dos dados

Fixar regras de codificação de valores. Por exemplo, será que o ano deve ser sempre referenciado com quatro dígitos (2005) ou só com dois (05) ?

Algumas variáveis podem ser irrelevantes para os nossos objectivos actuais e não necessitam de ser limpos. Registe estas acções executadas porque mais tarde pode ter que reaproveitá-los no projecto. Disponha de uma ferramenta flexível para estas operações A sua ferramenta de data mining deve dispôr de funcionalidades para preparação dos dados de acordo com os requisitos do projecto. Deve ter a possibilidade de adicionar ou criar novas variáveis a partir das existentes nas fontes de dados. Relembre-se que o data mining é um processo de descoberta – é impossível saber à priori para onde os dados nos levam. Determine se é necessário criar novas variáveis Pode ser necessário criar novas variáveis a partir dos dados existentes pelas seguintes razões:

Devido à experiência anterior ou ao conhecimento da actividade, sabemos que um atributo (variável) em particular é importante na construção do modelo;

Page 6: SPSS Data Mining Tips

17-11-2005

Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português.

6 Refª SPClem05

O algoritmo a utilizar só manipula certos tipos de variáveis, pelo que pode ser necessário recodificar dados caso essas variáveis sejam importantes e os seus formatos não estejam de acordo com os pressupostos técnicos;

Os resultados obtidos demonstram que os modelos criados a partir dos dados originais não são analiticamente interessantes ou fiáveis.

Antes de criar novas variáveis avalie se e como serão importantes para o processo de modelização. Consolide a informação agregando dados. Ao juntar informação de diferentes fontes (ficheiros ou bases de dados) pode ter que criar novas variáveis e/ou agregar valores com significado similar. Assegure-se que a sua ferramenta de data mining pode combinar diferentes tipos de dados provenientes de diferentes fontes e sem ter que criar rotinas informáticas caras e demoradas. Será que as técnicas analíticas requerem uma ordem específica nos dados a tratar ? A sua ferramenta de data mining deve ter a possibilidade de ordenar os dados consoante os requisitos técnicos do procedimento analítico. Deverão os dados estar balanceados ? A técnica analítica pode requerer partições de dados em grupos de igual dimensão. A sua ferramenta de data mining deve permiti-lo. Modelização Seleccione as técnicas analíticas a utilizar Para analisar os seus dados com o procedimento adequado, verifique quais os pressupostos que cada técnica impõe sobre formato e qualidade dos dados. Nalguns casos, só um procedimento poderá ser apropriado para abordar o problema. Tenha a certeza que considera:

Quais os procedimentos são mais apropriados para o seu problema

Se existem alguns requisitos prévios (expectativas da gestão, interpretação dos resultados)

Se existem algumas restrições (estranhas características dos dados, conhecimento técnico dos analistas, tempo de execução)

De forma a que tenha a técnica mais apropriada para cada modelo ou para cada problema, escolha uma ferramenta de data mining que lhe disponibilize um conjunto alargado de técnicas analíticas.

Teste antes de criar o modelo Antes de criar o modelo explicativo, teste a qualidade e validade das técnicas que planeia utilizar. Crie um desenho de teste que inclua um conjunto de dados para treino; outro para testes e outro para validação dos resultados. A partir do conjunto de treino crie o seu modelo e certifique a sua qualidade com o conjunto de dados para teste. Construa o seu modelo Para criar o seu modelo, execute a sua ferramenta de modelização no conjunto de dados que preparou. Descreva os resultados e confirme a sua fiabilidade e adequabilidade à realidade. Elabore um memorando detalhado sobre o modelo, assinalando as regras produzidas, a definição de parâmetros feita, o seu comportamento e a sua forma de interpretação. Utilize a indução para produzir uma regra Regras são no essencial parâmetros a que os dados devem obedecer para serem considerados num modelo. Normalmente têm o formato condicional ‘If ... Then’. A indução permite-lhe escolher automaticamente quais as regras mais efectivas para obter um resultado específico. Por exemplo, utilize a indução para criar um conjunto de regras para qualificar o risco de um empréstimo:

Se empregado há mais de 2 anos, então o risco é baixo;

Se maior que 30 anos, o risco é baixo; Se alguma vez no passado entrou em

incumprimento no pagamento das prestações, o seu risco é elevado.

As técnicas de clustering são boas para: Encontrar grupos naturais de observações (individuos) que têm as mesmas características - por exemplo, detecte situações de fraude com técnicas de clustering porque encontrará grupos semelhantes de comportamento na utilização do cartão de crédito (e este foi o factor importante para a fraude). As regras de associação são boas para: Basket analysis – descubra quais os produtos que têm maior probabilidade de serem comprados em conjunto. Utilize esta informação para melhorar a sua capacidade de cross-selling através de catálogo ou por técnicas de merchandising na sua loja.

Page 7: SPSS Data Mining Tips

17-11-2005

Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português.

7 Refª SPClem05

Avaliação Avalie os resultados do projecto de data mining Determine se e como os resultados de cada modelo serão úteis como solução do problema. Existe alguma razão para que o modelo explicativo encontrado seja deficiente ? Se dispuser de tempo e recursos, tente testá-los com aplicações reais do dia a dia. Reveja todas as etapas do processo até agora Ao confirmar a qualidade dos seus resultados, reveja todo o trabalho feito no projecto para detectar se alguma fase foi esquecida ou se informação importante não foi considerada:

Retrospectivamente, cada etapa feita foi necessária ?

Cada uma delas foi executada tal como previsto ?

Determine as próximas etapas Chegou o momento de determinar se o projecto tem o sucesso suficiente para passarmos à apresentação dos resultados. Se não, faça trabalho adicional para encontrar resultados satisfatórios. Tenha sempre em mente:

O potencial interesse de cada resultado Como pode melhorar o processo Se existem recursos para trabalho adicional

Distribuição dos resultados Crie um plano de distribuição dos resultados Aceites os resultados do projecto, decida qual a melhor forma de aportá-los à solução:

Faça uma descrição sucinta dos modelos e resultados obtidos;

Avalie as diferentes formas de apresentação disponíveis;

Confirme a sua viabilidade e identifique possíveis problemas;

Determine como monitorizará o uso dos resultados e medirá os benefícios.

Monitorize a aplicação dos resultados Assegure-se que os resultados produzidos são utilizados correctamente e esteja atento a factores como:

O que é que se poderá alterar no futuro e que influencie directamente a qualidade dos resultados ?

Como é que se controlará a eficiência dos resultados ?

Quando, se necessário, se deve interrromper o uso dos resultados ?

Produza um relatório final Dependendo da forma como planeou distribuir os resultados, o relatório pode ser ou um sumário de todo o projecto ou uma apresentação final dos resultados obtidos. Ao fazê-lo:

Identifique os meios a utilizar Analise a aderência dos resultados aos

objectivos iniciais do projecto Identifique os receptores do relatório Sublinhe a estrutura e conteúdo do relatório Inclua todos os pontos importantes do projecto.

Reveja todo o projecto Finalmente tem a oportunidade de identificar o que correu bem, o que correu mal e o que é necessário corrigir em futuros projectos. Não se esqueça de:

Entrevistar todos os elementos da equipa de projecto e conhecer a sua opinião;

Entrevistar os utilizadores finais envolvidos e saber como avaliam os resultados;

Documentar e analisar todas as acções realizadas em cada fase do projecto.

Fazer recomendações para projectos futuros. Selecção de uma ferramenta de data mining As dicas apresentadas nesta secção são excertos do manual CRISP-DM, no capítulo que se refere a ‘Performing a data mining tool evaluation’. Procure uma ferramenta utilizada em projectos idênticos ao seu Escolha uma ferramenta que saiba ser utilizada no seu sector de actividade ou que tenha um conjunto conhecido de referências em projectos semelhantes ao seu. Seleccione uma ferramente que faça a ponte entre a metodologia e a capacidade técnica do data mining Assegure-se que a estrutura da ferramenta vai de encontro às suas necessidades não só no que se refere à qualidade e quantidade de procedimentos analíticos que inclui, mas também quanto ao controlo metodológico de todo o projecto:

Os conceitos de data mining estão facilmente perceptíveis na ferramenta ?

Integra-se com software de gestão de projectos ou outras ferramentas que Você utiliza ? Se não, como é feita essa integração ?

A sua ferramenta deve utilizar transparentemente as suas fontes de dados e os seus formatos Poupará tempo e dinheiro, e maximizará as probabilidades de obter resultados fiáveis, se a sua ferramenta de data mining for capaz de utilizar e importar dados provenientes de várias fontes e em vários formatos. Tal é particularmente importante, se em fases posteriores do projecto pretendermos adicionar novos dados de uma nova fonte.

Page 8: SPSS Data Mining Tips

17-11-2005

Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português.

8 Refª SPClem05

Uma ferramenta de data mining que lhe permita combinar dados estruturados ou não (por exemplo, informação sobre atitudes e comportamentos provenientes de inquéritos), aumentará a probabilidade de termos melhores resultados no projecto. Disponha de capacidades interactivas de exploração e de visualização É mais fácil explorar os dados se a ferramenta incluir técnicas interactivas de visualização. Estas técnicas permitem-nos aumentar a capacidade de decisão e de informação porque podemos alterar de imediato os gráficos e as dimensões de visualização que nos são apresentadas. Disponha de funcionalidades de preparação e manipulação dos dados fáceis de utilizar Se as tarefas de preparação dos dados forem fáceis de executar, técnicos com diferentes níveis de conhecimento poderão participar nesta fase de extrema importância para o projecto e, potencialmente, de trabalho intensivo. A sua ferramente deve importar e extrair dados automaticamente Evite programar queries, por vezes complexas e demoradas, escolhendo uma ferramenta que extrai automaticamente os dados nas diferentes actividades de preparação dos dados. Pode criar um modelo eficiente e rapidamente ? Procure uma ferramenta que permita aos analistas encontrar rapidamente os melhores modelos. A ferramenta deve incluir funcionalidades técnicas para construção e teste de múltiplos modelos. Escolha uma ferramenta com um largo espectro de técnicas Para obter os melhores resultados, assegure-se que a sua ferramenta dispõe de múltiplas técnicas e algoritmos para visaulização, classificação, clustering, associação e regressão. A ferramenta também deve ser capaz de combinar diferentes técnicas sempre com o objectivo de produzir os melhores resultados. A ferramenta escolhida utiliza os seus recursos informáticos actuais Escolha uma ferramenta que utiliza os seus dados tal como eles existem na sua organização, qualquer que seja o sistema de base de dados ou de ficheiros. Caso contrário pode ser necessário afectar novos recursos ao seu projecto de data mining. Escolha uma ferramenta que lhe garanta bons resultados Com o sucesso do seu projecto de data mining vai querer replicar a utilização deste processo na

resolução de outros problemas. A ferramenta a escolher deve adaptar-se a qualquer tipo de projecto de data mining em vez de ser desenhada para uma aplicação específica. Quais as capacidades de apresentação e de distribuição dos resultados que a ferramenta dispõe? É crítico dispôr de uma ferramenta que lhe permita integrar os resultados obtidos nos seus sistemas operacionais do dia a dia – agora e no futuro. Saiba se essa integração é fácil ou se requer investimentos adicionais. Avalie os potenciais custos de propriedade associados à ferramenta escolhida Para cada ferramenta em análise, analise o seu retorno (ROI):

Qual será o seu custo adicional para além da aquisição – inclua aqui os serviços de manutenção ou custos de renovação anual de licenças de software. Quando obterá um ROI positivo ?

Quando tempo demorará a implementar a sua ferramenta de data mining ? Está desenhada para especialistas ou pode ser utilizada por técnicos com múltiplas formações ? Quais os custos de formação envolvidos agora e no futuro ?

A ferramenta é customizável para utilizadores ou aplicações em particular ? Pode automatizar tarefas rotineiras ?

Conclusão Este documento tocou de forma muito sucinta num número de temas que deve ter em mente sempre que planeia e realiza um projecto de data mining. Outros tópicos relacionados com este tema estão para além dos objectivos deste documento. Se quiser explorar ou estudar com mais detalhe algum dos tópicos agora abordados, recomendamos a consulta de livros especializados sobre data mining. Outro meio que está ao seu dispôr é frequentar uma acção de formação sobre a utilização dos produtos SPSS para data mining. Consulte-nos e teremos todo o gosto em colaborar consigo. Muito obrigado pela sua atenção.

Page 9: SPSS Data Mining Tips

17-11-2005

Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português.

9 Refª SPClem05

A SPSS Inc. A SPSS Inc. é uma empresa lider mundial no fornecimento de soluções analíticas predictivas. A sua tecnologia melhora o processo de tomada de decisão ao dar às organizações um maior controlo sobre a qualidade das decisões diárias. Uma organização torna-se predictiva quando incorpora esta tecnologia analítica nas suas operações diárias – está apta a encontrar soluções para os seus problemas de gestão e obter vantagens comparativas mensuráveis. Muitas instituições, em Portugal e no Mundo, utilizam-na para aumentar o rendimento, diminuir os custos, melhorar processos e detectar e prevenir a fraude. A SPSS Inc. foi fundada em 1968 em Chicago (EUA) e é representada em Portugal desde 1994 pela PSE – Produtos e Serviços de Estatística, Lda. O que nos torna únicos Há mais de 35 anos que a SPSS lida com tecnologia analítica. Os nossos clientes escolheram-nos por múltiplas razões:

Uma visão integral, a 360º O software SPSS permite-lhe desenvolver uma cultura empresarial baseada no conhecimento, porque conjuga todo o tipo de informação – dados estruturados e dados não estruturados – para obter uma visão de 360º;

Integramo-nos facilmente com outros sistemas operacionais As tecnologias analíticas SPSS estão desenhadas para serem autónomas na sua função ou serem integradas com tecnologias de outros construtores;

A arquitectura do software é aberta e conforme os padrões da indústria O software SPSS incorpora os padrões da indústria como é o caso do OLE DB para acesso a dados; XMLA para partilha de dados e formatos; PMML para partilha de modelos predictivos; SSL para gestão da segurança na Internet e LDAP/Active Directory Services para autenticação e autorização, só para nomear alguns.

O retorno mais rápido no seu investimento em software De acordo com um estudo recente da empresa Nucleus Research, 94 % dos clientes SPSS obtiveram um retorno positivo do seu investimento num período médio de 10,7 meses.

Um baixo custo total de propriedade A tecnologia SPSS está desenhada para trabalhar com a sua infraestrutura tecnológica e mantemos os custos de propriedade baixos no curto e longo prazo porque temos opções de licenciamento muito flexíveis.

Os produtos SPSS Na SPSS dispomos de uma vasta gama de produtos que lhe permitem construir um sistema flexível para análise da sua informação. Data mining AnswerTree - Software para detecção de segmentos e projecção da sua resposta a impulsos, por utilização de árvores de decisão. Clementine - Software para data mining que incorpora no seu processo todo o seu conhecimento do problema a analisar. A família de produtos Clementine inclui:

Clementine Application Templates (CATs) que são ‘streams’ pré-construidas para resolução de problemas específicos. Podem ser aplicados directamente sobre os seus dados para obter resultados imediatos, ou utilizados como base de customização do seu próprio problema.

Text Mining for Clementine para extracção de conceitos e relações em dados não estruturados e sua conversão em formatos estruturados para inclusão no Clementine.

Web Mining for Clementine para fácil transformação dos logs web em eventos para análise no Clementine

SPSS Predictive Enterprise Services que centraliza e organiza os modelos e os processos que estiveram associados a cada um dos projectos.

Cleo que disponibiliza via Web aplicações que permitem aos gestores utilizar os modelos predictivos criados no Clementine.

Análise Predictiva Predictive Analytic Applications Aplicações que entregam recomendações em tempo real a sistemas e decisores pela combinação de avançadas técnicas analíticas e de optimização de decisões. A SPSS dispõe das seguintes soluções:

PredictiveCallCenter transforma chamadas de clientes ‘inbound’ em oportunidades de venda.

PredictiveClaims aumenta a satisfação dos clientes e reduz a fraude nos pedidos de participação financeira dos seguros.

PredictiveMarketing gera mais lucro nas campanhas de marketing ‘outbound’.

PredictiveWebSite transforma as visitas ao seu sítio na web em oportunidades de venda.

Page 10: SPSS Data Mining Tips

17-11-2005

Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português.

10 Refª SPClem05

Análise estatística SPSS for Windows é o software de análise estatística de dados com maior reconhecimento no mercado. A partir de um módulo principal – SPSS Base System – pode criar a sua própria solução analítica adicionando-lhe técnicas consoante a sua necessidade. DecisionTime software para criação de modelos previsionais de séries temporais e análise de cenários alternativos de previsão. Amos software para modelização de equações estruturais que completa a oferta SPSS em métodos de análise multivariada. Permite a construção de modelos que reflectem realisticamente as relações complexas entre variáveis. Smartviewer Web Server software para disponibi-lização de informação na Internet. Com ele é possível garantir o acesso imediato aos resultados obtidos com qualquer ferramenta analítica SPSS de um modo seguro e eficiente. Desenho e recolha de informação por inquéritos Dimensions Realize inquéritos em grande escala ou em projectos de menor dimensão, a SPSS disponibiliza uma plataforma integrada e customizável para apoio em todo o processo de pesquisa por inquérito. Esta solução inclui produtos para todas as etapas do processo de pesquisa por inquérito (Veja o documento SPSS Survey Tips) desde a criação do questionário até à captura dos dados, seja ela efectuada em papel, por telefone, pela internet ou por equipamento portátil (por exemplo, PDA). Consultoria e Formação A PSE, enquanto parceiro SPSS para Portugal, assegura aos seus clientes serviços de formação, consultoria e apoio técnico na utilização dos produtos e soluções SPSS de acordo com as normas internacionais da nossa representada. PSE – Produtos e Serviços de Estatística, Lda Rua Mouzinho da Silveira, nº 27 – 3º C 1250-166 Lisboa Telefone 213170910 Tefefax 213170919 Mail [email protected] Site www.pse.pt