Post on 27-Jul-2018
Michel da Silva Arantes
Modelos de Data Mining Como Serviço -
Análise de Séries Temporais
Pré-Dissertação de Mestrado
Mestrado Integrado em Engenharia e Gestão de Sistemas
de Informação
Trabalho efetuado sob a orientação de
Professor Doutor Manuel Filipe Santos
Professora Doutor Carlos Filipe Portela
Fevereiro de 2018
RESUMO
Este trabalho enquadra-se no desenvolvimento de um projeto de dissertação de
mestrado em Engenharia e Gestão de Sistemas de Informação da Universidade do Minho, e tem
como o tema “Modelos de Data Mining como serviço - Análise de Séries Temporais”. O Data
Mining continua em grande evolução e expansão. Surgindo, a toda hora, novos modelos e
técnicas, com maiores capacidades e extensibilidade, resultando, e cada vez mais, numa maior
capacidades e dificuldade das ferramentas para de Data Mining para obter resultados
otimizados. O Pervasive Data Mining Engine, é um protótipo com características pervasive,
que pode ser usado em qualquer lugar e hora, para além de facilitar todo o processo de Data
Mining,
Durante a realização desta Dissertação pretende-se conceber modelos de DM e
desenvolver uma componente de demonstração de resultados de uma forma agradável através
da a utilização da Linguagem R. O artefacto desenvolvido será depois integrado no protótipo
Pervasive Data Mining Engine. A análise exploratória e o processo DM será feita a partir de
conjuntos de Séries Temporais. Trata-se de uma sequência de observações ordenadas no tempo.
Todo o trabalho desenvolvido será regido pela metodologia de investigação Design
Science Research e pela metodologia Cross Industry Standard Process for Data Mining
(CRISP-DM).
Palavras-Chave: Data Mining, Pervasive Data Mining Engine, Séries-Temporais, DSR, CRISP-
DM
ABSTRACT
This work is part of the development of a master's thesis project in Engineering and
Management of Information Systems of the University of Minho and has as its theme "Data
Mining Models as a Service - Analysis of Time-Series". Data Mining continues to evolve and
expand. New models and techniques have emerged all the time, with greater capabilities and
extensibility, resulting increasingly, in the ability and difficulty of data mining tools to achieve
optimized results. The Pervasive Data Mining Engine is a prototype with pervasive features
that can be used anywhere and time, in addition to facilitating the entire process of Data Mining,
During the execution of this project the aim is to design DM models and develop a
demonstration component in a pleasant way through a use of the R Language. The artefact
developed will be integrated in Pervasive Data Mining Engine prototype. The exploratory
analysis and the DM process will be made from sets of Time Series. It is a sequence of
observations ordered in time.
All the work developed will be rude by research methodology Design Science Research
and the methodology Cross Industry Standard Process for Data Mining (CRISP-DM).
KEYWORDS: DATA MINING, PERVASIVE DATA MINING ENGINE, TIME-SERIES, DSR, CRISP-DM
ÍNDICE
Resumo ...................................................................................................................................... iii
Abstract ...................................................................................................................................... v
Lista de Figuras ......................................................................................................................... ix
Lista de Tabelas ......................................................................................................................... xi
Lista de Abreviaturas, Siglas e Acrónimos ............................................................................. xiii
1. Introdução ......................................................................................................................... 15
1.1 Enquadramento e Motivação ..................................................................................... 15
1.2 Objetivos e Resultados Esperados ............................................................................. 16
2. Revisão de Literatura ........................................................................................................ 18
2.1 Data Mining ............................................................................................................... 18
2.1.1 Descoberta de Conhecimento em Bases de Dados ............................................. 18
2.1.2 Conceito ............................................................................................................. 19
2.1.3 Objetivos e Tarefas de Data Mining .................................................................. 21
2.2 Séries Temporais ....................................................................................................... 24
2.2.1 Análise de Séries Temporais .............................................................................. 32
2.3 Pervasive Computing ................................................................................................. 33
2.4 Pervasive Intelligent Data Mining Engine ................................................................. 36
2.5 Ferramenta R ............................................................................................................. 38
2.6 Data Mining no Dóminio da Saúde ........................................................................... 40
2.6.1 Conceito de Saúde, Hospital e Medicina Intensiva ............................................ 40
2.6.2 Aplicações de DM na Área de Saúde ................................................................. 42
2.6.3 INTCare .............................................................................................................. 46
3. Abordagem metodológica ................................................................................................. 49
3.1 Design Science Research ........................................................................................... 49
3.2 CRISP-DM ................................................................................................................ 52
4. PLANO DE ATIVIDADES .............................................................................................. 55
4.1 Planeamento............................................................................................................... 55
4.2 Lista de Riscos ........................................................................................................... 57
Bibliografia ............................................................................................................................... 61
Anexo I – Diagrama de Gantt .................................................................................................. 65
LISTA DE FIGURAS
Figura 1- Processo de DCBD ................................................................................................... 18
Figura 2 - Data Mining e Áreas Associadas ............................................................................. 21
Figura 3 - Objetivos de Data Mining ....................................................................................... 22
Figura 4 - Exemplo de uma Série Temporal ............................................................................ 26
Figura 5 - Exemplo Típico da Tarefa de Previsão da Série Temporal ................................... 28
Figura 6 - Os Três Principais Passos de uma Tarefa de Classificação ..................................... 29
Figura 7 - Aplicação da Tarefa de Sumarização ..................................................................... 30
Figura 8 - Exemplo Idealizado da Tarefa de Deteção de Anomalia ........................................ 31
Figura 9 - Exemplo Típico de Descoberta de Padrões ............................................................ 31
Figura 10 - Desafios em Pervasise Computing ....................................................................... 34
Figura 11- Sistema INTCare .................................................................................................... 48
Figura 12 - Fases do Design Science Research ....................................................................... 50
Figura 13 - Fases da Metodologia CRISP-DM ....................................................................... 52
Figura 14 - Planeamento Detalhado ......................................................................................... 56
Figura 15 - Diagrama de Gantt ................................................................................................. 65
LISTA DE TABELAS
Tabela 1 - Lista de Riscos ........................................................................................................ 57
LISTA DE ABREVIATURAS, SIGLAS E ACRÓNIMOS
• AR – Auto-Regressivo
• ARIMA – Auto-Regressivo Integrado de Médias Móveis
• CBA - Classification Based on Associations
• CRISPDM - Cross-Industry Standard Process for Data Mining
• DCBD - Descoberta de Conhecimento em Base de Dados
• DCV - Doença Cardiovascular
• DEM - Deux ex Machina
• DFT – Transformada Discreta de Fourier
• DM – Data Mining
• DME – Data Mining Engine
• DSR - Design Science Research
• IoT – Internet das Coisas
• KEFIR - Key Findings Reporter
• KMIC - Korea Medical Insurance Corporation
• MA – Média Móvel
• OMS – Organização Mundial de Saúde
• PDME - Pervasive Data Mining Engine
• SIH – Sistema de Informação Hospitalar
• SVA – Decomposição por Valor Singluar
15
1. INTRODUÇÃO
1.1 Enquadramento e Motivação
O progresso na recolha de dados digitais e na tecnologia de armazenamento resultou no
crescimento de base de dados enormes. Com a quantidade de dados, a crescer
exponencialmente, a capacidade de entender e fazer uso dela vai diminuindo, isto porque,
enquanto, a disponibilidade de dados aumenta exponencialmente, o nível de processamento
humano é quase constante, e assim, a diferença potencial vai ser cada vez maior. Com as
evoluções contínuos na tecnologia e na premissa de que os grandes volumes de dados
disponíveis podem ser fonte de um novo e útil conhecimento com aplicabilidade em diversos
domínios, abriram-se tremendas oportunidades e novos desafios. Não é de admirar, então, que
o interesse tenha aumentado com a possibilidade de explorar estes grandes volumes de dados e
em extrair deles informações que possam ser de valor para quem tem interesse neles ajudando
na tomada de decisão por exemplo. A disciplina envolvida nesta tarefa tornou-se conhecida
como Data Mining (DM).
A Saúde é uma das áreas que mais dados gera e armazena (séries temporais, diagnósticos,
registos médicos), sendo igualmente umas das áreas que melhor aproveitou o surgimento de
técnicas de DM. A sua aplicação tem proporcionado uma melhoria dos serviços prestados aos
doentes, pois, os médicos conseguem identificar os tratamentos mais eficazes e as melhores
práticas.
As Séries Temporais é um tipo de dado que tem uma grande importância na área de saúde.
Presentes, por exemplo, em eletrocardiogramas, onde temos observações em todos os instantes
do tempo, A análise de séries temporais permite analisar o passado e predizer o futuro. Na
previsão de saúde, o padrão de distribuição de dados de saúde durante um período de tempo (na
forma de séries temporais) é importante para determinar a escolha de um método de previsão
adequado.
O Pervasive Data Mining Engine (PDME) é um protótipo que revoluciona e facilita a
forma de construção de modelos de DM (ex. classificação, regressão, clustering) em tempo-
real, permitindo que estes mesmos modelos construídos sejam desenvolvidos de forma rápida
e eficaz e que possam ser acedidos/configurados em qualquer lugar e a qualquer hora. Desta
16
forma, os utilizadores deste protótipo não necessitam de um conhecimento aprofundado na área
para apresentarem resultados otimizados, abrangendo assim, utilizadores de quase todas áreas.
Atualmente a plataforma é capaz de executar processos completos de classificação e regressão,
no entanto ainda não é possível apresentar os resultados de forma legível. Porém, este protótipo,
ainda não têm capacidade de apresentar os resultados de forma legível. Sendo crucial resolver
este problema, esta dissertação tem como objetivo a exploração de um conjunto de dados
recolhidos a partir de dispositivos médicos, a criação de fluxos de DM completos e a utilização
da Linguagem R para desenvolver uma componente de demonstração de resultados de uma
forma agradável. Posteriormente o artefacto desenvolvido será integrado no PDME.
1.2 Objetivos e Resultados Esperados
Esta dissertação de mestrado, enquadra-se no projeto de investigação DEM (Deux ex
Machina), WP 4.1, e tem como objetivo principal melhorar e otimizar o protótipo PDME, de
forma, a permitir uma visualização mais agradável dos resultados provenientes dos modelos de
DM, pois, o PDME ainda não tem capacidade para apresentar os resultados de forma legível.
Surgido assim oportunidade de desenvolver este projeto, que será essencialmente focado do
ponto de vista da análise de séries temporais.
Neste sentido, em seguida são apresentados os objetivos específicos associados a esta
dissertação:
• Exploração de um conjunto de dados recolhidos de dispositivos médicos;
• Criação de fluxos de DM completos;
• Desenvolver componente de demonstração de resultados (Utilizando
Linguagem R)
• Avaliar artefacto desenvolvido;
• Integração do artefacto no PDME;
A partir dos objetivos definidos, são esperados os seguintes resultados e contributos:
• Ferramenta com capacidades analíticas:
• Representação dos modelos/resultados;
• Incorporação destas funcionalidades no PDME;
De forma a cumprir estes objetivos será necessário num primeiro momento analisar
todos os conceitos relacionados, desde a DCBD, DM, Séries Temporais, Pervasive Computing
até ao PDME, isto, através de uma revisão da literatura. Permitindo assim, além de uma maior
17
familiaridade com os conceitos, identificar técnicas, requisitos e ferramentas para o
desenvolvimento do artefacto.
Já o segundo momento consistirá no desenvolvimento do próprio artefacto utilizando a
tecnologia e técnicas de DM, para criar modelos e todo fluxo de DM, e o uso da ferramenta R
para completar o artefacto com o desenvolvimento de uma componente que permita de uma
forma agradável representar e demonstrar os resultados, que por sua vez, auxiliarão em tempo
real os profissionais de saúde numa melhor análise e tomada de decisão. Por fim, o artefacto
desenvolvido será integrado no PDME.
De realçar que todo este projeto seguirá condutas éticas e critérios de confidencialidade.
Desta forma, os dados fornecidos bem como todo trabalho desenvolvido apenas poderão ser
utilizados no âmbito do projeto, sendo proibida a sua reprodução.
18
2. REVISÃO DE LITERATURA
2.1 Data Mining
2.1.1 Descoberta de Conhecimento em Bases de Dados
O Data Mining (DM) é considerado, na realidade, uma etapa de um maior conhecimento
denominado de Descoberta de Conhecimento em Base de Dados (DCBD). A DCBD consiste,
fundamentalmente, numa análise automática e exploratória de grandes repositórios de dados,
identificando padrões compreensíveis, válidos e potencialmente úteis a partir de um volumoso
e complexo conjunto de dados. De forma a que seja possível descobrir novo conhecimento,
existe a necessidade de passar pelas fases do processo da DCBD (Fayyad et al., 1996) (Maimon
& Rokach, 2010). Este processo é constituído por cinco fases principais, que se encontram
representadas na figura 1.
Figura 1- Processo de DCBD (Adaptada de (U. Fayyad et al., 1996)
A seguir é apresentado uma descrição para cada uma das 5 fase do processo de DCBD
(Fayyad et al., 1996) (Maimon & Rokach, 2010):
1. Seleção: Nesta primeira fase deve-se selecionar ou criar um conjunto de dados a
utilizar, que podem ser provenientes de diferentes fontes de dados.
2. Pré-Processamento: A fase de pré-processamento consiste na limpeza dos dados,
gestão de dados em falta e na remoção de dados com ruido. Pretende-se que a fiabilidade dos
dados seja melhorada.
19
3. Transformação: Nesta fase pretende-se uma redução dos dados em quantidade e
uma projeção dos mesmos, através da aplicação de técnicas. Deve-se encontrar características
úteis para representar os dados segundo os objetivos previamente definidos.
4. Data Mining: Esta fase consiste na aplicação da análise de dados selecionados e de
algoritmos inteligentes, de forma, a encontrar padrões interessantes.
5. Interpretação/Avaliação: Nesta fase avalia-se e interpreta-se os padrões
identificados no processo de DM. Isto para verificar se os padrões são de interesse ou não, se
tem precisão e interesse para os objetivos ou não.
Para finalizar existe uma avaliação e interpretação dos resultados obtidos no processo de
DM, tendo em conta os objetivos definidos inicialmente. Nesta fase deve ser avaliada a
compreensibilidade e utilidade dos modelos induzidos, tal como documentar a descoberta de
conhecimento realizado.
As outras etapas que envolvem o processo da DCBD seguindo uma sequencia iterativa
são: seleção, preparação e pré-processamento dos dados, transformá-los se necessário, executar
o processo de DM para extrair padrões, para no fim avaliar e interpretar os padrões identificados
(Fayyad et al., 1996) (Maimon & Rokach, 2010). Apesar de existirem 5 etapas, o DM é
considerado nuclear no processo da DCBD (Maimon & Rokach, 2010) (Goebel & Gruenwald,
1999), caracterizando pela aplicação de específicos algoritmos de DM, que exploram os dados,
desenvolvem modelos e descobrem padrões ou tendências desconhecidas anteriormente
(Maimon & Rokach, 2010).
2.1.2 Conceito
O crescimento e as inovações na área das tecnologias de informação têm permitido o
armazenamento de grandes volumes de dados. Existe uma grande expansão do Universo
Digital, muito devido à Internet das Coisas (IoT). Segundo um estudo da EMC Digital Universe,
que quantifica todos os dados digitais criados, replicados e consumidos num único ano, prevê
que o volume de dados produzido até ao final da década seja de 44 zettabytes, sendo que até
2013 era de 4,4 zettabytes, o que representa um crescimento de 1000% (Gantz & Reinsel, 2012).
Além de trazer uma série de desafios, a quantidade e diversidade dos dados pode parecer
assustadora, para mais sabendo que do ponto de vista biológico o ser humano não tem
capacidade para lidar com a quantidade de informação gerada hoje em dia e tirar proveito da
mesma. Um dos desafios é encontrar valor nesta enorme quantidade de dados, ou seja, é a
capacidade de extrair informação e conhecimento útil a partir dos dados gerados (Laranjeiro,
20
2017). Esta busca pelo conhecimento tem, e terá, cada vez uma maior preponderância para
empresas conseguiram vantagens competitivas num mundo cada vez mais competidor e
dinâmico (Arbix et al., 2010). Por isto tudo, e como já referido anteriormente, podemos dizer
que é impossível ao ser humano analisar, perceber e extrair informação útil da quantidade
enorme de dados que são gerados sem a utilização de ferramentas computacionais, que vão
auxiliar o utilizador a interpretar e relacionar estes mesmos dados. De forma a responder a toda
esta situação existe o conceito de Data Mining, que embora já exista há algum tempo é cada
vez mais utilizado.
Há diversas definições de DM. Porém existe uma definição que talvez seja a maior
popular e reconhecida, elaborada por Usama Fayyad (Fayyad, et al., 1996), apresentamos aqui
uma tradução adaptada do original:
“processo não trivial de identificar padrões válidos potencialmente úteis e ultimamente
compreensíveis a partir de novos dados”.
Dado que existem diversas definições para DM em que cada uma delas depende do
conhecimento e experiencia de quem as define, tendo sempre perspetivas particulares,
apresentamos aqui outras definições, permitindo assim também fornecer uma visão geral
(Friedman, 1997):
“é o processo de extrair informações anteriormente desconhecidas, compreensíveis e
acionáveis de grandes bases de dados e usá-lo para tomar decisões de negócios cruciais” –
Zekulin
“é um conjunto de métodos utilizados no processo de descoberta de conhecimento para
distinguir as relações e padrões anteriormente desconhecidos dentro dos dados” –
Ferruzza
“é o processo de descobrir padrões vantajosos em dados” –
John
“é um processo de suporte à decisão em que procuramos grandes bases de dados para
padrões de informação desconhecidos e inesperados” –
Parsaye
“processo de descoberta de padrões relevantes a partir de quantidades enormes de dados” –
(Han, 2012)
“processo que usa técnicas estatísticas, matemáticas e inteligência artificial para extrair e
identificar informação e conhecimento útil existente nos datasets” –
(Turban, 2010)
21
De uma forma simples e resumida, podemos dizer que é exploração de uma série de
dados, utilizando técnicas guiadas por uma máquina, que identifica tendências e padrões, ou
seja, identificar informação útil a partir de grandes volumes de dados.
O DM provém fundamentalmente de 3 disciplinas científicas: estatística, intelligentsia
artificial e métodos de aprendizagem (machine learning). Podendo assim ser considerado uma
área interdisciplinar que manuseia ferramentas de análise a partir de modelos estatístico,
algoritmos matemáticos, e métodos de aprendizagem por máquina para descobrir padrões e
relacionamentos previamente desconhecidos e válidos em grandes conjuntos de dados (Dua &
Du, 2011) (Hand et al., 2001).
Figura 2 - Data Mining e Áreas Associadas (Adaptada de (Turban et al.,2010) (Dua & Du, 2011))
2.1.3 Objetivos e Tarefas de Data Mining
As técnicas de DM têm sido úteis no suporte que tem dado aos negócios e a diversas
áreas, abundantemente aplicadas para identificar oportunidades ou para resolver problemas.
Têm sido aplicadas a áreas como o desporto, ciência, engenharia, medicina, segurança,
finanças, cibersegurança, biomedicina, seguradoras, saúde e, empresas de retalho, entre outros
(Dua & Du, 2011) (Turban et al., 2010) (Maimon & Rokach, 2010). Acreditando-se assim que
o DM terá um impacto profundo na nossa sociedade.
Os objetivos de DM são definidos pelo uso pretendido do sistema. Podemos dividir em
dois tipos de objetivos: orientado à verificação (o sistema verifica as hipóteses do utilizador), e
22
orientado à descoberta (o sistema identifica novas regras e padrões de forma autônoma) (Fayyad
et al., 1996) (Maimon & Rokach, 2010). Tipicamente subdivide-se o objetivo orientado à
descoberta em duas categorias, sendo estas a previsão e a descrição. Os métodos de previsão
permitem prever o valor de uma variável com base em outras informações existentes, ou seja,
pretendem inferir sobre os dados para se poder obter previsões dos mesmos (Han & Kamber,
2000). A construção de padrões, que constitui o conhecimento descoberto fácil de compreender
e operar, ajudando a compreender os dados (Maimon & Rokach, 2010). Já os métodos de
descrição são orientados para a interpretação e compreensão dos dados e para a forma como os
dados subjacentes se relacionam com a suas partes, isto para aumentar o conhecimento dos
dados (Maimon & Rokach, 2010). Por outras palavras tem como objetivo caracterizar todos os
dados, estabelecendo padrões entre dados para posterior análise humana (Han et al., 2012). As
tarefas de classificação e regressão à categoria de previsão, enquanto as tarefas de clustering,
associação, sumarização e visualização pertencem à categoria de descrição (Pereira, 2005)
(Maimon & Rokach, 2010).
Figura 3 - Objetivos de Data Mining (adaptado de (Pereira, 2005) (Maimon & Rokach, 2010))
Por vezes os métodos de previsão são referidos como sendo, de DM supervisionados,
enquanto os métodos de descrição, de DM não supervisionados (Maimon & Rokach, 2010). Os
métodos supervisionados procuram encontrar a relação entre os atributos de entrada, chamados
de variáveis independentes, e os atributos destino, chamado também de variável dependente
(Maimon & Rokach, 2010. O relacionamento descoberto é representado como um modelo de
previsão, que compreende o treinamento de dados que é o processo em que se analisa diversos
casos onde o valor variável independente já é conhecido (Dua & Du, 2011). Por outro lado, os
de aprendizagem não supervisionados referem-se a técnicas que agrupam instancias sem um
atributo dependente identificado (Maimon & Rokach, 2010). Este método é uma tentativa de
23
identificar padrões escondidos a partir de dados sem treinamento, não existindo diferença entre
os atributos independentes e dependentes (Dua & Du, 2011).
A classificação visa descobrir uma função que vai associar um caso a uma especifica
classe de entre as classes de classificação, ou seja, a função mapeia (classifica) um conjunto de
dados em uma das várias classes predefinidas (Santos & Azevedo,2005) (Goebel & Gruenwald,
1999) (Fayyad et al., 1996). Por exemplo, pode ser aplicado em casos de descoberta de fraudes,
tendências de mercados financeiros, classificar um historial bancário (Maimon & Rokach,
2010), identificação automática de objetos interessentes numa base de dados de imagens
enorme (Fayyad et al., 1996), classificar uma pessoa como doente caso a pessoa satisfaça as
propriedades de classificação do doente (Santos & Azevedo,2005). Podemos então dizer que
permite categorizar um conjunto de dados em classes predefinidas, tentando prever assim
valores discretos ou nominais. Entre as técnicas de classificação temos as arvores de decisão,
análise estatística, rede neuronais, classificadores de Bayes e algoritmos genéticos (Han et al.,
2012) (Turban et al., 2010). Existindo também outras como o caso das support vector machines
(Rokach & Maimon, 2010). Turban (2010) considera que os fatores mais importantes na
avaliação de um modelo de classificação são a acuidade da previsão, velocidade, robustez,
escalabilidade, interoperabilidade.
Por outro lado, a regressão é uma função que mapeia um conjunto de dados a uma
variável de previsão de valor real (Fayyad et al., 1996) (Maimon & Rokach, 2010), ou seja,
apenas pode ser utilizada quando a variável a prever seja um dado numérico (Manuel). Esta
pode ser aplicada de diversas formas, como por exemplo, estimar a probabilidade de um
paciente sobreviver segundo resultados de um conjunto de testes diagnóstico, prever o índice
de procura do consumidor por um produto novo (Fayyad et al., 1996), prever o futuro preço de
um stock, ou dado um conjunto de dados de transações de cartão de crédito criar um modelo
que possa prever a probabilidade de fraudes para novas transações (Goebel & Gruenwald,
1999).
Clustering, é uma tarefa descritiva comum onde se procura dividir um conjunto de
dados em subconjuntos, ou classes de dados, com base na semelhança dos dados, em que tem
de ter sentido e serem uteis (Han et al., 2012). Ou seja, procurar identificar um conjunto finito
de categorias ou grupos para descrever os dados (Fayyad et al., 1996) (Jain & Dubes, 1988).
Clustering é melhor usado para encontrar grupos de dados que são semelhantes. Por exemplo
dado um conjunto de dados de clientes, identificar subgrupos de clientes que tenham um
comportamento de compra semelhante (Goebel & Gruenwald, 1999), ou agrupar clientes para
24
fins de segmentação de mercado e agrupar documentos similares em resposta a um pedido de
mecanismo de pesquisa (Weiss & Davison, 2010) (Zamir e Etzioni 1998).
As regras de associação envolvem a descoberta de padrões ou associações, entre
elementos de um conjunto de dados, representadas sob a forma de regras ou implicações, isto
é, permite identificar o relacionamento dos itens mais frequentes num determinado conjunto de
dados. Esta abordagem é mais comum na análise de mercado. Por exemplo, cada registo de
dados corresponde a uma transação (a partir de uma compra de supermercado), sendo então
uma possível regra de associação dos dados do supermercado saber que "dos compradores que
compraram leite, 64% também compraram pão" ou que "toda vez que um determinado stock
cai 5%, um determinado stock aumenta 13% entre 2 e 6 semanas depois” (Weiss & Davison,
2010) (Goebel & Gruenwald, 1999).
A tarefa de sumarização envolve métodos para encontrar e descrever um subconjunto
de dados. Geralmente as técnicas de sumarização são aplicadas à análise exploratória de dados
e à geração automática de relatório (Fayyad et al., 1996). Segundo Galvão e Marin (2008), a
sumarização procura identificar e mostrar caraterísticas comuns num conjunto de dados.
Visualização exerce um papel importante por tornar o conhecimento descoberto
compreensível e interpretável pelos humanos. Esta tarefa tem a função de apresentar os
resultados de DM de uma forma visual, estando assim relacionada com a apresentação de
informações complexas de observar, através de gráficos de dispersão simples e gráficos de
histograma em coordenadas paralelas a filmes em 3D (Turban et al., 2010) (Goebel &
Gruenwald, 1999).
2.2 Séries Temporais
Com o aumento dos dados armazenados e do uso de dados temporais iniciou-se uma
grande pesquisa e desenvolvimento na área do DM. Aparecendo então, as sequências temporais
em uma vasta gama de domínios, desde economia, engenharia, medicina, finanças, até à
biologia. Na engenharia surge geralmente com uma monotorização baseada num sensor, como
por exemplo o controlo de comunicações. Já nas finanças é aplicada nas vendas ou consumo de
inventários para saber as datas das mesmas, mas também na previsão da evolução dos dados
financeiros. Na área de saúde, as sequencias temporais já são uma prática comum desde há
algumas décadas, com dados gerados por sistemas complexos de aquisição de dados como
eletrocardiogramas, ou mesmo simplesmente medindo a temperatura do paciente ou a eficácia
dos tratamentos. Apesar de que com o desenvolvimento da informática médica nos últimos anos
25
e a necessidade, mais do que nunca, de reagir no momento em tempo real a qualquer reação do
paciente, é fundamental. As aplicações que lidam com sequências temporais servem sobretudo
de suporte ao diagnóstico e na prevenção comportamentos futuros. Desta forma, a capacidade
de modelar, extrair informação, atribuindo depois um contexto temporal a uma dada variável é
imprescindível para o avanço da sociedade da informação (Antunes & Oliveira, 2001) (Esling
& Agon, 2012).
Uma série temporal pode ser entendida como uma representação de uma coleção de
valores obtidos a partir de medidas sequenciais ao longo do tempo, ou seja, de uma coleção de
observações sequenciadas no tempo (Esling & Agon, 2012) (Koeg 2003).
Han e Kamber (2012) definem os dados de uma serie temporal da seguinte forma:
“Um conjunto de dados de séries temporais consiste em sequências de valores numéricos
obtidos em medidas repetidas de tempo. Os valores são tipicamente medidos em intervalos de
tempo iguais (por exemplo, cada minuto, hora ou dia).”
Habitualmente observamos as séries temporais numa representação gráfica (Imagem 1),
onde normalmente o eixo das abcissas retrata o tempo e o das ordenadas a variação do que
estamos a demonstrar. Matematicamente, uma série temporal T pode ser expressa da seguinte
forma (Oliveira, 2007) (Esling & Agon, 2012):
T = (t1,...,tn) ,ti ∈ R.
Onde T é a variável de interesse e t o conjunto de índices de tempo, desta forma existem
t observações na variável da série temporal T. Ou seja, a série temporal T corresponde ao
conjunto das medições em relação ao tempo t.
Assim, uma série temporal pode ser definida como um conjunto de instante de tempos
contínuos, uma série temporal do tipo continua, onde existem observações em todos momentos
do tempo. Porém, muitas vezes temos observações a partir de medições feitas uniformemente
espaçadas no tempo, considerando assim estas como uma série temporal discreta. Havendo
ainda as séries temporais multivariadas, quando várias séries simultaneamente abrangem
múltiplas dimensões dentro do mesmo intervalo de tempo, onde existem mais de uma variável
de interesse.
26
Figura 4 - Exemplo de uma Série Temporal (Retirada De (Oliveira, 2007))
Uma das principais dificuldades que ocorrem ao longo do processo de DM é o
tratamento de dados que englobam informações temporais. Uma dessas dificuldades diz
respeito ao tratamento de dados com dependências temporais. Os atributos relacionados com a
informação temporal presentes num conjunto de dados precisam ser tratados de forma diferente
de outros tipos de atributos. Apesar disso, a maioria das técnicas de DM tendem a tratar os
dados temporais como uma coleção de eventos não ordenados, desprezando assim as suas
informações temporais. Então para que haja um total entendimento de todo este fenómeno é
preciso que os dados sejam olhados como uma sequencia de eventos (Antunes & Oliveira,
2001) (Koeg, 2003).
Para Esling e Agon (2012), o DM de séries temporais apresentam uma considerável
complexidade. Ocorrendo problemas pela grande dimensionalidade dos dados das séries
temporais e pela dificuldade que existe na definição de medidas de similaridade baseadas na
perceção humana. Aliando isto, ao rápido crescimento das fontes digitais de informações, os
algoritmos de mineração das séries temporais terão que agrupar conjuntos de dados cada vez
mais numerosos, levando assim a três grandes problemas.
- A representação dos dados. Deve-se entender como as formas são apresentadas pelas
séries temporais. Uma técnica de representação deve derivar a noção de forma, reduzindo assim
dimensionalidade dos dados mantendo as suas características fundamentais.
Como referido anteriormente, as séries temporais são sobretudo dados de alta dimensão,
logo, a aplicação de algoritmos que funcionam diretamente nas séries temporais seriam muito
dispendiosos do ponto de vista computacional. A motivação fundamental das representações é,
assim, evidenciar as características essenciais dos dados de maneira concisa, tendo como
benefícios, o armazenamento eficiente, a aceleração do processamento, e a remoção implícita
de ruído.
27
- A medidas de similaridade. É necessário distinguir e perceber se um par de séries
temporais são semelhantes. Assim uma medida deve indicar uma noção de similaridade baseada
em critérios percetivos, possibilitando o reconhecimento de objetos perceptualmente
semelhantes mesmo que estes não sejam matematicamente semelhantes.
Grande parte das tarefas de mineração de séries temporais requerem uma noção de
semelhança entre série. Ao examinar ao mesmo tempo múltiplas características de uma série,
os seres humanos são capazes de se abstrair de problemas como amplitude, escala, distorção
temporal, ruído e outliers.
- O método de indexação. A forma de organizar um grande conjunto de séries
temporais para permitir consultas rápidas é importante, devendo então saber qual mecanismo
de indexação para que seja possível lançar querys sobre as séries de forma mais rápida. A
técnica de indexação deve também garantir o mínimo consumo de espaço e complexidade
computacional.
Um método de indexação proporciona uma disposição eficiente de dados para
recuperação rápida em grandes bases de dados. Geralmente as soluções apresentadas envolvem
uma redução de dimensionalidade para indexar esta representação usando um método de acesso
espacial.
Já Keogh (2003), também refere a alta dimensionalidade dos dados como uma das
dificuldades que se encontram na manipulação de séries temporais, pois as séries temporais
apresentam uma dimensionalidade equivalente ao seu tamanho. Quanto mais comprida a série,
mais difícil será a análise da série. Outra dificuldade referida, é o grande volume de dados a
que as séries temporais são associadas. A subjetividade também referida como um problema
pelo autor, uma vez que a definição de similaridade entre séries temporais diferentes depende
da tarefa e da pessoa em questão. Por fim menciona a diversidade das séries temporais como
uma dificuldade. Estas normalmente aparecem em formatos diferentes, com ruido e ausência
de valores, o que dificulta a manipulação.
Posto isto podemos entender que os três principais pontos na gestão de dados de séries
temporais são os métodos de representação, as medidas de similaridade e o método de
indexação. Por causa da alta dimensionalidade das séries temporais, é crucial conceber
representações de baixa dimensão de forma a preservar as características fundamentais de uma
série. Tendo em conta esse mesmo tipo de representação, é necessário definir prudentemente a
distância entre as séries temporais para exibir pormenores perceptualmente relevantes da
similaridade subjacente. Por fim o esquema de indexação deve permitir uma gestão e pesquisa
mais eficiente dos conjuntos de dados cada vez maiores.
28
Existem técnicas para tratar alguns destas dificuldades. Por exemplo para a redução da
dimensionalidade temos, a transformada discreta de Fourier (DFT) que consegue eliminar
ruídos introduzidos no momento da captação das informações. A DFT descreve uma função
por meio de uma série de coeficientes. Outra possível técnica é a decomposição por valor
singular (SVA). Nesta técnica apenas permanecem as dimensões mais significativas do
conjunto de dados analisado, diminuindo assim as dimensões dos dados iniciais, logo usa-se
um espaço de dimensionalidade menor (Mariote, 2008) (Esling & Agon, 2012) .
DM é utilizado numa variada gama de aplicações. No entanto, os possíveis objetivos de
DM, muitas vezes chamados de tarefas de DM (Han & Kamber, 2001) podem ser classificados
em alguns grupos amplos. No contexto de aplicações de tarefas de DM sobre séries temporais,
as principais tarefas são: previsão, classificação, clustering, deteção de anomalia, sumarização,
indexação e descoberta de padrões (Ratanamahatana et al., 2009) (Esling & Agon, 2012)
(Laxman & Sasty, 2006).
A previsão é uma área deveras importante em vários campos de pesquisa. No que diz
respeito às séries temporais, é uma das tarefas mais aplicadas (Esling & Agon, 2012). A tarefa
da previsão de séries temporais condiz com a previsão de valores futuros da série temporal
baseando-se em suas amostras passadas (Laxman & Sasty, 2006). Permite, por exemplo, a
obtenção de aviso prévio de desastres naturais, epidemias e colisões. Usa valores de dados
conhecidos para prever valores futuros com base em tendências e estatísticas históricas. Um
algoritmo de predição geralmente envolve análise de regressão, visto que facilmente se
consegue utilizar os valores existentes de forma ordenada. Muitas técnicas foram sugeridas para
aumentar a precisão da previsão de séries temporais, incluindo o uso de redes neurais e técnicas
de redução de dimensionalidade (Ratanamahatana et al., 2009).
Figura 5 - Exemplo Típico da Tarefa de Previsão da Série Temporal (Adaptado de (Esling & Agon, 2012))
No ponto (a) da Figura 5, é demonstrada a entrada de uma série temporal. No (b) o
objetivo é conseguir prever o número máximo de pontos de dados próximos dentro de uma
janela de previsão (Esling & Agon, 2012).
29
A tarefa de classificação é talvez a mais familiar e mais popular. Através dela procura-
se identificar cada série temporal de um conjunto, classificando assim os dados de entrada em
grupos predefinidos. Quando comparada com a tarefa de clustering a diferença é que as classes
são previamente conhecidas e o algoritmo é treinado num exemplo de conjunto de dados, isto
é, em um conjunto de diferentes séries temporais. Como as classes são determinadas antes de
examinar os dados, um conjunto de dados predefinidos é usado no processo de treinamento, de
forma, aprender a reconhecer padrões de interesse. O reconhecimento de padrões é um tipo de
classificação onde um padrão de entrada é classificado em uma das muitas classes tendo em
conta a semelhança com essas classes predefinidas. Ou seja, quando um conjunto de dados não
identificado é inserido no sistema, ele pode precisar automaticamente a qual classe cada série
pertence. Habitualmente o desempenho dos algoritmos de classificação é avaliado pela precisão
da classificação, determinando a percentagem de objetos identificados como a classe correta.
Esta tarefa de DM sob séries temporais pode ser utilizada para reconhecimento de imagens e
padrões, filtragem de spam, diagnóstico médico, reconhecimento de fala, gestos e palavras
manuscritas (Esling & Agon, 2012) (Ratanamahatana et al., 2009).
Figura 6 - Os Três Principais Passos de uma Tarefa de Classificação (Retirada de ((Esling e Agon, 2012))
O ponto (a) da Figura 6, representa um conjunto de dados de treinamento composto
por duas classes pré e marcadas C1 e C2. No ponto (b) um conjunto de dados não marcado é
introduzido no sistema que irá tentar deduzir automaticamente a qual classe cada ponto de
dados pertence. Já no ponto (c) a cada ponto inserido anteriormente foi atribuído uma classe
(Esling & Agon, 2012).
O clustering é semelhante à classificação em que categoriza as séries temporais em
grupos. Contudo, ao contrario da tarefa de classificação, esses grupos não são predefinidos, mas
sim definidos pelas próprias séries temporais baseando-se na sua semelhança. Os dados mais
semelhantes são agrupados em clusters mas os próprios clusters devem ser diferentes. Sendo
então o objetivo descobrir os clusters mais homogêneos e que são tão distintos quanto possível
de outros clusters. O algoritmo deve assim identificar automaticamente quais grupos estão
intrinsecamente presentes nos dados. A tarefa de clustering de séries temporais pode ser
30
dividida em duas sub-tarefas. De um lado temos o clustering de toda a série temporal, em que
o objetivo é agrupar séries temporais semelhantes no mesmo cluster, por outro o clustering de
subséries, em que os clusters são criados a partir da extração de subséries de uma série temporal
única, sendo muito comum na descoberta de padrões (Esling & Agon, 2012) (Ratanamahatana
et al., 2009). Posto isto, podemos concluir que a tarefa de clustering de séries temporais
pretende agrupar um conjunto de séries temporais segundo a sua similaridade, tendo um certo
interesse na mineração de dados temporais, uma vez permite encontrar automaticamente
algumas estruturas em grandes conjuntos de dados (Laxman & Sasty, 2006).
Por vezes os dados das séries temporais são extremamente longos para apresentar.
Nestes casos, a tarefa de sumarização sob dados de séries temporais pode ser útil e necessário.
O objetivo desta tarefa é criar uma representação precisa das séries temporais, reduzindo sua
dimensionalidade, mas mantendo os seus componentes essenciais, portando pretende-se
minimizar o erro de reconstrução entre uma representação reduzida e as séries temporais
originais (Esling & Agon, 2012).
Figura 7 - Aplicação da Tarefa de Sumarização (Retirada de (Esling & Agon, 2012))
Como podemos observar na Figura 7, o ponto (a) a série temporal apresenta-se
bastante ruidosa contendo inúmeros pontos de dado. Depois de aplicada a tarefa de
sumarização, é conseguida uma a aproximação mais próxima das séries temporais de entrada,
isto, sem perder nenhuma das suas características essenciais (Esling & Agon, 2012).
A tarefa de indexação, ou de querying por conteúdo, é a área de investigação mais
ativa na análise de séries temporais e umas das tarefas de Data Mining mais utilizadas com
séries temporais. O conteúdo do conjunto de resultados depende do tipo de query lançada na
base de dados, isto quer dizer, dependendo da query lançada na base de dados ela vai
descobrir qual a série temporal que mais se parece à série temporal lançada na base de dados.
Ou seja, é baseado na recuperação de um conjunto de séries temporais mais parecidas com a
query fornecida pelo utilizador. Esta tarefa pode ser dividida em duas categorias:
correspondência total e correspondência parcial. Pela correspondência completa, uma query
lançada na base de dados só é correspondida a séries temporais individuais (completas) que
31
são similares à série temporal lançada como query. Já pela correspondência parcial, é
consultado nas séries temporais se alguma subsequência se assemelha à query lançada na base
de dados (Esling & Agon, 2012).
A deteção de anomalias é mais uma das tarefas de Data Mining em que procura
identificar subsequências anormais dentro de uma série, ou seja, subsequências que tenham
um comportamento anormal. Também pode ser entendido como a tarefa que analisa séries
temporais com intenção de encontrar padrões anteriormente desconhecidos. O processo para
detetar anomalias passa por primeiro criar um modelo de comportamento considerado normal
de uma série, caracterizando depois as subsequências que se afastam de forma considerável
do modelo como anomalias. Sendo, portanto, preciso um treino prévio do algoritmo (Esling &
Agon, 2012).
Figura 8 - Exemplo Idealizado da Tarefa de Deteção de Anomalia (Retirado de (Esling & Agon, 2012))
Na Figura 8, é representada uma longa série de tempo que exibe algum tipo de estrutura
periódica que pode ser modelada graças a um comportamento padrão. O objetivo é encontrar
subsequências que não seguem o modelo, logo, podem ser consideradas como anomalias.
A descoberta de padrões, por seu lado, pretende encontrar cada subsequência que
aparece usualmente numa série de temporal mais longa. Analisando o desempenho das séries
temporais ao longo do tempo, tenta identificar padrões discretos, através de partes sequenciais
que se repetem na série temporal observada (Esling & Agon, 2012). A Figura 9 retrata um
exemplo típico da descoberta de padrões.
Figura 9 - Exemplo Típico de Descoberta de Padrões (Retirada de (Esling & Agon, 2012))
32
2.2.1 Análise de Séries Temporais
A análise de uma série temporal passa pelo processo de identificação das características,
dos padrões e das propriedades importantes da série, aplicando modelos matemáticos e
estatísticos nos dados das mesmas, possibilitando assim quantificar e compreender o fenómeno
da variação temporal. Entre os vários objetivos de séries temporais, o maior deles é a geração
de modelos para a previsão de valores futuros, procurando através da análise dos dados
construir um modelo que nos permita facilmente antever a evolução futura da série temporal.
Outro dos objetivos mais importantes passa por analisar o passado, para retirar o maior
conhecimento útil do mesmo.
Há quatro componentes ou movimentos principais utilizados na caracterização de dados
de seres temporais (Oliveira, 2007) (Han et al., 2012):
- Movimento de Tendência. Estes indicam a direção geral na que um gráfico de séries
temporais se move ao longo do tempo. É necessário identificar as tendências, conhecendo
através dele as modificações que ocorrem.
- Movimentos Cíclicos. Menciona as oscilações de longo prazo sob uma linha ou curva
de tendência. Apesar das variações serem periódicas, estas não são associadas automaticamente
a alguma medida temporal. Encontrar ciclos permite-nos identificar padrões temporais.
- Movimentos Sazonais. Estes são padrões similares que uma série de tempo parece
seguir durante determinadas épocas ou períodos. Para uma análise das tendências, os dados
normalmente precisam ser "dessazionalizados" com base em um índice sazonal computado por
auto correlação
- Movimentos Irregulares. Estes movimentos caracterizam mudanças esporádicas
devido a eventos ocasionais, sendo influenciados por acontecimentos que ocorrem de forma
aleatória.
Para previsão de séries temporais podemos utilizar uma análise de tendências, ou seja,
encontrar uma função matemática que irá gerar aproximadamente os padrões históricos em uma
série temporal. Um dos métodos utilizados para a determinação da tendência de uma seria
temporal é chamado de média móvel (MA), em que mediante a sua utilização podem ser
eliminadas as variações cíclicas, sazonais ou aleatórias, mantendo apenas o movimento de
tendência. O método auto-regressivo (AR) e o auto-regressivo integrado de médias móveis
(ARIMA) são outros dos métodos mais populares nestes tipos de análises.
33
2.3 Pervasive Computing
O conceito de Pervasive Computing, em português Computação Pervasiva, é também
conhecido por Ubiquitous Computing (Satyanarayanan, 2001). Este ultimo conceito foi usada
pela primeira vez pelo cientista norte-americano Mark Weiser em 1991, através do seu artigo
"O Computador para o século XXI", de onde também surgiu umas das citações mais importante
na área da computação, em que Mark Weiser diz: “As tecnologias mais profundas são as que
desaparecem. Eles se entregam no tecido da vida cotidiana até que sejam indistinguíveis do
ambiente” (Weiser, 1991). Isto significa que as tecnologias que se relacionam e integram bem
na nossa vida já não são olhadas como elementos separados. Foi nesta visão em que quase todo
o trabalho computacional (pervasiva e ubíqua) foi baseado. Os termos pervasividade e
ubiquidade significam “existir em todo lado”, em qualquer altura, contudo sem ser percetível.
Ou seja, dispositivos conectados em toda parte de forma invisível para o homem em que assim
acabamos por não perceber que estes dispositivos lá estão, nem sequer notamos sua presença.
A palavra invisível é apresentada aqui num contexto em que as pessoas nem reparam que estão
numa interação com um dispositivo, não no sentido literal da palavra de algo não ser observável
pelo homem. Podendo assim concluir que não existe necessidade de adaptação ou compreensão
de como usar a tecnologia, esta passa a ser usada inconscientemente (Peixoto et al., 2015).
Desde a publicação do artigo de Mark Weiser em 1991, protagonizou-se um progresso e
uma evolução rápida da tecnologia, impulsionando um grande desenvolvimento ao nível do
hardware, sensores de localização, comunicação sem fios e redes globais. Para além disso, o
uso de computadores e da internet tornaram-se, nas últimas décadas, parte integrante no modo
de vida das pessoas. Neste contexto e com a continuada perseguição por novas soluções e
evolução das tecnologias existentes, a computação pervasiva, vem se tornando uma
computação cada vez mais presente e importante. (Saha & Mukherjee, 2003)
A Computação Pervasiva esforça-se para tornar a vida das pessoas mais simples,
facilitando as tarefas do dia-a-dia, através de ambientes digitais sensíveis e inteligentes, que são
por sua vez adaptativos e recetivos às necessidades humanas. Por outro lado, a sociedade fica
muito mais dependente destes dispositivos computacionais que ajudam a tornar as nossas vidas
mais simples. A Computação Pervasiva permite também uma maior produtividade através do
acesso a informações detalhada de qualquer lugar a partir desses ambientes. Sendo assim, está
capacitado para configurar, controlar ou ajustar aplicações um dispositivo para melhor apoiar
as necessidades do mesmo, ou de um utilizador. Por isso, num futuro próximo, podemos esperar
que todas as casas façam parte de uma rede de dispositivos inteligentes que apoiem de forma
34
transparente as nossas necessidades de informação e comunicação. Isso significa que a
tecnologia deve estar presente em todos os lugares sem a necessidade de trazer qualquer
dispositivo, para que o utilizador não esteja a par da sua presença. Ou seja, o conceito de
Computação Pervasiva pressupõe que os meios de computação sejam distribuídos no ambiente
de forma impercetível ao utilizador (Saha & Mukherjee, 2003) (Peixoto et al., 2015) (Weiser,
1991).
Segundo Satyanarayanan (2001) a Computação Pervasiva é uma tecnologia relativamente
recente, que surgiu da evolução dos conceitos de Sistemas Distribuídos e Computação Móvel.
A área dos Sistemas Distribuídos surge da interseção de computadores pessoas e redes locais,
na qual, com a chegada da rede, o computador pessoal evoluiu para a computação distribuída.
Enquanto os computadores se tornavam conectados por uma rede, eles começaram a
compartilhar recursos através da mesma. Estes conhecimentos englobam algumas áreas que são
fundamentais e marcaram o próximo passo para a computação perversiva, introduzindo alguns
desafios como: comunicação remota, tolerância a falhas (que impeçam o funcionamento do
sistema), heterogeneidade (suportar diferentes sistemas), acesso remoto a recursos de
informação e segurança (privacidade, disponibilidade e integridade). Por outro lado, a área da
computação móvel surge de computadores portáteis de alta resolução e redes sem fios. O
objetivo da computação móvel, a qualquer hora em qualquer lugar, é essencialmente uma
abordagem reativa para o acesso à informação, contudo, projeta o objetivo da computação
pervasiva, a todo tempo em qualquer lugar. Desta forma, foram colocados outros desafios,
como por exemplo: comunicação sem fios, mobilidade (capacidade de alterar de local), suporte
para interoperabilidade (capacidade de um sistema comunicar com outro sistema), e
sensibilidade na localização (via GPS ou SIM) (Saha & Mukherjee, 2003) (Satyanarayanan,
2001).
Figura 10 - Desafios em Pervasise Computing (Adaptado de (Satyanarayanan, 2001))
35
Grande parte dos desafios técnicos na computação pervasiva já foram identificados e
analisados antes desta evolução, em sistemas distribuídos e computação móvel. Algumas das
soluções podem ser implementadas diretamente na computação pervasiva, mas, em outras
situações não, pois, as demandas da computação pervasiva são bastante diferentes, levando a
novas soluções. Entretanto, com a evolução, novos problemas foram surgindo pela computação
pervasiva que ainda não tinham sido anteriormente analisados nem estudados, levando isto a
novos desafios próprios da área de computação pervasiva. Estes novos desafios são
(Satyanarayanan, 2001):
1. Escalabilidade localizada: Com o crescimento de utilizadores, aplicações,
dispositivos em rede e suas interações, o ambiente de computação pervasiva enfrenta uma nova
escala nunca experienciada. O desenvolvimento tradicional de aplicações exige uma aplicação
particular para cada novo dispositivo, o que na computação pervasiva é inviável, devido ao
crescimento de diferentes dispositivos como referido anteriormente. A escalabilidade, é assim,
um dos problemas críticos, apesar de que, na computação pervasiva a densidade das interações
deve reduzir-se à medida que se afasta, de outra forma, as ligações serão oprimidas por outras
interações distantes pouco relevantes. Apesar de que por vezes um utilizador móvel longe de
casa possa gerar algumas interações distantes relevantes para ele, a maior importância de suas
interações será local (Saha & Mukherjee, 2003) (Satyanarayanan, 2001).
2. Integração: Apesar de as componentes da computação pervasiva estejam já
implementadas em diversos ambientes, a sua integração numa única plataforma ainda é um
problema. A integração vai ser tornando mais complexa com o crescimento de numero de
dispositivos e aplicações. A coordenação entre uma mesma aplicação em diferentes dispositivos
é necessária (Saha & Mukherjee, 2003).
3. Heterogeneidade: A conversão de um ambiente para outro faz parte da computação
e da comunicação. Assim, caso as implementações uniformes e compatíveis de ambientes
inteligentes não sejam realizáveis, a computação pervasiva deve descobrir meios de camuflar
essa heterogeneidade. O middleware pode introduzir conceitos de forma a equilibrar
dinamicamente ambientes menos inteligentes, isto para, que a mudança seja transparente para
os utilizadores. A maior dificuldade está ao nível das aplicações, pois, quanto maior a
heterogeneidade mais complicada fica o desenvolvimento de aplicações que funcionam em
qualquer plataforma (Saha & Mukherjee, 2003).
4. Invisibilidade: Esforço para o desaparecimento da tecnologia na consciência do
utilizador, levando à distração mínima do utilizador. Desta maneira, um sistema deve solicitar
uma intervenção humana reduzida. Os utilizadores podem sim intervir, para configurar
36
ambientes que não estejam de acordo com as suas espectativas. Esta possível intervenção faz
parte de uma aprendizagem para o meio ambiente. Ou seja, se um ambiente considera
continuadamente as expectativas dos utilizadores sem grandes surpresas, este possibilita uma
interação quase ao nível subconsciente (Saha & Mukherjee, 2003) (Satyanarayanan, 2001).
5. Perceção do Contexto: A computação pervasiva, necessita de sistemas e dispositivos
que percebam o contexto do utilizador, porém grande parte destes sistemas e dispositivos de
computação não conseguem sentir seus ambientes, sendo incapaz então, de tomar decisões
pertinentes e sensíveis ao contexto. Ambientes inteligentes são um pré-requisito para
computação generalizada. Como os ambientes inteligentes são um dos pré-requisitos para a
computação pervasiva, e a perceção, do contexto é uma característica intrínseca de ambientes
inteligentes, a informação que define a perceção do contexto deve ser o mais precisa. Caso isso
não aconteça, pode baralhar ou interferir na experiência do utilizador (Saha & Mukherjee,
2003).
2.4 Pervasive Intelligent Data Mining Engine
Devido ao exponencial crescimento do volume de dados gerados, existe a necessidade de
novas técnicas e ferramentas, capazes de transformar este enorme volume de dados em
informação relevante e conhecimento. Desta forma e devido à contínua popularização do DM
diversas ferramentas foram desenvolvias nos últimos anos.
Com base nesta ideia, podemos entender o porque de atualmente existirem uma grande
variedade de Data Mining Engine (DME). Porém, grande parte dos DME existentes mostram
ainda existir algumas lacunas e algum nível de complexidade, pois estas ferramentas, são
difíceis de utilizar e requerem alguma dedicação e conhecimento, exigindo assim, especialistas
em DM de modo a atingir resultados otimizados. A partir destas incapacidades e limitações, os
investigadores Peixoto (2015) e Carlos Filipe Portela desenvolveram uma nova ferramenta,
com um novo conceito, chamada de Pervasive Data Mining Engine (PDME). Este novo
conceito mantem as funcionalidades das ferramentas atuais de DM, porém adiciona
características como a invisibilidade e ubiquidade, próprias do conceito de Pervasive
Computing, que por focarem na experiencia do utilizador e fornecerem processos de DM
autónomos e inteligentes, permite ao utilizador uma maior facilidade de uso (Peixoto et al.,
2015).
37
Por outros palavras, e sinteticamente, esta nova ferramenta DM junta as características
pervasive com as de DM, tornando-a revolucionário e com bastante potencial. Esta nova
abordagem como fornece a possibilidade de uma configuração automática do processo de DM,
exclui a necessidade de especialistas em DM, podendo qualquer pessoa com diferente
conhecimento da área obter resultados com valor, elevando o potencial do DM para todo tipo
de pessoas. Assim, o PDME, é capaz de automatizar o processo de DM, permitindo também
diferentes níveis de otimização do processo, adaptando-se às necessidades e conhecimento do
utilizador, pela possibilidade de configurar os processos de DM em modo automático, manual
ou misto. A simplificação do processo é realizada pela automatização de todo o processo de
carregamento de dados, transformação, modelação, validação, e a apresentação de resultados
de dados. Um dos maiores benefícios do PDME é permitir que quase todo o processo CRISP-
DM seja executado sem a interação do utilizador. Ou seja, é executada de forma automática,
em que o utilizador só necessita de carregar a base de dados, selecionar a target e o tipo de
processo (classificação ou regressão), e o PDME assume a partir daí (Peixoto et al., 2015)
(Peixoto, 2015).
Até ao momento, a arquitetura do PDME resolve apenas problemas de classificação e
regressão. Este utiliza internamente alguns modelos descritivos junto com previsão, de forma a
tentar primeiro o melhor modelo probabilístico. Por isso, o PDME demonstra uma arquitetura
complexa composta por 4 componentes principais em constante comunicação, precisando
sempre umas das outras para um funcionamento correto, sendo cada componente responsável
pela sua tolerância a falhas. Essas 4 componentes principais são (Peixoto et al., 2015) (Peixoto,
2015):
1. Base de Dados: Responsável pela persistência do sistema. O sistema é executado
completamente na base de dados. Grande parte dos eventos são desencadeados aquando da
deteção de uma alteração, porém, nenhuma tarefa é iniciada sem uma confirmação na base de
dados. O sistema não funciona sem a base de dados.
2. Processamento: As tarefas DM são realizadas nesta camada. Com uma preocupação
de desempenho e diversidade, é permitido que qualquer outra ferramenta DM funcione neste
sistema. Assim ferramentas como R ou Weka podem ser utilizadas para executar qualquer uma
das tarefas. Definindo o ponto de entrada e o ponto final de cada tarefa, desde que estes
permaneçam iguais, a ferramenta é capaz de executar essas tarefas, e como cada tarefa é
independente de qualquer outra tarefa, ferramentas específicas podem ser introduzidas para
executar tarefas especificas. Esta funcionalidade permite uma grande adaptabilidade,
requerendo uma implementação mínima. Composto por um ou vários servidores, em que um
38
servidor processa apenas um modelo de cada vez, por exemplo, se existirem dez modelos para
serem processados e dez servidores físicos disponíveis, eles começarão um em cada servidor
disponível, desta forma, o sistema escalará linearmente.
3. Controlo: Gere todas as decisões, servidores e processo, com capacidade de um
escalonamento individual. Responsável pelos servidores de processamento, por gerar todos os
scripts para execução e configuração de cada algoritmo individual implementado no sistema, e
por todo o processo de DM.
4. Interface: Manipula todas as operações do utilizador para o sistema. Permite o acesso
aos serviços de DM, configuração para o utilizador e administrador, meio de notificação (e-
mail ou mensagem) e revisão dos resultados. Para além de fornecer um layout diferente para
cada tipo de utilizador. O simples, fornece apenas informações estritamente necessárias, já o
avançado, fornece informações sobre as decisões tomadas e o estado atual do processo.
Concluindo, o PDME, têm a capacidade de realizar automaticamente tarefas de DM,
construir modelos em paralelo e registar todas as instâncias do processo possibilitando com isso
comparações fáceis de resultados e configurações a qualquer momento. O principal objetivo é
que as funcionalidades de DM e os seus resultados estejam disponíveis automaticamente e em
tempo real para qualquer pessoa. Fazendo-se valer das suas caracterizas pervasive para estar
disponível em qualquer lugar e em qualquer dispositivo, para todos utilizadores. Fornecendo,
assim, serviços de DM para vários utilizadores em qualquer local e em qualquer dispositivo.
Sendo que umas das maiores vantagens, é que esta ferramenta com este novo conceito, permite
que sejam geradas informações uteis para todo tipo de utilizador, sejam eles novatos que
estejam a aprender os conceitos de DM, sejam eles experientes da área, fornecendo-lhes novos
caminhos mais eficientes para atingir os mesmos ou melhores objetivos.
2.5 Ferramenta R
A análise em redes é notoriamente umas das maiores áreas em crescimento, sendo, a
análise de dados uma das suas componentes. Esta análise de dados utiliza técnicas e
procedimentos estatísticos que possibilitam o tratamento e análise das variáveis e observações.
Consequentemente, existe uma necessidade com grande importância de utilizar pacotes
estatísticos para a análise de dados e a interpretação dos resultados. No universo dos softwares
gratuitos utilizados para a análise de dados, o mais popular continua a ser o R (KDnuggets,
2016), usado cada vez mais por analistas de dados e estatísticos quer em organizações quer a
nível académico (Vance, 2009). A ferramenta R é um projeto de código aberto, em que qualquer
39
utilizador pode contribuir com novos pacotes (conjunto de funções em R com código
compilado) modificando ou implementando novos procedimentos a qualquer altura, assim, o
desenvolvimento do sistema R é fortemente influenciado pela ideia de código aberto (Everitt &
Hothorn, 2006) (Sousa et al., 2007). Proporciona também uma grande variedade de estatística,
como modelagem linear e não linear, testes paramétricos e não paramétricos, análise de séries
temporais, classificação, clustering, entre outros, para além de apresentar técnicas para a
elaboração de gráficos altamente controláveis pelo utilizador. Uma vez que o R é uma
linguagem de programação orientada aos objetos, o utilizador pode criar as suas funções para
a análise de dados. Ainda que o software seja gratuito, o R integra-se bem com outras
linguagens de programação (C, C++), estando disponível em vários idiomas e em diferentes
plataformas, projetando-se assim, como uma ferramenta poderosa (R-Project, 2018).
R é uma linguagem de alto nível que fornece um ambiente para análise de dados e para a
produção de gráficos, desenvolvido pela primeira vez no início da década de 90, por Ross Ihaka
e Robert Gentleman. O R é um dialeto da linguagem S, desenvolvido por John Chambers e
colegas na Bell Laboratories (agora detida pela Lucent Technologies) como uma linguagem de
programação para tarefas de análise de dados. A linguagem resultante é muito parecida com a
S, podendo ser considerado como uma implementação diferente de S. Existem algumas
diferenças importantes, porém, muito do código escrito para S pode ser executado inalterado
sob R (R-Project, 2018).
O projeto R pode ser considerado como uma plataforma para as atividades de análise de
dados e visualização de dados, exibição de gráficos, realização de cálculos, modelagem
preditiva, desenvolvimento de software de DM, entre outras coisas. O R contem um enorme
conjunto de pacotes disponíveis gratuitamente, nas quais fornecem algoritmos para todo tipo
de DM, Machine Learning e técnicas estatísticas. Com os mais de 5000 pacotes lançados
publicamente, é possível realizar análises de dados bastante complexos, pois, este enorme
conjunto de pacotes disponíveis permite a análise de diferentes tipos de estatística. Assim,
podemos considerar que um dos pontos positivos da ferramenta R é a extrema eficiência na
análise de dados. Por outro lado, como é uma linguagem desenvolvida sobretudo para suportar
cálculos assentes em vetores e matrizes, um dos pontos negativos é a curva de aprendizagem
íngreme para quem não está familiarizado com esta linguagem de vetores e matrizes. (Venables
& Smith, 2017).
Como a ferramenta R se apresenta com capacidades de DM e como a base do PDME,
esta irá ser utilizada para o desenvolvimento do artefacto proposto na dissertação.
40
2.6 Data Mining no Dóminio da Saúde
2.6.1 Conceito de Saúde, Hospital e Medicina Intensiva
Historicamente, a palavra saúde apareceu por volta do ano 1000. A palavra proveniente
do inglês antigo estava associada ao funcionamento fisiológico, à solidez mental e moral, e à
salvação espiritual. Para os antigos gregos, a saúde sempre foi um atributo de extrema
importância, exercendo um grande impacto nas visões ocidentais da saúde. Ao longo do tempo
com os avanços nos campos da medicina, da ciência, da sociologia, da psicologia e da política,
as teorias mais filosóficas da saúde começaram a ser substituídas pelas mais científicas
(Boruchovitch & Mednick, 2002).
Tradicionalmente o conceito de saúde foi visto como um estado sem doença. Esta visão
da saúde foi aceite durante a primeira metade do século XX, principalmente entre os médicos.
Este conceito tradicional baseou-se no pressuposto de que a saúde e a doença eram fenômenos
observáveis, sendo definida apenas em termos de falta de doença, sintomas, sinais ou problemas
(Boruchovitch & Mednick, 2002).
“Saúde é o estado de completo bem-estar físico, mental e social e não apenas a ausência de
doença.”
O conceito adotado pela Organização Mundial de Saúde (OMS) em 1948, é, uma
definição ilusória, longe de ser uma realidade, simbolizando apenas o caminho a ser perseguido.
Nesta definição a saúde foi conceituada mais em termos de presença de qualidades absolutas e
positivas, para além dos aspetos sociais, psicológicos, físicos, econômicos e políticos que foram
incorporados na definição. A nova visão da saúde, no entanto também apresenta algumas
desvantagens, uma vez que as qualidades de bem-estar e bem-estar ainda não foram claramente
definidas. Esta é uma visão holística e mais utópica da saúde, uma vez que, implica uma ideia
de um estado perfeito que é irrealista e inalcançável (Boruchovitch & Mednick, 2002) (Alves,
2015) (Abreu et al., 1997).
Já o conceito ecológico de saúde, emergiu nas décadas de 60 e 70, com uma abordagem
diferentes das anteriores principalmente em dois aspetos: projetar a saúde como um conceito
mais relativo e colocar uma maior ênfase nas inter-relações entre o meio ambiente e a qualidade
de vida do indivíduo. Sendo assim fortemente baseada numa na adaptação da pessoa ao meio
ambiente (Boruchovitch & Mednick, 2002).
41
Definir o conceito de saúde de uma forma simples é extremamente complicado, a própria
compreensão de saúde é altamente subjetiva e temporal, uma vez que as sociedades se
consideram mais ou menos saudáveis dependendo do momento, do referencial e dos valores
que atribuam a uma situação (Boruchovitch & Mednick, 2002) (Alves, 2015).
Existem diversos fatores que condicionam a saúde humana, como por exemplo, se os
condicionantes biológicos (idade, sexo, herança genética), o meio físico (condições
geográficas, qualidade de água para consumo e dos alimentos, condições de habitação), o meio
socioeconómico e cultural, com forte influencia na recuperação da saúde e na qualidade do
mesmo. A saúde é assim produto do estilo de vida e das condições de existência (Alves, 2015).
Atualmente os serviços de saúde dispõe não só de grandes conhecimentos, mas também
de tecnologias, que aplicadas na prevenção e reabilitação podem melhorar a qualidade da vida
das pessoas (Alves, 2015).
O primeiro Hospital operacional, em que de fato ocorriam atividades de tratamento a
doenças, foi provavelmente estabelecido no ano 600 em Paris (Griffin, 2006). Isto porque à
data ainda não havia nenhum sistema hospitalar, os locais de tratamento a doenças eram
temporários, noutras casos eram realizadas na casa do doente ou médico. Somente no ano de
1780 é que se toma consciência de que o hospital deve ser visto como uma instituição com
propósitos de cura e recuperação acessíveis a todas as pessoas. No principio os hospitais eram
frequentados essencialmente por pessoas pobres, com fracas condições financeiras (Reiser
1981) (Griffin, 2006). Hoje em dia os hospitais continuam a crescer dinamicamente, e a servir
pessoas, reagindo as necessidades da sociedade através do crescimento tecnológico, novos
serviços, e melhor acesso (Griffin 2006).
Geralmente, o Hospital é definido como o local onde se oferecem cuidados de saúde a
pessoas, constituído por diferentes departamentos para suportar as diversas especializações dos
profissionais do sector, sendo também equipado com tecnologias médicas sofisticadas (Griffin
2006) (Lameirão, 2007). Desta forma, as Tecnologias e os Sistemas de Informação (SI) são
para a Saúde uma ferramenta de extrema importância, ajudando na crescente melhoria da
prestação de cuidados de saúde (Lameirão, 2007).
A gestão hospitalar foi-se tornando cada vez mais complexa, assim como os serviços
médicos prestados, tendo sido possível atender pessoas em situações cada vez mais instáveis e
de maior risco eminente de vida. A Medicina Intensiva (MI) tem como objetivo especifico de
prever, diagnosticar e tratar situações de doença critica e potencialmente reversíveis, em
doentes com falência de uma ou mais funções vitais. Os feridos graves da II Guerra Mundial,
da Guerra do Camboja e Vietname, levantaram a necessidade de uma resposta rápida para o
42
tratamento de doentes críticos, surgindo assim a MI. Num mundo em crescente fragmentação
e especialização de conhecimento, a capacidade de abordar doentes graves, de forma integrada
e multidisciplinar, é cada vez mais importante. Devido à evolução e ao aumento da relevância
da MI, esta área tornou-se não só numa especialidade, mas também parte do organigrama
hospitalar (Paiva et al., 2017).
2.6.2 Aplicações de DM na Área de Saúde
O setor da saúde cada vez é mais uma comunidade baseada no conhecimento que está
conectando hospitais, clínicas e farmácias para compartilhar conhecimento, reduzir os custos e
melhorar a qualidade dos cuidados (Bose, 2002). Isto levou a que na área de saúde, o DM se
torne cada vez mais popular e essencial, mas também devido a maior dependência dos cuidados
de saúde nos dados, que são cada vez mais volumosos e complexos para serem analisados por
métodos tradicionais (Koh & Tan, 2005).
Existe um grande potencial para a aplicação de DM nos cuidados de saúde. As
organizações de saúde são direcionadas para o uso da informação do paciente. Os profissionais
de saúde defrontam o problema de usar dados armazenados de forma eficiente devido ao grande
volume de dados, levando a que, uma das chaves do sucesso destas organizações seja a
capacidade de fazer uso das bases de dados, de forma, a extrair toda a informação útil para os
cuidados de saúde. Os sistemas de informação de saúde contêm um grande volume de
informações que incluem informações sobre pacientes, diagnóstico de médicos e informações
de monitoramento, úteis em muitos sistemas médicos para salvar vidas (Milovic & Milovic,
2012).
Todas organizações de saúde deviam ter capacidade para analisar dados, pois, todos os
registros de tratamento de milhões de pacientes podem ser armazenados, tal como em outras
áreas o armazenamento de informação na saúde cresce cada vez mais, e as técnicas de DM
podem ajudar a responder a questões importantes e críticas. Isto, porque é possível extrair
conhecimentos interessantes, úteis e com regularidade pelas técnicas de DM (Milovic &
Milovic, 2012). Por outras palavras, as ferramentas de DM têm o potencial de gerar
conhecimento útil que pode contribuir para melhorar significativamente a qualidade das
decisões clínicas. (Srinivas et al., 2010).
Como ferramenta, o DM, é fundamental para analisar os dados gerados pelos Sistemas
de Informação Hospitalar (SIH), conseguindo modelos e padrões que melhoram os
diagnósticos, os tratamentos, a própria assistência ao paciente e o uso mais eficiente dos
43
recursos. Um dos pontos facilitadores para o uso desta ferramenta nos SIH, é a similaridade dos
objetivos de negócios dos diversos hospitais, bem como, a informação que é recolhida.
Significa isto, que os processos de DM são muito semelhantes nos diferentes hospitais, apesar
de os modelos extraídos serem bastante diferentes. (Alapont et al., 2005).
A utilização do DM pode auxiliar o profissional de saúde na MI ao analisar os dados,
detetando assim, problemas antecipadamente. Além de que também poderia ser utilizado para
gerar modelos que ajudam a decidir o melhor tratamento clinico. O ser humano só têm
capacidade para lidar com 7 diferentes parâmetros, enquanto um paciente na MI é descrito com
mais de 250 parâmetros, desta forma, é demasiada informação para um ser humano analisar.
Assim, os modelos de previsão na MI são um instrumento essencial que ajudam a prever
resultados interessantes para apoiar a tomada de decisões clínicas (Guiza et al., 2006) (Bellazzi
& Zupan, 2006).
O DM permite que organizações de saúde prevejam ou descubram tendências e padrões
no comportamento e condições do paciente através da análise de dados de diferentes
perspetivas, descobrindo conexões e relações nas informações supostamente não relacionadas
(Milovic & Milovic, 2012). Por exemplo, usando dados do paciente como idade, sexo, pressão
e açúcar no sangue, consegue-se prever a probabilidade de os pacientes terem uma doença
cardíaca (Srinivas et al., 2010). As tecnologias de DM, permitem também que os profissionais
de saúde possam prever fraudes na saúde, pacientes sub-diagnosticados, custos de saúde,
prognóstico e diagnóstico da doença, e o tempo de permanência num hospital, para além de,
detetar fraudes, abusos, tratamentos mais efetivos e melhores práticas (Yoo et al., 2011) (Koh
& Tan, 2005). Desta forma podemos constatar que o uso de ferramentas DM com algoritmos
avançados tem um enorme potencial para explorar padrões ocultos nos conjuntos de dados
complexos e de domínio medico (Soni et al., 2011) (Adnan et al., 2012). Esta modelagem
preditiva leva a um melhorar da tomada de decisões, ajudando os clínicos a melhorar seu
serviço de saúde, auxiliando a deteção de regularidades, tendências e eventos inesperados a
partir dos dados (Adnan et al., 2012) (Koh & Tan, 2005).
Apesar do grande volume de dados disponíveis na área da saúde, estes são amplamente
distribuídos e de natureza heterogénea, precisando de ser armazenados de forma organizada,
para depois, serem integrados resultando num sistema de informação hospitalar (Soni et al.,
2011). Esta heterogeneidade, proveniente por exemplo de paciente na MI através de dados
demográficos, históricos e de equipamentos de monitorização, requerem dispositivos com boas
capacidades de armazenamento e novas ferramentas para analisar os dados. (Cios & Moore,
2002) (Guiza et al., 2006). Em grande parte dos casos, a qualidade dos dados na saúde é inferior
44
à encontrada em outras áreas. devido a muitas razões. Umas das razões é pelo fato de os dados
médicos conterem inevitavelmente muitos valores em falta, isto porque, os pacientes com a
mesma doença nem sempre são submetidos a exames idênticos, resultando assim, em
diferentes, e às vezes mais ou menos, dados. Isto leva a que também apareçam muitas vezes
dados com ruido. O ruido surge, quando os dados são inseridos manualmente e por diferentes
pessoas sendo difícil a sua interpretação, mas também surge, através de imprecisões e falhas de
dispositivo de monitorização. (Guiza et al., 2006) (Yoo et al., 2011). Para além disso,
habitualmente os dados médicos englobam atributos de séries temporais (as datas em exames
são muito importantes do ponto de vista clínico), lidando desta forma com conjuntos de dados
que incidem no elemento temporal (Yoo et al., 2011). Os métodos de DM na área de saúde
devem assim abordar a heterogeneidade de fontes de dados, as estruturas dos dados e os valores
em falha (Cios & Moore, 2002). Dito isto, os dados médicos são ao mesmo tempo os mais
gratificantes e difíceis para o DM.
Uma das primeiras aplicações do DM na área de saúde foi KEFIR (Key Findings
Reporter). Este analisava automaticamente as mudanças de todas as variáveis relevantes,
extraindo as mais importantes, para depois adicionar recomendações de especialistas sobre
quais ações a serem tomadas em resposta às mudanças (Milovic & Milovic, 2012).
Devido ao aumento de comportamentos fraudulentos o nos sistemas de seguro saúde,
investigadores da Universidade Changhua de Taiwan, propuseram um processo de DM para
detetar casos fraudulentos nos sistemas de saúde de forma automática. Aplicando técnicas de
DM a partir de dados de clínicos pretendem construir modelos de forma a que seja possível
distinguir, automaticamente, comportamentos fraudulentos de comportamento normais. Foram
recolhidos dados de 2543 pacientes divididos em dois conjuntos de dados, um com os casos
normais e outro os fraudulentos. As técnicas DM utlizadas foram Regressão e Classificação e
o algoritmo para indução (classificação de uma ocorrência como normal ou fraudulenta) foi o
CBA (Classification Based on Associations).Os melhores resultados obtidos foram 64% para a
sensibilidade, que corresponde à percentagem de casos fraudulentos detetados em relação ao
total dos casos fraudulentos existentes, e 67% para a especificidade, que corresponde à
percentagem de casos normais detetados em relação ao total de casos normais (Muniz, 2018).
Com o objetivo de descobrir informações não triviais de forma auxiliar a monitorização
do controlo de hipertensão, os investigadores do Departamento de Ciência da Computação da
Pohang University e Yonsei University, da Coréia do Sul, aplicaram técnicas de DM na base
de dados KMIC (Korea Medical Insurance Corporation). Selecionaram aleatoriamente 127.886
beneficiários de uma população. Estes continham dados como pressão, taxa de glicose,
45
colesterol, altura, peso recolhidos durante o exame físico realizado bienalmente. A técnica de
regressão foi utilizada para identificar os fatores de risco para hipertensão. Utilizaram também
a técnica de previsão através de uma árvore de decisão em que este considerava as variáveis
definidas pela técnica de regressão como fatores de risco, determinando a tendência de um
paciente para a hipertensão. Os algoritmos, utilizados na previsão foram CHAID e C5.0. Já a
técnica de associação foi utilizada para identificar a ocorrência de relações entre a identificação
de hipertensão e as variáveis de risco. Os resultados da técnica de regressão mostraram que
variáveis recolhidas são excelentes indicadores da hipertensão. A técnica de previsão que define
a probabilidade da pessoa vir a sofrer de hipertensão, teve uma sensibilidade de 76.3%, pelo
algoritmo CHAID. Por fim, a técnica de associação permitiu definir um grande número de
associações entre os fatores de riscos (Muniz, 2018).
Segundo a OMS, ocorrem por ano cerca de 12 milhões de mortes devido a doenças
cardíacas. O termo doença cardiovascular (DCV), inclui uma grande gama de condições que
afetam o coração e os vasos sanguíneos e a forma de como o sangue é bombeado e circulado
pelo corpo. A DCV tem como consequência muitas outras doenças, deficiências e mortes, sendo
de extrema importância, o diagnostico desta doença. Doença cardíaca coronária e
cardiomiopatia e doenças são outras doenças que pertencem à categoria de doenças cardíacas.
Um sistema de diagnóstico médico automático seria extremamente vantajoso. Desta forma um
grupo de investigadores, decidiu analisar as diferentes técnicas de DM (preditivas e descritivas)
propostas nos últimos anos para o diagnóstico de doença cardíaca. Aplicaram técnicas de DM
através de um conjunto de dados, com 909 registos e 15 variáveis médicas, obtidos da base de
dados Cleveland Heart Disease. O Algoritmo Naive Bayes mostrou ser o mais eficiente com
uma percentagem de predições corretas de 86.53% para pacientes com doenças cardíacas,
seguindo se a Rede Neuronal e Arvore de Decisão. Apesar disto, o algoritmo Arvore de
Decisão, em comparação com os outros dois, é o mais eficaz para prever pacientes sem doenças
cardíacas. (89%) (Soni et al., 2011).
Para uma maior eficácia do tratamento, varias organizações ligadas à saúde, usam
aplicações de DM. Um desses casos, é a United HealthCare, que extraiu os dados do registro
de tratamento para assim encontrar formas de reduzir custos e oferecer os melhores
medicamentos. Para além disso, desenvolveu perfis clínicos para proporcionar aos médicos
informações sobre as tendências da sua prática e compará-los com os de outros. Em 1999, o
Hospital de Florida, projetou-se ao lançar as melhores práticas clínicas com o objetivo de
desenvolver um caminho padrão no atendimentos clínico e nas admissões de pacientes, através
de aplicativos de DM (Koh & Tan, 2005).
46
A ferramenta de DM pode também ser um grande auxilio na gestão de saúde,
identificando estados de doenças crónicos, pacientes de alto risco, para além de projetar
intervenções apropriadas. No Seton Medical Center para manter e melhorar a qualidade dos
cuidados de saúde, fez-se em vários esforços para o uso de DM, permitindo assim diminuir o
tempo de permanência do paciente, evitar complicações clinicas e fornecer as melhores
informações para os médicos. Outro exemplo, é o caso da Blue Cross, que vem implementando
iniciativas de DM para melhorar os resultados e reduzir despesas. Usando departamento de
emergência, os dados hospitalares, registos farmacêuticos e entrevistas com médicos, procuram
identificar asmáticos desconhecidos e desenvolver intervenções preciosas (Koh & Tan, 2005).
2.6.3 INTCare
A implementação de Sistemas Inteligentes de Suporte à Decisão nos Cuidados
Intensivos tem estado em crescimento e cada vez mais importante no processo de tomada de
decisão dos profissionais de cuidados intensivos, querendo desta forma, um sistema que ajude
no processo de decisão fornecendo conhecimento importante a qualquer momento e em
qualquer lugar. Para isso, é necessário um sistema com capacidade de operar de forma
automática e em tempo real, proporcionando resultados no momento certo para a decisão. A
dificuldade destes sistemas, que operam em ambientes críticos, é o processamento e
transformação de dados automaticamente e em tempo real (Portela, 2013).
De forma a solucionar este tipo de problema, foi desenvolvido o projeto INTCare. Uma
das razões para o desenvolvimento deste projeto foi a obtenção de bons resultados em modo
offline. É um projeto de investigação em continuo desenvolvimento envolvendo a Unidade de
Cuidados Intensivos do Centro Hospitalar do Porto. Depois de novos bons resultados houve a
necessidade transformar o sistema, num sistema pervasivo, isto porque, o ambiente crítico,
presente nestas unidades devido às situações de saúde complexa, tem características e
necessidades singulares, como a rapidez, eficiência, segurança, e operações em tempo real
(Portela et al., 2013) (Portela et al., 2011). O INTCare tem como objetivo implementar um
Sistema Inteligentes de Suporte à Decisão, para a MI, usando técnicas de DM para fazer
previsões sobre falhas de sistemas de órgãos. Este sistema apresenta características pervasive,
podendo assim ser acedido a qualquer momento e em qualquer lugar (Portela, 2013). As
tecnologias baseadas na Computação Pervasiva de Saúde permitem a aplicação de tarefas
remotas, podendo ser definida como "cuidados de saúde para qualquer um, a qualquer momento
e em qualquer lugar, removendo o local, o tempo e outras restrições, aumentando tanto o
47
cobertura e qualidade dos cuidados de saúde" (Portela et al., 2011). O acesso remoto aos dados
de saúde e as previsões das condições do paciente realizada pelo sistema INTCare pode também
ajudar a indicar os melhores procedimentos, tratamentos e terapias (Portela et al., 2011).
o INTCare utilizando dados de transmissão (data streaming) e processos de transformação de
dados em tempo real, prevê não só a falha do órgão como o estado do paciente nas próximas
24 horas, durante os primeiros cinco dias de permanência (Portela et al., 2015). Para atingir
estes objetivos foi preciso desenvolver um sistema de processamento e armazenamento de
dados em tempo real, podendo receber e processar automaticamente os dados do paciente,
colocando-o disponível para conhecimento no momento (Portela, 2013). Assim, este sistema é
composto por vários agentes semiautomáticos, responsáveis por automatizar a recolha dos
dados, processar e tratar os dados, e prever os resultados em tempo real, não requerendo assim,
qualquer intervenção humana (Portela et al., 2015). Abordando assim processo de Descoberta
de Conhecimento em Bases de Dados automaticamente e em tempo real (Portela, 2013). O
INTCare pode ser decomposto em quatro subsistemas: recolha de dados, gestão do
conhecimento, inferência e interface do utilizador. Os agentes de recolha de dados são usados
no processo DCBD para obter dados a partir de fontes de dados da UTI. Já os agentes da gestão
de conhecimento são utilizados para induzir modelos de DM do Data Warehouse para depois
armazená-los numa base de conhecimento. Na inferência, todos os cenários gerados por DM
são avaliados e o melhor resultado para cada target é disponibilizado pelo sistema INTCare
(Portela et al., 2015). Por último, o agente da interface recebe os resultados obtidos e permitindo
uma interação através da consulta do utilizador aos dados (Gago et al., 2006). Estes agentes
permitem o desenvolvimento de um sistema automatizado de forma a executar várias tarefas
em tempo real (Portela et al., 2015).
Quando se definiu as funcionalidades, que são do sistema INTCare teve-se em
consideração o meio ambiente, as necessidades de informação e os requisitos de DM. Desta
forma, vários conceitos e tecnologias foram exploradas: aprendizagem on-line, tempo real,
transmissão de dados, modelos de DM, modelos de decisão, otimização, agentes inteligentes,
pervasive, precisão, segurança, privacidade, acesso seguro do exterior e políticas de utilizador.
Paralelamente, para o sucesso do INTCare, dois objetivos relacionados com processo de DM
foram considerados essenciais. O primeiro é garantir uma execução certa do processo em tempo
real, que passa pela aquisição de dados, transformação de dados, até à indução de conjunto de
dados. O segundo é garantir uma avaliação constante e contínua dos modelos de DM (Portela
et al., 2015).
49
3. ABORDAGEM METODOLÓGICA
Todo o processo de Data Mining (DM) é de certa forma complexo, por isso, a utilização
de metodologias para facilitar o seu desenvolvimento torna-se inevitável. Assim, neste capitulo
serão apresentadas as abordagens metodológicas utilizadas para o desenvolvimento deste
projeto de dissertação. Serão então seguidas duas metodologias: o Design Science Research
(DSR) como metodologia de investigação, e o Cross-Industry Standard Process for Data
Mining (CRISP-DM) para o processo de DM.
3.1 Design Science Research
Esta metodologia incorpora um conjunto de técnicas que conduzem a uma pesquisa
cientifica de alta qualidade, valiosas e rigorosas, para a área de Sistemas de Informação, e tem
como principal objetivo o desenvolvimento de artefactos, destinados a resolver problemas
identificados, com a intenção explícita de melhorar o desempenho funcional do artefacto.
Segundo Peffers et al. (2007), o DSR é constituído por seis fases. Numa primeira fase passa por
identificar o problema e definir a importância do mesmo, seguindo-se a definição dos objetivos
da solução. Numa outra fase realiza-se a resolução do problema identificado através do
desenvolvimento de um artefacto, para depois, se efetuar a demonstração e avaliação da solução
desenvolvida. Esta avaliação passa por observar se a solução é realmente efetiva e eficiente,
para que no fim se comunique os resultados através de publicações. Este processo é estruturado
e segue geralmente uma ordem sequencial, apesar de que na realidade é possível começar em
qualquer fase e retroceder a outras fases, sendo então normal a existência de iterações no
processo. Caso seja uma abordagem centrada num problema começa-se pela atividade de
identificação do problema e motivação. Já numa abordagem ser centrada nos objetivos, o
processo inicia-se na atividade dois, a definição de objetivos. Uma abordagem centrada no
design e desenvolvimento começaria com a atividade três, em que resultaria da existência de
um artefacto que ainda não tivesse sido formalmente pensado como uma solução para o
domínio do problema. Por ultimo, uma solução iniciada por cliente pode ser fundamentada
numa observação de uma solução prática que funcionou, este começa com a atividade de
demonstração. (Peffersa et al., 2007).
50
Figura 12 - Fases do Design Science Research (Adaptada de (Peffers et al., 2007))
As fases desta abordagem metodológica podem ser descritas como:
1. Identificar problema e motivação (Identify Problem and Motivate)
Esta fase define o problema de pesquisa específico, ou seja, de uma questão de
investigação, para além de justificar o valor da solução. Visto que a definição do problema é
usada para desenvolver uma solução eficaz, este pode ser útil para enquadrar o problema
conceptual de modo a que a solução possa demonstrar a sua complexidade. Justificar o valor
de uma solução permite motivar o investigador a procurar a solução e aceitar os resultados que
ajudam a perceber o raciocínio. Os recursos essenciais para esta atividade são o conhecimento
do estado do problema e a importância da sua solução; (Peffersa et al., 2007).
2. Definir objetivos de uma solução (Define Objectives of a Solution)
São definidos os objetivos de uma solução a partir da definição do problema e da
compreensão do que é possível e viável. Os objetivos definidos podem ser quantitativos ou
qualitativos, sendo detetado das especificações do problema. Os recursos necessários para
definir os objetivos passam pelo conhecimento do estado dos problemas e pelas soluções atuais
já existentes; (Peffersa et al., 2007).
3. Conceção e Desenvolvimento (Design and Development)
É nesta fase que o artefacto é criado. Estes artefactos podem ser definidos de uma forma
ampla em construções, modelos, métodos ou instâncias. Esta atividade inclui a determinação
das funcionalidades desejadas, da arquitetura e, por fim, o desenvolvimento do artefacto real.
Os recursos necessários para que se possa passar dos objetivos para a conceção e
desenvolvimento incluem conhecimento teórico para realizar a solução; (Peffersa et al., 2007).
51
4. Demonstração (Demonstration)
Utilização do artefacto para resolver uma ou mais instâncias do problema inicial, por
experiência, simulação, estudos do caso, testes, ou outra atividade apropriada. Para a
demonstração os recursos necessários incluem o conhecimento de como se deve utilizar o
artefacto para resolver o problema; (Peffersa et al., 2007)
5. Avaliação (Evaluation)
Esta fase permite uma observação e medição do quão bem o artefacto suporta uma
solução ao problema, ou seja, permite saber a qualidade do artefacto em relação à resolução do
problema. Esta atividade consiste na comparação dos objetivos de uma solução com os
resultados observados na demonstração. Dependendo da natureza do problema e do artefacto
local, a avaliação pode assumir diversas formas. Podem ser incluídos a comparação das
funcionalidades dos artefactos com os objetivos da solução, as medidas de desempenho
quantitativas, ou as medidas capazes de quantificar o desempenho do sistema, como resposta
de tempo ou disponibilidade. No final desta atividade é decidido se se deverá voltar para a fase
de Conceção e Desenvolvimento de forma a melhorar a eficácia do artefacto ou se deve
prosseguir para a fase da comunicação e deixar mais melhorias para projetos posteriores;
(Peffersa, Rothenbergerc, Chatterjeed, & Tuunanenb, 2007).
6. Comunicação (Communication)
Comunicações do problema e a importância do artefacto, tal como da sua utilidade e
novidade para investigadores e outros públicos-alvo relevantes. Nas publicações de pesquisas
académicas, podem-se usar a estrutura deste processo para estruturar o documento, do mesmo
modo que a estrutura nominal de um processo de pesquisa é uma estrutura comum para
trabalhos de pesquisa empírica. A comunicação exige conhecimento da cultura disciplinar;
(Peffersa, Rothenbergerc, Chatterjeed, & Tuunanenb, 2007).
52
3.2 CRISP-DM
Como o DM é um processo complexo, a melhor forma de facilitar a sua compreensão,
implementação e desenvolvimento, é adaptar o mesmo a uma metodologia sólida e eficaz. O
Cross Industry Standard Process for Data Mining (CRISP-DM) é uma metodologia específica
de aplicação em projetos de DM. Segundo Chapman (2000) a metodologia CRISP-DM é
descrita como sendo um modelo de processo hierárquico, constituindo-se em conjuntos de
tarefas descritas em quatro níveis, do mais geral para o mais específico, sendo elas: fase, tarefa
genérica, tarefa especializada e instância de processo. No nível superior, o mais geral, o
processo de DM é organizado em 6 diferentes fases, nas quais cada fase consiste em várias
tarefas genéricas. Estas tarefas são conhecidas como genéricas, pois tencionam cobrir e
abranger todo o processo de um projeto de DM, portanto, as tarefas devem ser tão completas e
estáveis quanto possível. O nível de tarefa especializado, é onde se descreve como as ações nas
tarefas genéricas devem ser realizadas. Já no nível das instancias do processo, são registadas as
ações, decisões e resultado alcançados durante o processo de DM. A metodologia CRISP-DM
fornece uma visão geral do ciclo de vida de um projeto de DM, abrangendo as fases do projeto,
as suas respetivas tarefas e as relações entre essas tarefas. O ciclo de vida de um projeto de DM
é dividido em seis fases dependentes, sendo que, a sequência das fases não é fixa, ou seja, não
terá necessariamente que ser processado pela ordem apresentada.
Figura 13 - Fases da Metodologia CRISP-DM (Adaptada de (Chapman et al., 2000))
53
De seguida são descritas as fases do ciclo de vida do CRISP-DM, segundo Chapman
(2000):
1. Compreensão do negócio (Business Understanding)
Esta primeira fase concentra-se na perceção dos objetivos e requisitos do projeto do
ponto de vista do negocio. Com o conhecimento assimilado deve-se definir o problema de DM
e o plano preliminar para se atingir os objetivos. As tarefas genéricas desta fase são: determinas
os objetivos de negocio, avaliar a situação atual, determinar os objetivos de DM e produzir um
plano do projeto.
2. Compreensão dos dados (Data Understanding)
Esta fase inicia-se com a recolha inicial dos dados, seguindo depois com um conjunto
de atividades que permitem uma compressão e identificação de problemas de qualidade nos
dados, para além, de permitir descobrir as primeiras informações sobre os dados, sobretudo
informação relevante. Já nesta fase, as tarefas genéricas são: recolha inicial dos dados,
descrever os dados, explorar os dados e verificar a qualidade dos dados.
3. Preparação dos dados (Data Preparation)
A fase de preparação dos dados abrange todas as atividades essenciais para a construir
um conjunto final de dados a partir dos dados iniciais. Para chegar à construção desse conjunto
final de dados processa-se a seleção das tabelas, campos e registo, assim como, a transformação
e limpeza dos dados para as ferramentas de modelação. As tarefas de preparação dos dados são
suscetíveis de ser realizadas várias vezes, não tendo qualquer ordem estabelecida. Assim esta
fase compreende as seguintes tarefas genéricas: selecionar dados, limpar dados, construir
dados, integrar dados e formatar dados.
4. Modelação (Modeling)
Nesta fase são selecionadas e aplicadas varias técnicas de modelação, mas também os
parâmetros são ajustados para se obter os resultados otimizados. Habitualmente, encontram-se
diversas técnicas para um mesmo tipo de problema de DM, das quais, algumas exigem
requisitos específicos sobre a forma dos dados. Isto significa, que por vezes, é necessário voltar
à fase de preparação para formatar os dados de forma a poderem ser recebidos pela técnica de
modelação a utilizar. As tarefas genéricas que fazem parte desta fase são: selecionar técnicas
de modelação, criar uma conceção do teste, construir modelos e rever modelos.
5. Avaliação (Evaluation)
Por esta fase já se construiu um ou mais modelos com qualidade, porém antes de se
proceder à implementação final, é recomendado avaliar o modelo e rever todos os passos
executados na construção do modelo, para garantir que os objetivos dos negócios são
54
devidamente atingidos. Um dos objetivos mais importante é averiguar se existe algum problema
no negocio que não foi devidamente analisado, para que quando acabasse esta fase, seja
possível tomar a melhor decisão sobre a utilização dos resultados de DM. Fazem parte desta
fase as tarefas genéricas: avaliar os resultados, rever o processo e determinar os próximos
passos.
6- Implementação (Deployment)
A fase de implementação dependendo dos requisitos, pode ser simplesmente, gerar
relatórios, ou, por outro lado, mais complexa com o a implementação de um processo de DM
em toda organização. Em muitos casos, é o utilizador e não o analista de dados, que realiza as
tarefas de implementação, mas, mesmo que seja realizado pelo analista de dados é necessário
compreender o que é implementado, de forma a realmente se fazer uso dos modelos. As tarefas
genéricas desta fase são: planear avaliação de resultados, planear monitorização e manutenção,
produzir relatório final e rever projeto.
55
4. PLANO DE ATIVIDADES
4.1 Planeamento
Um planeamento eficiente do projeto é fundamental, pois, permite evitar o risco de
fracasso estando assim mais perto de alcançar o sucesso do projeto. No planeamento do projeto,
realizado através da ferramenta Microsoft Project, estão representadas as atividades, as datas
de realização e fim, e as precedências, para o período de 25 de outubro de 2018 (data do 1º
contato após aceitação do tema de dissertação) até 19 de outubro (prazo limite para submissão
da dissertação). O planeamento foi realizado com base nas fases da metodologia Design Science
Research e CRISP-DM, onde as duas partes se juntaram e interligaram.
Este projeto é composto por 3 entregas principais: entrega do projeto de dissertação, do
artigo científico e da dissertação Em alguns momentos certas atividades são realizadas
simultaneamente. De realçar que no planeamento encontram-se agendadas reuniões mensais
com os orientadores. Assim, a figura x demonstra, como já referido, toda a estruturação do
planeamento criado para esta dissertação.
Em anexo encontra-se o Diagrama de Gantt (Figura 15), onde é representado
graficamente as atividades do projeto, possibilitando desta forma um ponto de vista, em que, é
mais fácil observar ao longo do tempo as relações e as precedências entre as atividades.
57
4.2 Lista de Riscos
A capacidade de gerir os riscos é um dos elementos mais importantes no planeamento de
um projeto com elevada complexidade, sendo que, pela identificação previa dos riscos
consegue-se prevenir da melhor forma problemas no desenvolvimento do projeto. Desta forma
foi criada uma tabela onde estão não só identificados os riscos associados ao projeto, mas
também, a sua probabilidade, impacto e seriedade. Para além disso, são definidas ações a tomar
para atenuar os riscos. O impacto e a probabilidade são representados numa escala de 1 a 5 (o
1 corresponde ao mínimo e o 5 corresponde ao máximo). Por sua vez, a seriedade é calculada
através da multiplicação do nível impacto com o nível de probabilidade. A tabela é organizada
por ordem decrescente de seriedade.
Tabela 1 - Lista de Riscos
Risco Probabilidade
[1 – 5]
Impacto
[1– 5]
Seriedade
[P*I]
Ação Atenuante
Complexidade
elevada do Projeto
3
5
15
Replanear
tarefas;
Aumentar tempo
das tarefas;
Auxilio dos
orientadores.
Complexidade
elevada das
Ferramentas
3
5
15
Consulta de
tutoriais e
documentação.
Perda de
informação do
Projeto
1
4
4
Backups
regulares sobre o
trabalho
desenvolvido.
58
Avaria da Máquina
1
4
4
Utilizar ou
comprar outra
máquina;
Recuperar os
dados pelas
cópias de
segurança.
Má Gestão do
Projeto
3
3
9
Utilizar as
ferramentas de
gestão de
projeto; Ajustar
planeamento do
projeto.
Atraso nos Prazos
de Entrega
2
4
8
Adiar prazos;
Ajustar o plano
do projeto.
Fraca Qualidade dos
Dados
2
4
8
Analisar
identificar os
erros dos dados;
Auxilio dos
orientadores para
melhor
compreensão dos
dados.
Falta de
Disponibilidade
Entre Aluno e
Orientadores
2
2
4
Agendar
reuniões;
Contacto regular
entre as partes
interessadas.
59
Má Interpretação
dos Requisitos e
Objetivos Esperados
4
3
12
Agendar reunião
com os
orientadores para
esclarecer os
requisitos e
objetivos.
Incapacidade de
atingir os
Resultados
Esperados
3
4
12
Rever e a
adequar os
resultados
esperado com os
orientadores.
61
BIBLIOGRAFIA
Abreu, A. S., Pereira, M. C. R., Soares, M. T. P., et al. (1997). Saúde. Disponível em:
http://portal.mec.gov.br/seb/arquivos/pdf/livro092.pdf
Adnan, M. H. M., Husain, W., & Rashid, N. A. (2012). Data Mining for Medical Systems: A
Review. Disponível em:
https://www.researchgate.net/publication/271366181_Data_Mining_for_Medical_Systems_A
_Review
Alapont, J., Bella, A., Ferri, C., et al. (2005). Specialised Tools for Automating Data Mining
for Hospital Management.
Alves, D. S. (2015). Saúde em Portugal: Estudo das Urgências Hospitalares através do Data
Mining. Universidade Nova de Lisboa.
Antunes, C. M., & Oliveira, A. L. (2001). Temporal Data Mining: an overview.
Arbix, G., Salerno, M. S., Toledo, D., et al. (2010). Inovação Estratégias de sete países.
Disponível em: http://www.iea.usp.br/publicacoes/textos/inovacaoestrategiasdesetepaises.pdf
Bellazi, R., & Zupan, B. (2006). Predictive data mining in clinical medicine: Current issues and
guidelines.
Boruchovitch, E., & Mednick, B. R. (2002). The meaning of health and illness: some
considerations for health psychology. Disponível em:
http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1413-82712002000200006
Bose, R. (2002). Knowledge management-enabled health care management
systems:capabilities, infrastructure, and decision-support. Disponível em:
https://pdfs.semanticscholar.org/4798/162287fb2b56c0ff25c91e8b4da9a90d4ce7.pdf
Chapman, P., Clinton, J., Kerber, R., et al. (2000). CRISP-DM 1.0 Step-by-Step Data Mining
Guide.
Cios, K. J., & Moore, G. W. (2002). Uniqueness of medical data mining. Disponível em:
https://www.eecis.udel.edu/~shatkay/Course/papers/USupportUniquenessofMedicalDataMini
ng.pdf
Dua, S., & Du, X. (2011). Data Mining and Machine Learning in Cybersecurity.
Esling, P., & Agon, C. (2012). Time series data mining.
Everitt, B. S., & Hothorn, T. (2006). A Handbook of Statistical Analyses Using R.
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge
Discovery.
Friedman, J. (1997). Data Mining and Statistics: What's the Connection?.
62
Gago, P., Santos, M. F., Silva, Á., et al. (2006). INTCare: a Knowledge Discovery Based
Intelligent Decision Support System for Intensive Care Medicine.
Gantz, J., & Reinsel, D. (2012). THE DIGITAL UNIVERSE IN 2020: Big Data,Bigger Digital
Shadow s, and Biggest Grow th in the Far East. Disponível em:
https://www.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf
Goebel, M., & Gruenwald, L. (1999). A Survey Of Data Mining And Knowledge Discovery
Software Tools.
Griffin, D. (2006). Hospitals: What They are and how They Work. Jones and Bartlett.
Guiza, F., Fierens, D., Ramon, J., et al. (2006). Predictive Data Mining in Intensive Care.
Disponível em:
https://lirias.kuleuven.be/bitstream/123456789/167063/1/GuizaBenelearn06.pdf
Han, J., & Kamber, M. (2000). Data Mining: Concepts and Techniques.
Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques (3rd Ed.).
Hand, D. J., Mannila, H., & Smyth, P. (2001). Principles of Data Mining.
Jain, A. K., & Dubes, R. C. (1988). Algorithms for clustering.
KDnuggets. (2016). R, Python Duel As Top Analytics, Data Science software – KDnuggets
2016 Software Poll Results. Disponível em: https://www.kdnuggets.com/2016/06/r-python-
top-analytics-data-mining-data-science-software.html
Koh, H. C., & Tan, G. (2005). Data mining applications in healthcare. Journal of Healthcare
Information Management. Disponível em:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.92.3184&rep=rep1&type=pdf
Lameirão, S. (2007). Gestão Hospitalar e o uso dos Sistemas de Informação: Aplicação ao
CHVR-PR. Universidade de Trás-os-Montes e Alto Douro.
Laranjeiro, A. (2017). Big Data: O grande desafio é "extrair valor" dos dados. Disponível em:
http://www.jornaldenegocios.pt/negocios-iniciativas/portugal-digital-awards/detalhe/big-data-
o-grande-desafio-e-extrair-valor-dos-dados
Laxman, S., & Sastry, P. S. (2006). A survey of temporal data mining.
Maimon, O., & Rokach, L. (2010). Introduction to Knowledge Discovery and Data Mining. In
Data Mining and Knowledge Discovery Handbook (2nd Ed.).
Marin, H. F., & Galvão, N. D. (2008). Técnica de mineração de dados: uma revisão da literatura.
Mariote, L. E. (2008). Mineração de Séries Temporais de Sensores. Disponível em:
http://repositorio.unicamp.br/jspui/bitstream/REPOSIP/276076/1/Mariote_LeonardoElias_M.
Milovic, B, & Milovic, M. (2012). Prediction and Decision Making in Health Care using Data
Mining.
63
Muniz, V. E. (2018). Data Mining: conceitos e casos de uso na área da saúde. Disponível em:
https://www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945
Oliveira, P. C. (2007). Séries Temporais: Analisar o Passado, Predizer o Futuro.
Paiva, J. A., Fernandes, A., Granja, C., et al. (2017). Rede Nacional de Especialidade Hospitalar
e de Referenciação: Medicina Intensiva.
Peffersa, K., Rothenbergerc, M. A., Chatterjeed, S., & Tuunanenb, T. (2007). A Design Science
Research Methodology for Information Systems Research.
Peixoto, R. (2015). Pervasive Data Mining Engine. Universidade do Minho.
Peixoto, R., Portela, F., & Santos, M. S. (2015). Towards a Pervasive Data Mining Engine -
Architecture overview.
Pereira, J. (2005). Modelos de Data Mining para Multi-Previsão: Aplicação à Medicina
Intensiva.
Portela, F., Santos, M. F., Silva. Á., et al. (2013). Data Mining for Real-Time Intelligent
Decision Support System in Intensive Care Medicine.
Portela, F., Santos, M. F., Silva. Á., et al. (2015). Towards Pervasive and Intelligent Decision
Support in Intensive Medicine – A Data Stream Mining Approach.
Ratanamahatana, C. A., Lin, J., Gunopulos, D., & Keogh, E. (2009). MINING TIME SERIES
DATA.
Reiser, S. J. (1981). Medicine and the Reign of Technology.
R-Project (2018). Disponível em: https://www.r-project.org/about.html
Saha, D., & Mukherjee, A. (2003). Pervasive computing: a paradigm for the 21st century.
Santos, M. F., & Azevedo, C. (2005). Data Mining Descoberta de conhecimento em base de
dados.
Santos, M. F., Portela, F., & Vilas-Boas, M. (2011). INTCARE : multi-agent approach for real-
time intelligent decision support in intensive medicine.
Satyanarayanan, M. (2001). Pervasive computing: Vision and challenges.
Soni, J., Ansari, U., Sharma, D., et al. (2011). Predictive Data Mining for Medical Diagnosis:
An Overview of Heart Disease Prediction. Diponível em:
https://pdfs.semanticscholar.org/fbd6/5a18f6653b56138cd5196d20e2f39de189e3.pdf
Souza, E. F. M, Peternelli, L. A., & Mello, M. P. (2007). Software Livre R: aplicação estatística.
Srinivas, K., Rani, B. K., & Govrdhan, A. (2010). Applications of Data Mining Techniques in
Healthcare and Prediction of Heart Attacks. Disponível em:
http://www.enggjournals.com/ijcse/doc/IJCSE10-02-02-25.pdf
64
Turban, E., Sharda, R., & Delen, D. (2011). Decision Support and Business Intelligence
Systems (9th Ed.).
Vance, A. (2009). Data Analysts Captivated by R’s Power. Disponível em:
http://www.nytimes.com/2009/01/07/technology/business-computing/07program.html
Venables, W. N., & Smith, D. M. (2017). An Introduction to R. R. Gentleman & R.
Weiser, M. (1991). The computer for the 21st century.
Weiss, G., & Davison, B. (2010). Data Mining. To appear in the Handbook of Technology
Management, H. Bidgoli (Ed.).
Yoo, I., Alafaireet, P., Marinov, M., et al. (2011). Data Mining in Healthcare and Biomedicine:
A Survey of the Literature. Disponível em: https://link.springer.com/article/10.1007/s10916-
011-9710-5
Zamir, O., & Etzioni, O. (1998). Web Document Clustering: A Feasibility Demonstration.