Post on 22-Aug-2021
UNIVERSIDADE FEDERAL FLUMINENSE
JOÃO GUERRA DUVAL KOBLER CORRÊA
Big Data
Uma contribuição metodológica para estudo de Tendências,
Impactos e Respostas
Niterói
2017
JOÃO GUERRA DUVAL KOBLER CORRÊA
Big Data: Uma contribuição metodológica para estudo de
Tendências, Impactos e Respostas
Trabalho de Conclusão de Curso
submetido ao Curso de Tecnologia em
Sistemas de Computação da Universidade
Federal Fluminense como requisito parcial
para obtenção do título de Tecnólogo em
Sistemas de Computação.
Orientador: Julliany Sales Brandão
NITERÓI
2017
Ficha catalográfica automática - SDC/BEEGerada com informações fornecidas pelo autor
Bibliotecária responsável: Fabiana Menezes Santos da Silva - CRB7/5274
C824b Corrêa, João Guerra Duval Kobler Big Data : uma contribuição metodológica para estudo detendências, impactos e respostas / João Guerra Duval KoblerCorrêa ; Julliany Sales Brandão, orientadora. Niterói, 2017. 55 f.
Trabalho de Conclusão de Curso (Graduação em Ciência daComputação)-Universidade Federal Fluminense, Instituto deComputação, Niterói, 2017.
1. Planejamento estratégico. 2. Inovação tecnológica. 3.Rede social. 4. Marketing digital. 5. Produção intelectual.I. Brandão, Julliany Sales, orientadora. II. UniversidadeFederal Fluminense. Instituto de Computação. III. Título.
CDD -
JOÃO GUERRA DUVAL KOBLER CORRÊA
Big Data: Uma contribuição metodológica para estudo de
Tendências, Impactos e Respostas.
Trabalho de Conclusão de Curso
submetido ao Curso de Tecnologia em
Sistemas de Computação da Universidade
Federal Fluminense como requisito parcial
para obtenção do título de Tecnólogo em
Sistemas de Computação.
Niterói, ___ de _______________ de 2017.
Banca Examinadora:
_________________________________________
Profa Julliany Sales Brandão,
Centro Federal de Educação Tecnológica Celso Suckow da Fonseca – CEFET/RJ
_________________________________________
Prof Felipe Pereira do Carmo,
Instituto Federal Fluminense - IFF
Dedico este trabalho ao meu pai, meus irmãos
ao meu estimado filho.
AGRADECIMENTOS
A todos que sempre me ajudaram a entender o
mundo de forma holística e proporcionar minha
caminhada à luz da ciência e da razão.
A todos os meus familiares.
E em especial aos amigos Guilherme Neves e
Raul Araújo pelas orientações.
“O futuro dependerá daquilo que fazemos no
presente”.
Mahatma Gandhi
RESUMO
Big Data é uma tecnologia que incorpora novos conceitos no armazenamento e tratamento de dados e está inovando processos de negócio e o relacionamento social. Afeta uma ampla gama de atividades e servem como aceleradores para novas tecnologias gerando profundas alterações na própria organização social. O presente estudo procura demonstrar mediante as tendências e os respectivos Impactos. Utilização a metodologia TIRPE usada em planejamento estratégico que se mostra adequada à análise de inovações tecnológicas prospectando tendências e identificando resposta e riscos, e procura contribuir à implantação de projetos Big Data. Mostra que as incertezas face as mudanças tecnológicas resultantes das aplicações do Big Data que geram riscos positivos (oportunidades) e negativos. Mostra que é necessário estudar e avaliar as tecnologias quantos aos seus impactos na sociedade.
Palavras-chaves: Big Data, TIR Planejamento Estratégico, Inovação tecnológica,
Redes Sociais, Marketing Digital.
ABSTRACT
Big Data is a technology that incorporates new concepts in data storage and processing and is innovating business processes and social relationships. It affects a wide range of activities and serves as accelerators for new technologies leading to profound changes in one's own social organization. The present study seeks to demonstrate through trends and their impacts. Using the TIRPE methodology used in strategic planning that is appropriate to the analysis of technological innovations, prospecting trends and identifying response and risks, and seeks to contribute to the implementation of Big Data projects. It shows that uncertainties in the face of the technological changes resulting from Big Data applications that generate positive (opportunities) and negative risks. It shows that it is necessary to study and evaluate technologies as to their impacts on society.
Key words: Big Data, Tendencies Strategic Planning, Technologic innovation, Social
network, Marketing Digital.
LISTA DE ILUSTRAÇÕES
Figura 1 - Arquitetura GFS ...................................................................................... 23
Figura 2 - IBM InfoSphere® Streams ..................................................................... 27
Figura 3 - Monitoramento IoT pelo IBM Watson ................................................... 30
Figura 4 – Visualização de dados coletados em tempo real. (a) Hotspots na
cidade monitorando número de veículos (LIU, et al., 2011), e (b) Riscos de
acidente por categoria de carga nos arredores do porto de Roterdã.
(SCHEEPENS, et al., 2011) citado em (RAJ & VANGA, 2015) ................................ 32
Figura 5 – Fluxo de análise de dados de Riscos na Figura 4b ............................ 32
Figura 6 - 3 V's do Big Data .................................................................................... 44
Figura 7a - Interconexões de novas tecnologias .................................................. 46
Figura 7b - Interconexões de novas tecnologias ................................................. 46
LISTA DE TABELAS
Tabela 1 Frequência de dados IoT coletados em ambiente urbano.................... 31
Tabela 2 – Tweeting sobre o BREXIT ..................................................................... 36
Tabela 3 - Volume de dados gerados pelas principais redes sociais. ................ 39
Tabela 4 – Indicadores do FaceBook. .................................................................... 39
Tabela 5 – Indicadores do Pinterest....................................................................... 41
Tabela 6 – 20 maiores fornecedores de Big Data 2013. ....................................... 42
LISTA DE GRÁFICOS
Gráfico 1 – Paisagem de fornecedores Big Data .................................................. 43
Gráfico 2 – Diagrama de aprendizado de máquina .............................................. 47
LISTA DE ABREVIATURAS E SIGLAS
API - Interface de programação de aplicativo (application programming interface)
B2B – modelo de aplicações de negócio-negócio (Business to Business)
BD – Banco de Dados
Bots - são contas de mídia social automatizados que podem responder sobre qualquer
assunto. Alguns também estão programados com respostas
automatizadas.
CAT – Método de análise e comparação de imagens, em fatias ou pedaços, usado em
medicina e tratamento de imagens de satélite.
CRM – Sistema de Gerenciamento de Relacionamento com Clientes.
Data Lake - Repositório para todos os tipos de dados.
DAU - Daily active users (Usuários ativos por dia)
DoS – denial-of-service – alvo de ataques aos servidores de Domínios conhecidos
como ataques DDoS (Distributed DoS attack).
eGov - Governo eletrônico
ERPs – Sistema de gestão integrado (Enterprise resource planning)
GB/s – GigaBytes por segundo
GFS - Google File System
IoT – Internet of Things (Internet das Coisas).
MOBILE – Tecnologia baseada em equipamentos Smartphones.
NDFS – Nutch Distributed File System
NoSQL - Not only SQL (Não apenas SQL).
OLAP – Processamento analítico online (Online analytical processing), também
conhecido como cubo.
SaS - Software as Service (Software como Serviço)
SGBD e RDBMS – Sistemas Gerenciadores de Bancos de Dados (relational database
management system)
SQL – Structured Query Language - Linguagem de consulta estruturada
TIC – Tecnologia da Informação e comunicação
TIRPE – Tendências, Impactos e Resposta no Planejamento Estratégico
Trolls – Atividades intimidadoras nas mídias sociais, de bulling e antissociais.
UDF – Função definida pelo usuário usada em SQL e em outras linguagens
interativas.
WEB Services – Serviços para tratamento e acesso a dados em camadas WEB
facilitando o desenvolvimento de interfaces entre aplicações,
SUMÁRIO
1 INTRODUÇÃO: .................................................................................................. 17
2 DESAFIOS DA TECNOLOGIA BIG DATA .......................................................... 20
3 NOVAS TECNOLOGIAS, TENDÊNCIAS E FATORES DE MERCADO ............. 28
4 O BIG DATA: ASPECTOS DE SEGURANÇA E A INDIVIDUALIDADE .............. 34
5 AS REDES SOCIAIS, O MARKETING DE RELACIONAMENTO E MARKETING
DIGITAL ..................................................................................................................... 38
6 AVALIAÇÃO DE IMPACTOS, TENDÊNCIAS E RESPOSTAS SOB A ÓTICA DE
GESTÃO DE TECNOLOGIA ..................................................................................... 44
7 CONCLUSÃO: ................................................................................................... 49
8 Referências ........................................................................................................ 51
17
1 INTRODUÇÃO
Este trabalho aborda de forma sistêmica as tendências, impactos e
respostas da tecnologia Big Data. Para Mayer-Schönberger e Cukier:
Não existe uma definição rigorosa de Big Data. Inicialmente, a ideia era que o volume de informações tinha crescido de forma tão grande que a quantidade examinada já não se enquadra na memória que os computadores usam para o processamento, então os engenheiros precisavam renovar as ferramentas que usavam para analisar tudo. Essa é a origem de novas tecnologias de processamento, como Mapreduce do Google e seu equivalente de código aberto, Hadoop, que saiu do Yahoo. Isso permite que um gerencie quantidades maiores de dados do que antes, e os Big Data - não precisam ser colocados em fileiras arrumadas ou tabelas clássicas de banco de dados. Outras tecnologias de trituração de dados (data-crunching) que dispensam as hierarquias rígidas e a homogeneidade de outrora também estão no horizonte. Ao mesmo tempo, porque as empresas de internet poderiam coletar vastas e preciosos dados e tiveram um incansável incentivo financeiro para dar sentido aos mesmos, elas se tornaram as principais usuárias das mais recentes tecnologias de processamento, substituindo empresas off-line que tiveram, em alguns casos, décadas de muita experiência [1].
E segue mais adiante:
“Big Data referem-se a coisas que podem ser feitas em grande escala, que não podem ser feitas em uma menor, para extrair novas ideias ou criar novas formas de valor, de formas que alteram os mercados, as organizações, a relação entre cidadãos e governos, e muito mais.” [1]
Como as inovações tecnológicas (tendências) podem impactar
(positivamente e negativamente) e quais respostas devem ser obtidas para aprimorar
o planejamento na área de Big Data? Com a ótica e avaliação de riscos, como o Big
Data poderá afetar a sociedade, o desenvolvimento tecnológico e o indivíduo?
As inovações tecnológicas no campo do conhecimento e da tecnologia da informação
ampliam os horizontes do armazenamento de conteúdos de dados e informação.
Novas aplicações permitem incorporar os mais diferentes tipos de dados (estruturados
e não estruturados) às novas bases de conhecimento, chamadas de Big Data. Com
as novas tecnologias, Informações coletadas online e podem ser tratadas em tempo
real, ser hierarquizadas e clusterizadas e formar conteúdo que pode ser analisado
18
com ferramentas de data mining como o WEKA [2]. As aplicações de Big Data
influenciam diversas áreas da organização social: afeta a privacidade, a economia, as
formas de comercialização de produtos, a concepção dos mesmos e inclusive o
avanço científico, permitido pelos seus insights.
Novas tecnologias como IoT (Internet das Coisas), tecnologias MOBILE, o
processamento e armazenamento em Cloud Computing, os avanços na área de
telecomunicações no campo de infraestrutura promovem o crescimento dos volumes
de informação. Ainda nesse contexto surgem as Redes Sociais como elemento de
comunicação entre as pessoas com diferentes finalidades e nos mais diversos
ambientes (casa, trabalho, centros de pesquisa, marketing). Tudo isso torna
incomensurável o volume de dados produzidos, tornando difícil inclusive sua previsão.
O reconhecimento cognitivo da informação eleva um patamar na análise e
interpretação dos dados nos ambientes Big Data. E o presente trabalho busca
responder aos questionamentos sobre quais as tendências, possíveis impactos e
resposta devem ser dadas a esta nova realidade.
O objetivo deste trabalho é oferecer uma breve contribuição na revisão e prospecção
de metodologias de avaliação de impactos por adoção de novas tecnologias e
respostas face aos riscos (oportunidades e ameaças) em projetos de ambientes
computacionais (Infraestrutura, Sistemas e Dados).
Sendo assim o objetivo geral é prospectar tendências tecnológicas geradas
pelo Big Data. Entre os objetivos específicos destacam-se avaliar a metodologia TIR
de análise de riscos (oportunidades e ameaças) no monitoramento do ambiente
interno e externo que venha a prospectar cenários e eventos potenciais que possam
diretamente ou indiretamente interferir e afetar projetos Big Data.
A metodologia utilizada neste trabalho é uma pesquisa bibliográfica
destacando as tecnologias de Big Data e inovações que possam afetar utilizando uma
análise de Tendências, Impactos e Respostas utilizadas em planejamento estratégico
(TIRPE). Quanto aos fins a pesquisa será Qualitativa, Exploratória para compreensão
do ambiente e dos efeitos desta nova tecnologia; quanto aos meios a pesquisa é
descritiva, ex post facto, pelo surgimento da tecnologia Big Data identificar como ela
potencializa novas tecnologias: tendências, impactos (riscos) e respostas; é
19
essencialmente bibliográfica, ou seja, elaborada a partir de materiais publicados,
como livros, artigos, periódicos, e sites na Internet.
O desenvolvimento do trabalho está dividido em cinco Capítulos (do 2 ao
6). O Capítulo 2 aborda aspectos da tecnologia Big Data seu histórico e evolução; o
Capítulo 3 apresenta como a sociedade tem sido afetada por esta tecnologia; o
Capítulo 4 aborda temas polêmicos e delicados da segurança da informação e do
direito a individualidade; o Capítulo 5 traz os principais produtores e consumidores de
dados, as redes sociais e o marketing digital. No Capítulo 6 é apresentado uma
prospecção de tendências, impactos e respostas da tecnologia Big Data usando a
metodologia TIRPE de forma a entender o processo de mudanças em curso.
20
2 DESAFIOS DA TECNOLOGIA BIG DATA: HISTÓRICO E
EVOLUÇÃO
Ralph Kimball [3], numa análise da aplicabilidade dos tradicionais Sistemas
Gerenciadores de Bancos de Dados - SGBD, do armazenamento e tratamento de
grandes dados em diversos casos de uso são por ele exemplificados como:
• Classificação da pesquisa
• Controle de anúncios
• Localização e acompanhamento de proximidade
• Descoberta de fator causal
• CRM social
• Documentar testes de similaridade
• Análise de genômica
• Coorte de descoberta de grupo
• Status de aeronave em voo
• Medidores inteligentes de utilidade
• Elaboração de sensores
• Comparação de imagens de satélite
• Comparação de varredura CAT
• Detecção e intervenção de fraudes em contas financeiras
• Detecção e intervenção do hacking nos sistemas de informática
• Rastreamento de gesto de jogo online
• Grande análise de dados científicos
• Análise de par nome-valor genérico
• Análise de risco de crédito e subscrição de apólices de seguros
• Análise da migração de clientes
Conclui “RDBMS’s convencionais e SQL simplesmente não podem
armazenar ou analisar a ampla gama de casos de uso. ”, e elenca premissas e
requisitos: Dimensionamento para suportar facilmente petabytes (milhares de
terabytes) de dados. Estar distribuído entre milhares de processadores,
potencialmente dispersos geograficamente e potencialmente heterogêneos.
Armazenar os dados capturados nos formatos originais enquanto e suportar
aplicações de consulta e análise sem converter ou mover os dados. Tempo de
resposta de sub segundos para consultas SQL padrão altamente restringidas.
Incorporação de funções aleatórias e complexas definidas pelo usuário (UDFs) dentro
21
de solicitações de processamento. Implementação de UDFs em uma ampla variedade
de linguagens de programação padrões da indústria. Montagem de extensas
bibliotecas de UDF reutilizáveis que permeiem a maioria ou todos os casos de uso.
Executar UDFs como uma relação que escaneie um conjunto de dados agrupados em
blocos de petabytes em alguns minutos. Suportar uma ampla variedade de tipos de
dados e ampliado para incluir imagens, formas de onda, estruturas de dados
arbitrariamente hierárquicas e coleções de pares nome-valor. Apto ao Carregamento
de dados para análise, a taxas muito elevadas, de pelo menos, gigabytes por segundo.
Integração de dados de várias fontes durante o processo de carga a taxas muito altas
(GB/s). Carregar dados no BD antes de declarar ou descobrir sua estrutura. Execução
de determinadas consultas analíticas de streaming em tempo real sobre a carga de
dados de entrada. Atualização de dados locais na carga a altas velocidades. Unir uma
tabela de dimensão de bilhões de linhas a uma tabela de fatos de trilhões de linhas
sem pré-clusterizar a tabela de dimensão com a tabela de fatos. Programação e
execução de complexos fluxos de trabalho multi nós. Ser configurado sem estar
sujeito a um único ponto de falha. Possuir failover e continuação de processo quando
os nós de processamento falham. Kimball afirma que deve suportar situações
extremas e diversas, milhares de usuários e programas dispersos geograficamente,
on-line executando solicitações e consultas as mais variadas. E fala dos novos
ambientes: “Em resposta a esses desafios, surgiram duas arquiteturas: RDBMS’s
ampliado e MapReduce / Hadoop. ”, que vão além dos Data warehouse dotados de
ferramentas convencionais (DBMS OLAP).
Os RDBMS armazenam os dados na forma de tabelas para representar
atributos de objetos do mundo real (tamanho, peso, quantidade, endereço) e dados
subjetivos (data e hora, descrição, cor, preferencias), e usam recursos de chave
primaria para estabelecer relacionamento/dependências entre as tabelas
(composição, agregação) e representar coisas e processos referenciando dados de
outras tabelas com o recurso de chaves estrangeiras. Esses dados poder sofrer
indexação por atributos e por conteúdo facilitando a localização de informações,
usando recursos como por exemplo clusterização.
22
O RDBMS ampliado com capacidade de recepcionar outros tipos de dados
como XML, estruturas orientadas a objetos e documentos, somados a sua estrutura
de tabelas e recursos relacionais.
As ferramentas de SQL dos RDBMS, baseadas em processamento de
tabelas e seus atributos, não são adequadas para pesquisas mais extensas.
Nesta exposição entende-se que os dados estão em um único banco de
dados e devem ser pré-processados e os dados não estão disponíveis como na sua
forma original, e nem mesmo em tempo real.
Quando se fala de evolução em Tecnologia da Informação, duas áreas
ficam em evidência: hardware e software (sistemas operacionais e aplicativos). O Big
Data surge como um conjunto de tecnologias (Hardware e Software) capazes de
romper estes limites como será visto a seguir. Porém esta tecnologia tem
essencialmente como suporte uma infraestrutura global e integrada: a parte de
comunicação assume papel fundamental na coleta de dados (web, mobile) e no
compartilhamento dos mesmos (Cloud computing) a partir de estruturas de
armazenamento distribuídas (dos Data Warehouses aos Data Lakes). Novas técnicas
de pesquisa de dados também devem ser consideradas como fortes impulsionadora
(do Data minnig ao Data Analitics).
Algumas pesquisas datam de 2003, incentivadas pelo crescente ambiente
de internet, como, por exemplo, as realizadas pela Google sobre um ambiente
distribuído chamado “The Google File System” [4]. A Figura 1, extraída do artigo
original, ilustra o conceito de um ambiente distribuído para armazenamento de
grandes volumes de dados. O chunk index é um mapeamento de um arquivo em
pedaços (chunks) de tamanho fixo. Os pedaços, armazenados em réplicas, são
controlados pelo “mestre” (GFS master). O cliente (GFS client) envia uma requisição
para um arquivo e tem como retorno a localização da réplica disponível mais próxima.
Usando esta informação acessa o referido gerenciador de pedaços (GFS
chunkserver) e tem como retorno os dados (chunk data).
23
Figura 1 - Arquitetura GFS Fonte: (research.google.com/pt-BR//archive/gfs-sosp2003.pdf 2003)
O grande desafio que levou a Google a apostar na criação de um ambiente
robusto foi o grande volume de dados, a escalabilidade e manutenibilidade física e
logica incluindo o suporte a falhas. Em 2003 a empresa contava com 15 mil servidores
e atingiu em 2010 um quantitativo superior a 1 milhão de servidores, segundo o Ph.D.
Hans Vatne Hansen da Universidade de Oslo [5]:
“A arquitetura GFS é baseada no gerenciamento de arquivos divididos em pedaços (Chunk) controlados em dois serviços (em servidores – Chunkservers):
• O primeiro serviço mapeia os “pedaços”, blocos de 64MB, usando um Id
global de 64 bits. Os blocos podem ser alocados em diferentes
servidores físicos e com redundância para tolerância a erros, e são
controlados pelo Chunk Master que através de mensagens de controle
para os Chunk server libera blocos de dados por Streaming aos clientes.
• O segundo serviço é o controle de estado dos blocos.
Para acesso aos dados (file name, chunk index) os clientes consultam o
Chunk master que envia o mapeamento dos blocos a serem solicitados
(chunk handle e byte range) de forma transparente.” [5, p. 15].
Com o avanço das tecnologias distribuídas, de Cloud computing, e das
demandas de Data mining novas exigências surgiam para trabalhar com grandes
bases de dados e principalmente com dados não estruturados. Segundo
“Encyclopaedia of Cloud Computing” [6], Mike Cafarella e Doug Cutting iniciaram
o projeto em 2002 criando o Nutch. Mais tarde, dando origem ao Hadoop.
Em junho de 2003, com objetivo de realizar buscas em milhões de páginas
de internet, foi desenvolvido e testado, um sistema estável, usando processamento
24
multi-máquina nas tarefas de rastreamento e indexação. Mais tarde o projeto Nutch
também implementou as funcionalidades MapReduce e um sistema de arquivos
distribuídos NDFS. As duas funcionalidades foram utilizadas em seu próprio
subprojeto, chamado Hadoop. “
O Hadoop é um poderoso sistema de controle de processamento e
armazenamento distribuído.
O MapReduce é composto de dois processos: um de mapeamento de
truplas de chaves semelhantes e sua localização na estrutura física de dados,
agrupando as chaves em clusteres com redução da quantidade de dados a ser
pesquisado.
Como definição de LOUDON & LAUDON:
“Data warehouse é um banco de dados que armazena dados correntes e históricos de potencial interesse para os tomadores de decisão de toda a empresa. Os dados originam-se de muitos sistemas operacionais centrais, como sistemas de vendas, contas de clientes e manufatura, podendo incluir ainda dados advindos de transações em sites. O data warehouse consolida e padroniza as informações oriundas de diferentes bancos de dados operacionais, de modo que elas possam ser usadas por toda a empresa para análise gerencial e tomada de decisões” [7]
e segue
“... Os dados estão disponíveis a todos para acesso conforme a necessidade, mas não podem ser alterados. Um sistema de data warehouse também oferece uma gama de ferramentas ad hoc e padronizadas, como ferramentas para consulta, ferramentas analíticas e recursos para relatórios gráficos. Muitas empresas usam portais de intranet para disponibilizar as informações do data warehouse a todo o público interno. [7].
A incubadora da Apache (Apache Software Foundation), em janeiro de
2005, incorporou o Nutch tornando um subprojeto do Lucene. Ainda segundo a
Apache Foundation, detentora do projeto, em 2014, “o Nutch passa a incorporar
funcionalidades de rastreamento web em larga escala, com a adoção de uma versão
do Common Crawl”. [8].
O Apache™ Hadoop® é, segundo a Apache Foundation:
“uma biblioteca de software, de código aberto, voltada ao processamento distribuído, em clusters de computadores, de grandes conjuntos de dados, de forma escalonável:
Ele é projetado para ampliar a partir de um único servidor para milhares de máquinas, cada uma oferecendo a computação do armazenamento local. Em vez de confiar em hardware para
25
proporcionar alta disponibilidade, a biblioteca em si é concebida para detectar e tratar falhas na camada de aplicação, de modo a entregar um serviço altamente disponível ...” [8, p. 2].
e ainda segundo a Apache, o projeto inclui os seguintes módulos:
“ • Hadoop Common: Os utilitários comuns aos outros módulos do
Hadoop.
• Hadoop Distributed File System (HDFS ™): Um sistema de arquivos distribuídos que fornece acesso de alto rendimento aos dados do aplicativo.
• Hadoop FIO: Um framework para o trabalho de programação e gerenciamento de recursos de clusteres.
• Hadoop MapReduce: Um sistema baseado em fios para processamento paralelo de grandes conjuntos de dados.
Alguns outros projetos chamam atenção, como o Chukwa ™, que coleta dados para o gerenciamento de grandes sistemas distribuídos. O HBase ™, banco de dados distribuído, escalável, que suporta o armazenamento de dados estruturados com grandes tabelas. O Mahout ™: uma biblioteca de mineração de dados baseada em aprendizado em máquina escalável (colaboração nas áreas de filtragem, agrupamento e classificação) “ [8].
Os ambientes Big Data vão além das infraestruturas dos Data Warehouses.
Por isso, não são considerados uma infraestrutura, e sim uma tecnologia. O Big Data
permite relacionar dados estruturados (Bancos de Dados relacionais) com os mais
diversos tipos de informações (não estruturadas) indo além de recursos e de
estruturas para Data Mining.
O “ecossistema” de Big Data também inclui poderosas ferramentas de
análise preditiva e aplicativos como por exemplo os da área de segurança de dados.
O ecossistema está estruturado em:
• Produtos e Serviços (SaS);
Ofertados por fornecedores divididos em categorias:
• Infraestrutura (Infrastructure);
• Analise de Dados (Analytics);
• Aplicativos (Applications);
• Aplicações de código aberto;
E ainda que as empresas operam fornecendo dados e APIs. [9]
26
Na estruturação dos ambientes de DW o principal elemento era a medição
associada ao escalonamento de eventos (venda, consumo, ...) no tempo ou em algum
dos elementos da estrutura de dados relacionais (quantidade, valor, região, ...) de uma
atividade (marketing, planejamento, ...) em uma organização (empresa, governo, ...)
processadas e agrupadas para análise. No Big Data as informações são coletadas em
tempo real levando em conta o geoposicionamento, o momento (data e hora global),
e origem (usuário, sistema, equipamentos) e informações (dados, arquivos, eventos,
logs, sensores). Sobre coleta de dados em tempo real, um exemplo são os dados e
suas as aplicações no gerenciamento de Smart Cities, segundo Michael Batty:
“Mas somente nos últimos 5, talvez 10 anos, os sensores ‘digitais’ foram incorporados à infraestrutura física que fornece dados para os ambientes de controle nos sistemas baseados em energia, como o tráfego, mas também sistemas baseados em demanda, como viagens, varejo, e outros serviços. Sensores instalados no ambiente físico construído e sensores associados com as pessoas através dos seus dispositivos portáteis, como cartões inteligentes e telefones que são repentinamente complementares uns aos outros ... ” [10].
Toda essa amplitude tem levado empresas como IBM, Google, Amazon,
HP, DELL, Microsoft dentre outras, detentoras de grandes data centers a investir no
Hadoop criando interfaces e soluções como por exemplo: Hadoop-based analytics, o
Streaming analytics (Microsoft Azure) que realiza análises em tempo real para
soluções de IoT e o IBM InfoSphere® Streams. [11]
27
Figura 2 - IBM InfoSphere® Streams Fonte: [11]
O Hadoop foi um marco tecnológico para viabilizar o armazenamento e
processamento de grandes volumes de dados, garantindo o tripé do Big Data:
estabilidade do sistema, velocidade de processamento e quantidade de dados. O
MapReduce permitiu o tratamento das bases agrupando dados em clusteres com
chaves reduzidas. Ambas as tecnologias abriram uma fronteira para nova aplicações
em diversos campos do conhecimento, permitindo a implementação de novas
tecnologias. O que tem revolucionado vários setores da economia como será visto no
próximo capítulo.
28
3 NOVAS TECNOLOGIAS, TENDÊNCIAS E FATORES DE
MERCADO
A tecnologia tem mudado a forma de viver e de se organizar da sociedade
de forma irreversível. Os avanços com a inovação atingem diversas atividades
humanas. A robótica e a automação, a nanotecnologia e os novos materiais, a geração
de energia, as aplicações computacionais, enfim uma serie de tecnologias somadas
tem contribuído para mudar a forma de pensar, trabalhar e se relacionar da sociedade
e das pessoas. No centro de tudo está um número cada vez maior de informações
geradas e processadas. Muitas vezes além do que podiam prever os visionários ou
mesmo os filmes de ficção científica.
Hoje existe um alto grau de produtividade em alguns setores da indústria e
da agricultura decorrentes de processos de automação e da robótica. Nas cidades
surgem os primeiros protótipos de veículos autômatos e o comércio eletrônico avança.
Passa a concorrer com a comunicação e marketing de massa à direcionada ao
indivíduo. Para que tudo isso ocorra grandes volumes de informação são gerados e
processados. Os processos de decisão contam com apoio da inteligência artificial
quando não são geridos exclusivamente pela mesma.
Nas diferentes áreas as novas tecnologias têm feito diferença na redução
de custos e aumento de produtividade.
Na Agricultura
O site da EMBRAPA apresenta estudos para usos de drones na agricultura
de precisão.
“Os sistemas de bordo desenvolvidos para os ‘’ - que combinarão a expertise da Embrapa em agricultura, algoritmos de processamento de imagem ao processador Qualcomm® Snapdragon™ e avançadas tecnologias móveis - têm como missão coletar, processar, analisar e transmitir informações das lavouras em tempo real para os agricultores e agentes ambientais de todo o Brasil. ...” [12].
E segue fazendo referência ao tratamento e análise de dados, o que
pressupõe a formação de bancos de dados, em escala.
29
“Os dados de inteligência serão utilizados para detectar com precisão as deficiências das culturas, ocorrência de pragas, escassez hídrica, déficit de nutrientes e danos ambientais. Estas funcionalidades permitirão que os agricultores tomem medidas precisas para, por exemplo, evitar o uso demasiado de defensivos agrícolas, excesso de fertilização, além de possibilitar a irrigação de campos secos, a fim de reduzir o impacto ambiental e ampliar a produtividade. ” [12]
Quanto a automação no campo, colheitadeiras de soja são guiadas por
GPS, coletam dados e em tempo real analisam e dosam adubagem, e semeadura
com precisão de metros. Com as tecnologias de comunicação dados, enviados por
satélite, são armazenados.
Coleta de dados IoT
Informações coletadas em tempo real como temperatura ambiente são um
exemplo de informações IoT coletadas e compartilhadas em ambiente de Big Data. O
exemplo a seguir mostra uma aplicação de monitoramento em tempo real.
No exemplo ocorre a monitoração de um endereço IP referente a um sensor
de temperatura, registrando os dados da leitura: local, data e hora de um evento. Pode
monitorar inúmeros sensores em uma rede local ou remotamente na internet.
30
Figura 3 - Monitoramento IoT pelo IBM Watson Fonte: [13]
Cidades Inteligentes
Uma das grandes fornecedoras de dados nos Big Data são as cidades
inteligentes que integrada as diferentes fontes de informação (equipamentos urbanos,
controle de transporte urbano e mobilidade, celulares e comunicação, veículos,
empresas, demandas de sistemas online, monitoramento de dados ambientais etc.) e
tem inúmeras aplicações. A Tabela 1 apresenta os fornecedores de dados
frequentemente usados organizados por categoria, as propriedades e as origens
(Representative Datasets)
31
Tabela 1 Frequência de dados IoT coletados em ambiente urbano
Fonte: [14]
Todos esses dados podem conter além de meta dados os mais diferentes atributos,
permitindo relacionar, processar e analisar contextos e fornecer conteúdos para
tomadas de decisão em gestão e planejamento urbano. Dentre as categorias se
destacam os dados de trafego (Traffic Data) que acompanham em tempo real o
posicionamento por GPS de diversos tipos de veículos (carros, trens, barcos, etc.).
Outro importante coletor de dados em tempo real são os sinais de celular que podem
ser monitorados por GPRS, pelas operadoras, mostrando os fluxos de passageiros.
32
Figura 4 – Visualização de dados coletados em tempo real. (a) Hotspots na cidade monitorando
número de veículos [15], e (b) Riscos de acidente por categoria de carga nos arredores do porto
de Roterdã. [16] citado em [11]
O fluxo das pessoas pode ser medido em tempo real, indicando desde a velocidade
de deslocamento, e até o quantitativo estimado. O diagrama abaixo (Figura 5) mostra
o fluxo de processamento de dados coletados: identifica as trajetórias e velocidade
média, segmenta por tipo de transporte (carga, tanque, passageiros) e risco, agrega
tipo e risco de carga, processa os riscos oferecidos a passageiros e faz a
apresentação gráfica no mapa (4b).
Figura 5 – Fluxo de análise de dados de Riscos na Figura 4b
Fonte: [16]
O monitoramento de sistemas de segurança com identificação facial pode, mesmo
sem nenhum aparelho GPS, localizar um indivíduo e correlacionar suas informações
pessoais com bancos de dados acessados pela simples presença no local onde foi
33
realizado o acesso, a exemplo de investigações de fraude em cartões de crédito. A
identificação e monitoramento de veículos por sistemas de segurança e de vigilância
(infrações de transito).
Aplicações industriais
A análise de conformidades/inconformidades em processos industriais a partir de LOG
de equipamentos e as aplicações de IA têm forte tendência com aumento da
automação industrial. Isso também demanda ambientes Big Data e suas ferramentas
de análise (process mining).
No transporte
A indústria de transporte e logística tem investido nos veículos autônomos e tem
projeção de produção industrial dos mesmos. Baseado na coleta de dados em tempo
real compartilham a mesma infraestrutura de Big Data. A Ford anuncia a produção em
escala industrial do carro auto conduzido em 5 anos. O site do Instituto IoT cita a
reportagem da CNN que afirma:
“... Os carros autodirigidos foram de longe o produto de consumo de IoT mais promissor do ano, com grandes investimentos da gigante automobilística Ford e da menor e de alta tecnologia Tesla (entre outros) no desenvolvimento de veículos autônomos. A Ford anunciou em agosto sua intenção de ter uma frota de quase 100 carros totalmente autônomos (táxis autodirigidos) na estrada até 2018 com um olho para a produção em massa em 2021. “ [17]
Isso certamente impactará todo o mercado de transporte e de logística nos próximos
anos. O produto da Ford indica uma tendência de disponibilizar “produtos como
serviço” – PaS, onde se paga pelo uso sem a aquisição (propriedade).
No entanto as novas tecnologias afetam a maneira como a sociedade se organiza,
afeta diretamente a vida das pessoas e o modo de como elas se relacionam, e também
disponibiliza informações sobre as mesmas que são coletadas involuntariamente. O
próximo capítulo aborda os aspectos sociais ligados ao conteúdo de dados coletados.
34
4 O BIG DATA: ASPECTOS DE SEGURANÇA E A
INDIVIDUALIDADE
A capacidade de processamento do ambiente Big Data tem permitido a coleta de
dados em tempo real que se dá por escuta de dados que trafegam na internet, em
especial nas redes sociais e em sistemas de telefonia.
E artigo intitulado “Big Data e o Futuro da Privacidade” afirma:
“Big Data só se tornou possível nos últimos anos com os avanços na coleta, armazenamento, e interpretação de dados. O processo de datafication permite a reinterpretação de informações em conjuntos utilizáveis. A coleta de dados - desde da medicina, das instituições financeiras, das redes sociais, e de muitos outros campos - explodiu na última década. ...” [18]
E confronta a privacidade aos benefícios:
“Embora existam muitos benefícios para o crescimento análise de Big Data, os métodos tradicionais de proteção à privacidade, muitas vezes falham. Muitas noções de privacidade contar com o consentimento informado para a divulgação e utilização de dados privados de um indivíduo. No entanto, Big Data significa que os dados são um recurso que pode ser utilizado e reutilizado, muitas vezes de maneiras que eram inconcebíveis no momento em que os dados foram coletados. O anonimato também é corrompido em um grande paradigma de dados. Mesmo que cada peça individual de informação seja despojada de dados pessoais, as relações entre as peças individuais podem revelar a identidade do indivíduo. ” [18]
É um paradoxo considerar que a liberdade do conhecimento tem um custo a liberdade
da privacidade das pessoas. A privacidade é bastante preocupante, tendo em vista
que a inovação e as facilidades da tecnologia tem um outro lado da moeda, ao mesmo
tempo que concede acesso a informação, dados são coletados sobre o perfil de cada
usuário, sua localização e outros atributos. Esse tema é claro no trecho
“Estamos construindo uma nova sociedade digital, e os valores que construímos ou deixamos de construir em nossas novas estruturas digitais nos definirão. Criticamente, se não conseguimos equilibrar os valores humanos com os quais nos preocupamos, como privacidade, confidencialidade, transparência, identidade e a livre escolha, com os usos convincentes do Big Data, nossa grande sociedade de dados corre o risco de abandonar esses valores por causa da Inovação e conveniência. ” [19]
Em nome da segurança Global, informações são coletadas e analisadas. Às
informações pessoais deve ser dada privacidade segundo a maioria das Constituições
35
determinam. Mas quando o estado, em nome da segurança, pode intervir e controlar
os direitos individuais e o livre acesso a informação, que foram conquistados neste
novo milênio, a privacidade fica comprometida. Esta quebra de privacidade também
afeta o setor privado de saúde. A conexão de dados de diferentes fontes, como por
exemplo o estilo de vida ou o histórico de compra de medicamentos em farmácias
conveniadas aos planos de saúde pode expor a privacidade de seus clientes.
Os planos de saúde, semelhante as regras válidas para contratação de seguros de
saúde em vários países, exigem de um indivíduo permite acesso da seguradora ao
seu histórico médico que por presunção pode alterar o “tratamento” dado a este, face
o mesmo pertencer a um grupo de indivíduos classificados por seus históricos, na
contratação de um seguro. O artigo citado abaixo trata a questão:
"Subscrição é o processo pelo qual as seguradoras escolhem quem irão segurar e sob que termos: I - regras para, ou determinação de elegibilidade (incluindo inscrição e elegibilidade continuada) para benefícios sob qual política; II - o cálculo dos valores dos prêmios ou contribuições no âmbito da apólice; III - a aplicação de qualquer condição pré-existente de exclusão sob respaldo da política de seguro adotada; e IV - outras atividades relacionadas com a criação, renovação ou reposição de um contrato de seguro de saúde ou benefícios de saúde. ... ” [20]
Neste caso isso só ocorre se a legislação local assim o determinar. Mas com os dados
registrados nos Big Data as restrições podem ser severas e favorecer deslealmente
as seguradoras que detêm acesso as ferramentas de análise e criação de regras para
tal.
a) A Privacidade em Risco
Outros dados pessoais, opiniões, e tudo que se fizer poderá ser rastreado, inclusive
as opiniões políticas e temas sociais.
As ferramentas de análise que tem objetivo de predição e presunção são perigosas
se aplicadas a controles sociais, pois podem ameaçar a democracia e sociedade livre,
quando utilizadas com este objetivo por governos e empresas.
“A quantidade de dados gerados deverá duplicar a cada dois anos, de 2500 exabytes em 2012 para 40.000 exabytes em 2020. As questões de segurança e privacidade são ampliadas pelo volume, variedade e velocidade do Big Data. Infraestruturas em nuvem de grande escala, diversidade de fontes de dados e formatos, a natureza de streaming de aquisição de dados e o alto volume de migração (de dados) entre as nuvens criam vulnerabilidades de segurança impares. ” [21]
36
Este ponto deve ser uma preocupação a exemplo do caso Snowden onde tais
recursos foram utilizados de forma indiscriminada para espionar e/ou desestabilizar
governos. Da mesma forma podem atender a interesses econômicos estratégicos e
geopolíticos. [22]
A espionagem hoje passa pelos hubs de comunicação de dados e áudio/imagens.
Coloca o setor de telecomunicações (incluindo internet) junto a outros setores
estratégicos como o de energia.
b) Falsidade e interferência no anonimato
A proliferação de trolls, bots e perfis falsos tem crescido nas redes sociais e estiveram
presentes em momentos como a Primavera Árabe, #Ferguson, #Baltimore, #Nisman
e #Ayotzinapa. De alguma forma parecem ser algum tipo de terrorismo digital e podem
da mesma forma que a mídia tradicional, porém anonimamente, influenciar a opinião
pública.
Segundo publicação no THE WASHINGTON POST os bots foram usados no plebiscito
sobre a saída da Grã-Bretanha da União Europeia - BREXIT [23]
Tabela 2 – Tweeting sobre o BREXIT
Faixas -> 0 – 100.000 100.001 - 200.000 ]200.001 - 400,000 400,001 - …
Pro-Brexit 662,745
Pro-Brexit (bot) 97,431
Neutro 234,170
Neutro (bot) 13,436
Anti-Brexit 186,279
Anti-Brexit (bot) 28,075 Fonte: [23]
Sobre o livro “Anatomia Político do Twitter na Argentina: Tweeting #Nisman", segundo
o blog do autor [24], afirma que no mesmo transcreve a denúncia de um ex-executivo
do Twitter que num memorando interno declarou: “Eu estou francamente
envergonhado de quão mal tratamos este problema [trolls, falsificações e bots]
durante o meu mandato como chefe de operações [Twitter]". Calvo afirma que
“enquanto as redes sociais democratizaram a divulgação e acesso à informação,
também criaram um universo de patologias de informação” sistematicamente usadas
para interferir em negócios e na política.
37
c) Ataques Cibernéticos
Em artigo no site do Jornal The Guardian destaca:
Em outubro, os hackers aproveitaram uma rede de dispositivos IoT não segura para lançar uma série de ataques, culminando em um ataque DDoS sem precedentes no Dyn (recentemente adquirida pela Oracle). Enquanto no passado, os hackers lançaram ataques DDoS contra a Cientologia e a BBC, desta vez, eles conseguiram derrubar um pedaço da internet. ” [25]
Como o exemplo citado acima, esse tipo de ataque tem se tornado cada vez mais
frequente. Dado ao tamanho da estrutura de rede produzindo dados em tempo real os
problemas de segurança não estão restritos aos perímetros sob o controle de uma
organização. Governos investem em estruturas de guerra (ataque e defesa
cibernéticos).
Ainda abordando o aspecto social, o próximo capítulo aborda outro aspecto: o Big
Data como um grande repositório de dados das redes sociais. Identifica elos e
“sentimentos” e abre uma nova fronteira para o marketing em mídias digitais.
38
5 AS REDES SOCIAIS, O MARKETING DE
RELACIONAMENTO E MARKETING DIGITAL
A Internet foi uma das grandes alavancas das mudanças da era da informação, senão
na produção de informação, certamente no processo de disseminação da mesma. Os
sites, os portais, os blogs e por último as redes sociais. O volume de informação
contido na internet supera toda produção da história da humanidade.
A sociedade redesenhada no mundo do Big Data adota alguns novos conceitos e
ferramentas na área de mídias sociais. No último século o marketing era o da
massificação da informação nas empresas de telecomunicação e da grande imprensa.
O Big Data permite individualizar a origem da informação e criar perfis de
consumidores.
“O Customer Analytics permite recolher informações dos consumidores fragmentadas em diferentes meios e plataformas, como nas mídias sociais, em formulários no site, no call center da companhia, em pesquisas nos mecanismos de busca, comportamento com o e-mail marketing, histórico de compras na empresa etc. Esses dados e estatísticas, uma vez reunidos em um mesmo local, permitem que diversas informações sejam complementadas e tornem o perfil do cliente muito mais completo do que seria possível com a análise fragmentada dessas informações.” [26].
As redes sociais, com o auxílio do Big Data se tornaram a grande coletora de
informações sobre o comportamentos e percepções dos usuários. Sem a necessidade
de realizar pesquisas de satisfação ou de opinião.
“De acordo com o estudo, globalmente hoje há mais de 2,3 bilhões de usuários em plataformas sociais. No Brasil, 49% da população está ativa nas redes — a média mundial é de 31%. Os programas de fidelidade estão evoluindo de acordo com essa nova realidade. O uso de mídias sociais é cada vez mais frequente nessa interação, e já é possível recompensar as pessoas independentemente da transação comercial: pela preferência pela marca e pela capacidade de propagar mensagens.” [27].
A utilização das mídias sociais para utilização como canal de marketing obtém bons
resultados em termos de escopo (alcance) e tráfego, mas poucas exceções, nenhuma
traduz suas estratégias em vendas diretas.
Ao se relacionar as pessoas expõe suas opiniões e nas redes sociais ao clicar
mostram seus interesses. Tudo somado ao conteúdo da nova internet semântica
39
monta um perfil de seus usuários. Fica um tênue limite entre a liberdade de expressão
e a vigília ideológica: muito comentada e “justificada” pelo medo do terrorismo
internacional. Cresce os movimentos nos meios jurídicos de presunção de culpa. Ao
mesmo tempo torna possível e perigosa a manipulação da opinião pública quando
associada a grande comunicação de massa.
Ferramentas como Google Analytics e o BuzzSumo permitem analisar
comparativamente sites de maior pontuação (ranking), além de agrupar os interesses
declarados e os interesses (likes) de seus usuários tratando grandes volumes de
dados coletados.
Surpreende os volumes de dados gerados nos três maiores canais na
internet em 2013, conforme mostrado na Tabela 3:
Tabela 3 - Volume de dados gerados pelas principais redes sociais.
ORIGEM VOLUME INTERVALO
Facebook 500 terabytes Dia
Tweeter 8,6 milhões de tweets (até 140 caracteres) Minuto
Youtube 6 bilhões de horas de vídeo Mês
Fonte [28]
Três anos depois os índices de utilização das redes sociais aumentam tanto
no número absoluto de usuário como no volume de dados e são ainda mais
surpreendentes como os dados de 20 desses indicadores do Facebook apresentados
da tabela a seguir:
Tabela 4 – Indicadores do FaceBook.
1 Em todo o mundo, há mais de 1,79 bilhões de usuários Facebook ativos mensais
(Facebook MAUs), que é um aumento de 16 por cento ano a ano. (Fonte: Facebook a
partir de 11/02/16)
2 4,5 bilhões de visitantes gerados diariamente a partir de maio de 2013, que é um
aumento de 67 por cento a partir de agosto de 2012 (Fonte: Facebook)
3 1,18 bilhões de pessoas acessam diariamente os usuários ativos do Facebook
(Facebook DAU) para setembro de 2016, o que representa um aumento de 17% em
relação ao ano passado (Fonte: Facebook, 11/02/16)
4 Há 1,66 bilhões de usuários ativos móveis (Mobile Facebook MAU) para setembro de
2016 (Fonte: Facebook a partir de 11/02/16) um aumento de 20 por cento ano-a-ano.
Existem 1,03 bilhões de usuários móveis ativos diários (Facebook DAU) para junho de
2016 e 1.09 bilhões em setembro, o que confirma um aumento médio de 22% ao ano.
40
5 Em média, os botões Like e Share são visualizados em quase 10 milhões de sites
diariamente. (Fonte: Facebook a partir de 20/10/2014)
6 Na Europa, mais de 307 milhões de pessoas estão no Facebook. (Fonte: Search Engine
Journal).
7 A faixa etária de 25 a 34 anos, com 29,7% dos usuários, é a população demográfica
mais comum. (Fonte: Emarketer 2012)
8 Cinco novos perfis são criados a cada segundo. (Fonte: ALLFacebook 2012)
9 Usuários do Facebook são 76% do sexo feminino (de 100% de todas as mulheres) e
66% do sexo masculino (de 100% de todos os homens). Esta é uma estatística que
você realmente tem que pensar porque está comparando a porcentagem de todos
Mulheres contra o percentual de todos os homens que estão no Facebook. Fonte: Brandwatch - https://www.brandwatch.com/2015/01/men-vs-women-active-social-media /)
10 O tráfego mais alto ocorre no meio da semana entre 13 e 15 horas. (Fonte: Bit.ly blog).
Em outra observação, um post do Facebook às 19:00 resultará em mais cliques em
média do que postagem às 20:00 (Fonte: Forbes).
11 Às quintas-feiras e sextas-feiras, a frequência é 18% maior. (Fonte: Bit.ly blog)
12 Existem 83 milhões de perfis falsos. (Fonte: CNN)
13 Os uploads de fotos totalizam 300 milhões por dia. (Fonte: Gizmodo)
14 O tempo médio gasto por visita ao Facebook é de 20 minutos.
(Fonte: Infodocket)
15 A cada 60 segundos no Facebook: 510 comentários são postados, 293.000 status são
atualizados e 136.000 fotos são carregadas.
16 4,75 bilhões de pedaços de conteúdo são compartilhados diariamente a partir de maio
de 2013, que é um aumento de 94 por cento a partir de agosto de 2012. (Fonte:
Facebook)
17 50% dos jovens com idade de 18-24 anos de idade entram no Facebook quando ao
acordar.
18 Um em cada cinco páginas vistas nos Estados Unidos ocorre no Facebook.
(Fonte: Infodocket 2012).
19 42% dos comerciantes relatam que o Facebook é fundamental ou importante para seus
negócios.
20 16 milhões de páginas de negócios locais foram criados a partir de maio de 2013, que
é um aumento de 100 por cento de 8 milhões em junho de 2012. (Fonte: Facebook). Fonte: [29]
O Facebook segundo o site zephoria.com [30] tem mais usuários ativos
mensais (1.79 MAUs) comparado com os 500 milhões do WhatsApp, os 284 milhões
do Twitter e os 200 milhões do Instagram somados. Se as tendências se mantiverem,
o Facebook continuará a superar os outros principais canais de mídia social.
Outros números importantes do Pinterest, uma plataforma visual: em
setembro de 2015 eram 110 milhões de usuários ativos numa rede onde as imagens
são adicionadas ao perfil e geram cliques de seguidores. [31]
41
A Tabela 5 resume os dados publicados no site zephora.com sobre índices
do Pinterest referentes a set/2015. [31]
Tabela 5 – Indicadores do Pinterest.
1 O número de seguidores de Pinterest disparou nos últimos anos, com pelo menos 110
milhões de usuários ativos em setembro de 2015. (Social Pilots)
2 2. O Pinterest contém mais de 50 bilhões de pins (marcações) em cerca de um bilhão
de boards (folhas de imagem). Apresentando também informações sobre negócios.
[32] 3 As idades de usuários Pinterest entre 18-29 compõem 34% de todos os usuários. [32] 4 Quase 75% dos usuários do Pinterest compraram algo ao usar o aplicativo, ou por
causa das informações encontradas no aplicativo. A quantidade de potencial de
influência é surpreendente. (Social Draft) 5 Usuários Pinterest dos EUA representam 60% dos seus usuários. (Social Draft)
6 Somente em 2015, fora dos EUA, aumentou em 135%. Índice maior que outras
plataformas sociais. (Social Draft) 7 O usuário do Pinterest permanece uma média de 15 minutos na plataforma. E por mês,
gastam em média 98 minutos na plataforma. [32]
8 Melhor dia para obter uma audiência em Pinterest é sábado, e os melhores horários
são de 14 às 16h, e 20h às 01h. (Social Marketing Writing) 9 Um pin (marcador) que inclui uma chamada (link) aumenta as visitas em 80%. (Social
Marketing Writing) 10 O valor de Pinterest era estimado em US $ 11 bilhões de dólares em 2015 mesmo
sendo relativamente novo. (DMR stats) 11 Os usuários do sexo feminino são 71% do Pinterest. (Piloto Social)
12 Os usuários do sexo masculino do Pinterest aumentaram 120% em 2015. (DMR stats) 13 66% dos usuários Pinterest marcam (pin) desejos/inspirações. (DMR stats)
14 De todos os pins no Pinterest, 92% são imagens, reafirmando o caráter visual. [32] 15 Aplicações móveis fornecem a maior parte do tráfego do Pinterest, que equivale a 75%.
(Social Marketing Writing) 16 Número médio / dia de marcações (pins) em 2015: 14 milhões. [32] 17 O item com preço obtém 36% mais likes. (Social Marketing Writing) 18 Os usuários criaram 100 milhões de boards de imagens relacionadas com alimentos,
e 146 milhões relacionados à moda no Pinterest. [32] 19 O Pinterest representa 29% da população digital total. (Social Pilots)
20 Os pinos relacionados à tópicos de tendência aumentam click-throughs (navegações)
em 94%. (Social Marketing Writing)
Fonte: [29]
Segundo o blog socialpilot [32] que acompanha métricas de redes sociais
de 2015, mais de 3.5 bilhões de usuários ativos na internet sendo que 2,5 bilhões têm
contas em redes sociais das quais cerca de 1.8 bi estão ativas.
42
Valores de Marketing em mídias digitais
Segundo o próprio Facebook em seu relatório trimestral (3º de 2016) [33],
algumas informações são uteis para entender o crescimento deste mercado e justificar
os investimentos, inclui-se aí as ferramentas e aplicações de Big Data.
• Receita de publicidade móvel - As receitas de publicidade móvel representaram
cerca de 84% da receita de publicidade no terceiro trimestre de 2016, ante
aproximadamente 78% da receita de publicidade no terceiro trimestre de 2015.
• Investimentos de capital - As despesas de capital foram de US $ 1,10 bilhão.
• Caixa e equivalentes de caixa e títulos e valores mobiliários - Caixa e equivalentes de
caixa, e títulos e valores mobiliários foram de US $ 26,14 bilhões.
O Tabela 6 apresenta os maiores fornecedores de soluções Big Data e as
respectivas receitas em milhões de US$.
Tabela 6 – 20 maiores fornecedores de Big Data 2013. Fornecedor Receita Total % com
Big Data
Big Data
Hardware
Software
Serviços
1 IBM 99.751,00 1,4% 1.368,00 424,08 369,36 574,56
2 HP 114.100,00 0,8% 869,00 364,98 121,66 382,36
3 Dell 54.550,00 1,2% 652,00 554,20 - 97,80
4 SAP 22.900,00 2,4% 545,00 - 414,20 130,80
5 Teradata 2.665,00 19,4% 518,00 186,48 155,40 176,12
6 Oracle 37.552,00 1,3% 491,00 137,48 181,67 176,76
7 SAS Institute 3.020,00 15,9% 480,00 - 326,40 153,60
8 Palantir 418,00 100,0% 418,00 - 209,00 209,00
9 Accenture 30.606,00 1,4% 415,00 - - 415,00
10 PWC 32.580,00 1,0% 312,00 - - 312,00
11 Deloitte 33.050,00 0,9% 305,00 - - 305,00
12 Pivotal 300,00 100,0% 300,00 45,00 150,00 105,00
13 Cisco Systems 50.200,00 0,6% 295,00 212,40 35,40 47,20
14 Splunk 283,00 100,0% 283,00 - 200,93 82,07
15 Microsoft 83.200,00 0,3% 280,00 - 176,40 103,60
16 Amazon 70.000,00 0,4% 275,00 - - 275,00
17 Hitachi 89.999,00 0,3% 260,00 - - 260,00
18 CSC 14.200,00 1,3% 188,00 - - 188,00
19 CenturyLink 13.757,00 1,3% 175,00 - - 175,00
20 Google 59.767,00 0,3% 175,00 - - 175,00
Fonte: [34]
Apesar de ser um mercado extremamente competitivo, dada a
complexidade, não se apresenta concentrado. Um modelo crescente é no ambiente
Big Data é o de Software como Serviço (SaS). É também um ambiente colaborativo
sustentado em aplicações código aberto (open source).
O Gráfico 1 a seguir mostra como o mercado Big Data se divide por
segmentos formando um “ambiente” dividido em camadas (hardware, software e
43
serviços) e estar subdivididas em grupos funcionais, permitindo entender melhor o
posicionamento de cada fornecedor de solução no mercado.
Gráfico 1 – Paisagem de fornecedores Big Data Fonte: [35]
Até o presente capítulo foram apresentadas várias abordagens do tema Big
Data, sua estrutura tecnológica, como influência a sociedade e a vida das pessoas.
No próximo capitulo este estudo procura identificar tendências e seus possíveis
impactos.
44
6 AVALIAÇÃO DE IMPACTOS, TENDÊNCIAS E
RESPOSTAS SOB A ÓTICA DE GESTÃO DE
TECNOLOGIA
O artigo sobre Data Warehouse e Impactos desta tecnologia [36] descreve
como uma das tendências o tema Big Data, ainda sem esta denominação, mas com
todos os elementos inerentes ao assunto.
Nas cinco tendências abordadas no texto acima cabe ressaltar alguns
impactos relevantes aos ambientes de Big Data:
1. Formação de Grandes (BIG) Data warehouses
o Investimento em equipamentos (infraestrutura)
o Investimento em coleta de dados (software)
2. Acessos direto dos usuários às informações
o Produtos personalizados (pesquisa de dados)
3. Integração dos Sistemas com outras fontes de dados externas
o Diversificação de fontes
o Complexidade de dados cadastrados
4. Aumento da capacidade e diminuição dos custos
o Aumento do volume de usuários
5. Novas Tecnologias
o Neste item cabe ressaltar a coleta eletrônica
Ao rever as tendências e impactos considerando o tripé do Big Data, os 3Vs
Figura 6 - 3 V's do Big Data Fonte: Big Data Analytics [37]
45
Neste caso é relevante destacar as tecnologias envolvidas:
1. Crescimento dos ambientes de armazenamento
Infraestrutura: para ganhar velocidade e ser capaz de lidar com grandes
volumes de dados dois fatores são essenciais: o processamento em paralelo por uma
rede de computadores e o armazenamento distribuído.
É esperado um crescimento das fontes de coleta de dados. O volume de
dados duplica a cada dois anos e essa é uma tendência que deve ser atendido pela
infraestrutura de hardware e software. O crescimento da base de dados pode gerar
um overflow e deve ser prevenido. Pela característica de processamento distribuído
do Big Data há um impacto na demanda de servidores e recurso de rede de alta
performance.
2. Acessos direto dos usuários às informações
Produtos personalizados: Alguns tipos de pesquisa (analytics) tem exigido
alternativas ao modelo Hadoop-MapReduce como por exemplo o Spark.
3. Integração dos Sistemas com outras fontes de dados externas
Diversificação de fontes e a Complexidade de dados cadastrados impacta
diretamente na performance e exige novos modelos:
"Os bancos de dados NoSQL oferecem a opção muito mais fácil de escalonamento - os bancos de dados são distribuídos entre vários hosts pré-existentes. Com um aumento nos requisitos de disponibilidade e nas taxas de transação, o dimensionamento em ambientes virtuais oferece uma alternativa mais econômica ao dimensionamento de hardware. " [38]
E ainda aborda a questão de custos de administração de dados:
"Os bancos de dados NoSQL foram projetados para exigir menor atividade de administração para com recursos como distribuição de dados, reparo automático e modelos de dados simplificados. ” [38].
4. Aumento da capacidade e diminuição dos custos
Aumento do volume de usuários pela ampliação do acesso à internet, e
pela incorporação de plataformas de redes sociais e de interfaces com sistemas de
comunicação;
46
5. Novas Tecnologias
A coleta eletrônica de dados se consolida com o IoT e as escutas de rede
e incorporação de logs (importante fonte de dados para verificação de
inconformidades de processos e de segurança). A Figura 7a representa de forma
visual o cenário que descreve a complexidade e o impacto de nosso futuro emergente.
Figura 7a - Interconexões de novas tecnologias Fonte: [39]
A Figura 7b identifica habilitadores por cores referentes aos sinergismos da
Figura 7a. Os sinergismos são identificados de 1 a 8.
Figura 8b - Interconexões de novas tecnologias Fonte: [40]
47
O Big Data consolida os fundamentos tecnológicos e proporciona que
novos aceleradores tecnológicos sejam incorporados. Novos cenários compartilham
da mesma infraestrutura de tecnologia como por exemplo Cidades inteligentes e
Veículos autônomos, ambos provedores/consumidores de grandes volumes de dados.
A resposta às demandas de volumes cada vez maiores de armazenamento
está na redução de custos por Gb armazenado e proporcionam o crescente aumento
de estruturas físicas de armazenamento em DWs e BDWs. No entanto, o
armazenamento e processamento distribuído exigem estruturas de comunicação
capazes de lidar com grandes fluxos de dados em alta velocidade para que não sejam
formados gargalos.
• Exigirá maiores investimentos em pesquisa para atender as demandas.
• Exigirá maior treinamento e quantidade de profissionais na área de Big Data.
• Permitirá o investimento em novas tecnologias em áreas estratégicas como
logística, transporte urbano, organização das cidades e relações comerciais.
A inteligência artificial como ferramenta de apoio ao processo de decisão
avança no sentido de substituir algumas atividades humanas.
Num tutorial (A Guide to Machine Learning in Python da Data Science Central),
utilizando ferramentas do ecossistema Big Data, o gráfico abaixo demostra o
aprendizado de máquina e responde à pergunta: Teria você sobrevivido ao Titanic?
Gráfico 2 – Diagrama de aprendizado de máquina Fonte: [41]
48
E comenta que a tecnologia já é aplicada e cita:
De decidir qual filme você pode querer assistir o próximo na Netflix para prever as tendências do mercado de ações, aprendizado de máquina tem um impacto profundo na forma como os dados são entendidos na era moderna.
Porém, junto aos benefícios que proporciona, hoje a tecnologia da IA
associada ao Big Data e a machine learning também é a mais preocupante pois afeta
profundamente os processos produtivos da sociedade humana.
Ao longo dos últimos 50 anos os processos de automação afetaram
diversas atividades produtivas no campo, na indústria, no comércio e nos serviços. A
robótica acelerou essas mudanças; porém a coleta de dados associada a IA e a
machine learning podem afetar grande parcela de outras atividades humanas em
áreas de decisão como medicina, direito, engenharia, informática e inúmeras outras.
“O aspecto interativo do aprendizado de máquinas é importante porque, conforme os modelos são expostos a novos dados, eles são capazes de se adaptar de forma independente. Eles aprendem com os cálculos anteriores para produzir decisões e resultados confiáveis e reproduzíveis. É uma ciência que não é nova, mas que está ganhando um novo impulso.
Por causa das novas tecnologias de computação, o aprendizado de máquina de hoje não é como o aprendizado de máquina do passado. Enquanto muitos algoritmos de machine learning estiveram por aí por bastante tempo, a capacidade de aplicar automaticamente cálculos matemáticos complexos a big data – cada vez mais e cada vez mais rápido – é um desenvolvimento recente.” [42]
Um relatório da consultoria internacional McKinsey Quarterly apresenta
uma pesquisa sobre níveis de automação por atividade.
“Como observamos acima, no entanto, só porque uma atividade pode ser automatizada, isso não significa que serão fatores econômicos mais amplos que estão em jogo. Os empregos de contadores, contabilistas e funcionários de auditoria, por exemplo, exigem habilidades e treinamento, de modo que são mais escassos do que os cozinheiros básicos. Mas as atividades que realizam custam menos para automatizar, exigindo principalmente software e um computador básico.
Considerações como essas levaram a uma tendência observada para maiores taxas de automação para atividades comuns em alguns trabalhos de habilidade média, por exemplo, na coleta de dados e no processamento de dados. À medida que a automação avança na capacidade, os trabalhos envolvendo habilidades mais altas provavelmente serão automatizados a taxas cada vez maiores. ” [43]
Isso demonstra a extensão das mudanças e futuros impactos.
49
7 CONCLUSÃO
As demandas pelo uso de ambientes Big Data ultrapassam o simples
armazenamento de informações históricas para análise de desempenho comparativo,
de tendências em estruturas estáticas. Foi considerado adequado para uma
sociedade de consumo baseada na escala e produção em massa. Exigia grandes
intervenções para preparo e tratamento dos dados.
O Big Data se apresenta como ferramenta de análise em tempo real
identificando mudanças de comportamento e perfis de público estudado. Permite por
uso de aplicações computacionais e uso de técnicas de inteligência artificial realizar
predições.
Abre novos horizontes na pesquisa científica pois dados preservam outras
informações que com novas técnicas computacionais podem ser tratadas.
O aumento de velocidade e capacidade se dá pela arquitetura física
adotada (processamento e armazenamento distribuído) e lógica de tratamento de
dados (em camadas de mapreduce e indexações complexas).
A incorporação de meta-dados permite identificar e tratar as informações
brutas e até mesmo criar relacionamentos para complementação de cenário de dados
tornando ilimitado a aplicação de dados coletados.
Ao mesmo tempo pode-se observar que todas as mudanças tecnológicas
geram riscos (positivos e negativos) e demanda o uso de alguma metodologia para
monitorar e gerenciar tais projetos de tecnologia.
Quanto as Incertezas:
• Gera novas relações sociais que podem desiquilibrar e desestruturar a
sociedade atual.
• Aumenta os processos de substituição da atividade humana (emprego) por
processos automatizados avançando para atividade de tomada de decisão.
• Se a redução de custos proposta pelas novas tecnologias é compatível com a
redução de empregos proposta. E se haverá recomposição da estrutura de
renda das pessoas.
50
• Uma atenção deve ser dada a como a legislação de cada pais recepcionará as
novas tecnologias. Deve estudar como modificará a sociedade, os valores e a
cultural.
Em relação aos riscos positivos:
• Gera novas relações sociais saudáveis de relacionamento.
• Permite maior acesso a informação.
• Cria facilidades e transparência.
• Abre novos caminhos para o avanço da pesquisa científica.
• Aumenta a segurança na tomada de decisão.
Em relação aos riscos negativos:
• Impactos certamente irão acontecer com a mudança da organização social e,
dado a complexidade do tema, sem mensuração. Alguns cuidados devem ser
tomados para que governos não invadam de forma indiscriminada a vida das
pessoas.
• Afeta a organização social e as relações tradicionais de emprego, trabalho,
renda e do capital.
• Pode gerar erros na tomada de decisão para eventos fora de conformidade,
por presunção resultante de aprendizado baseado em automação e IA
preditiva.
• Afasta as pessoas dos centros de decisão, gerando uma sociedade dividida em
castas.
• Amplia o desemprego estrutural, dada a diminuição da intervenção humana
(em todos os setores) nos processos produtivos.
• É extremamente frágil a falhas em escalas globais nas áreas estratégicas
colocando em risco grandes aglomerados urbanos.
O presente trabalho contribui para levantar questionamentos a serem
respondidos em trabalhos futuros. O desenvolvimento de tecnologias deve sempre
estar acompanhado de estudos de seus impactos.
51
8 REFERÊNCIAS
1. VIKTOR MAYER, S.; KENNETH, C. Big Data: A Revolution That Will Transform
How We Live, Work and Think. Canada Eamon: Dolan/Houghton Mifflin Harcourt,
2013.
2. KURASOVA, O. et al. Strategies for Big Data Clustering. 2014 IEEE 26th
International Conference on Tools with Artificial Intelligence, 2014.
Disponivel em: <https://www.mii.lt/paslaugu_internetas/rodikliai/5veikla/5.3.pdf>.
3. KIMBALL, R.; ROSS. [S.l.]: [s.n.], 2013.
4. SANJAY, G.; GOBIOFF, H.; LEUNG, S. The Google File System. Disponivel em:
<https://www.google.com.br/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&cad
=rja&uact=8&ved=0ahUKEwjt7966heLXAhUGh5AKHfMHAb0QFghbMAU&url=h
ttps%3A%2F%2Fwww.cs.umd.edu%2Fclass%2Fspring2011%2Fcmsc818k%2F
Lectures%2Fgfs-hdfs.pdf&usg=AOvVaw2wpvzheHEvnFrc0R4eu2mh>.
5. HANSEN, H. V. Google File System (GFS). 2010. University of Oslo,
Universidade de Oslo, 01 out. 2017. Disponivel em:
<http://www.uio.no/studier/emner/matnat/ifi/INF5100/h10/undervisningsmateriale
/gfs.pdf>.
6. MURUGESAN, S.; BOJANOVA, E. Encyclopedia of Cloud Computing. [S.l.]:
John Wiley and Sons, 2016, ago.
7. LOUDON, K.; LAUDON, S. [S.l.]: [s.n.].
8. THE APACHE SOFTWARE FOUNDATION. Apache Hadoop. 2014. Apache
Foundation, 20 set. 2016. Disponivel em: <hadoop.apache.org/>.
9. TURCK, M. Is Big Data Still a Thing? (The 2016 Big Data Landscape). Matt Turck
Blog, 2016. Disponivel em: <(http://mattturck.com/2016/02/01/big-data-
landscape/ 2016>.
10. BIG data, smart cities and city planning. Dialogues in Human Geography -
SAGE Journal, 10 dez. 2013. 274 - 279.
52
11. RAJ, C. P.; VANGA, S. Use big data and fast data analytics to achieve analytics
as a service (AaaS). www.ibm.com/developerworks/, 24 set. 2015. Disponivel
em: <https://www.ibm.com/developerworks/library/ba-big-data-analytics-as-a-
service-trs/ba-big-data-analytics-as-a-service-trs-pdf.pdf>.
12. EMBRAPA INSTRUMENTAÇÃO. https://www.embrapa.br/. Aplicação de drone
no agronegócio é discutida em seminário, em São Paulo - RSS, 10 maio
2017. Disponivel em: <https://www.embrapa.br/noticias-rss/-
/asset_publisher/HA73uEmvroGS/content/id/22443090>.
13. IBM. Disponivel em: <https://software.intel.com/en-us/articles/connecting-to-the-
ibm-watson-iot-platform-with-intel-iot-gateway-software-suites-0>.
14. ZHENG, Y. et al. Visual Analytics in Urban Computing: An Overview. IEEE
Journals & Magazines, 2016. 276 - 296.
15. LIU, H. et al. Visual analysis of route diversity. Proc. IEEE Conf. Visual Analytics
Sci. Technol., 2011. 171–180.
16. SCHEEPENS, R. et al. Composite density maps for multivariate trajectorie. IEEE
Trans. Vis. Comput. Graph., 17, Dec 2011. 2518–2527.
17. AUGUSTON, M. IoT Institute. The Top IoT News de 2016, 23 nov. 2016.
Disponivel em: <http://www.ioti.com/iot-trends-and-analysis/top-iot-news-2016>.
18. BIG Data and the Future of Privacy. Electronic Privacy Information Center,
2016. Disponivel em: <https://epic.org/privacy/big-data/>.
19. KING, J. H.; RICHARDS, N. M. Big Data ETHICS. Stanford PACS – Scholars.
Practitioners. Leaders., p. 395, 2014.
20. HOFFMAN, S. Medical Big Data and Big Data Quality Problems. Case Western
Reserve University School of Law, 15 set. 2016. Disponivel em:
<http://scholarlycommons.law.case.edu/faculty_publications/1679>.
21. CLOUD SECURITY ALLIANCE. Expanded Top Ten Big Data Security and Privacy
Challenges. https: //cloudsecurityalliance.org, abr. 2013. Disponivel em:
<https://cloudsecurityalliance.org/download/expanded-top-ten-big-data-security-
and-privacy-challenges/>.
53
22. BAUMAN, Z. et al. Após Snowden: Repensando o Impacto da Vigilância. Revista
ECO PÓS - Tecnopolíticas e Vigilância, Rio de Janeiro, v. 18, n. 2, p. 8 - 35,
2015. Disponivel em:
<https://spire.sciencespo.fr/hdl:/2441/3nodp0tbj78napjqbvl305lcd0/resources/26
60-5454-1-sm.pdf>. Acesso em: 15 out. 2016.
23. DEWEY , CAITLIN; THE WASHINGTON POST. How online bots conned Brexit
voters. Washington Post, 27 jun. 2016. Disponivel em:
<https://www.washingtonpost.com/news/the-intersect/wp/2016/06/27/how-
online-bots-conned-brexit-voters/?utm_term=.0fdfd28a4a69>.
24. CALVO, E. Blog Ernesto Calvo, set. 2016. Disponivel em: <http://ars-
uns.blogspot.com.br/2016/05/twitter-politico-en-argentina-un-ejemplo.html>.
25. WOOLF, NICKY; THE GUARDIAN. “Mirai Code Uses Internet of Things to Launch
Historic DDoS Attack”. theguardian.com, 26 out. 2016. Disponivel em:
<www.theguardian.com/technology/2016/oct/26/ddos-attack-dyn-mirai-botnet>.
26. NASCIMENTO, R. Big Data e Customer Analytics: como usá-los para aumentar
as vendas? http: //marketingpordados.com, 24 abr. 2017. Disponivel em:
<http://marketingpordados.com/analise-de-dados/big-data-e-customer-analytics-
como-usa-los-para-aumentar-vendas/>.
27. BUENO, R. Como fidelizar clientes na era do Big Data. Harvard Business
Review Brasil, set. 2016. Disponivel em: <http://hbrbr.uol.com.br/como-fidelizar-
clientes-na-era-do-big-data/>.
28. APLICAÇÕES Big Data em mídia social. Edson Caldas Jr., 12 jun. 2015.
Disponivel em: <http://www.jogaojob.com.br/aplicacoes-big-data-em-midia-
social/>.
29. ZEPHORIA SOCIAL MEDIA. The Top 20 Valuable Facebook Statistics, set. 2016.
Disponivel em: <https://zephoria.com/top-15-valuable-facebook-statistics/>.
30. CHAUHAN, A. The Top 20 Valuable Facebook Statistics. linkedin.com/pulse, 07
jan. 2016. Disponivel em: <https://www.linkedin.com/pulse/top-20-valuable-
facebook-statistics-akash-chauhan-50k-connections/>.
54
31. PINTEREST MARKETIN - PINTEREST MARKETIN. Pinterest Marketing –
Statistics You Can Use. Zephoria Digital Marketing, ago. 2016. Disponivel em:
<https://zephoria.com/pinterest-for-marketing/>.
32. SOCIALPILOT. 125 Amazing Social Media Statistics You Should Know in 2016.
https: //www.socialpilot.co/, 2016. Disponivel em:
<https://www.socialpilot.co/blog/125-amazing-social-media-statistics-know-
2016>.
33. FACEBOOK INVESTOR RELATIONS. Facebook Reports Third Quarter 2016
Results. Facebook Investor Relations, out. 2016. Disponivel em:
<https://s21.q4cdn.com/399680738/files/doc_financials/2016/Q3/3.-Facebook-
Reports-Third-Quarter-2016-Results.pdf>.
34. BIG Data Vendor Revenue and Market Forecast. http: //wikibon.org, 2016.
Disponivel em:
<http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_20
13-2017>.
35. KELLY, J. Big Data Vendor Revenue and Market Forecast 2012-2017. Wikibon -
professional community, 19 jan. 2016. Disponivel em:
<http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_20
12-2017>.
36. COSTA, F. E. G. et al. Gestão da Informação - Data Warehouses: Tendências,
Impactos e Respostas. Revista de Administração Pública, Rio de Janeiro, v.
32, n. 6, p. 237 a 239, 1998. Disponivel em:
<http://bibliotecadigital.fgv.br/ojs/index.php/rap/article/view/7799/6399>.
37. RUSSOM, P. Big Data Analytics. TDWI - best practices report, fourth quarter
2011. Disponivel em:
<https://www.google.com.br/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&cad
=rja&uact=8&ved=0ahUKEwiK46u3hOLXAhVGH5AKHVoyDukQFghFMAI&url=ft
p%3A%2F%2Fftp.software.ibm.com%2Fsoftware%2Ftw%2FDefining_Big_Data
_through_3V_v.pdf&usg=AOvVaw0m3c_NfjpsYvLC9XmXIM20>.
55
38. Hadoop, 11 set. 2015. Disponivel em: <http://bigdata-
madesimple.com/advantages-of-nosql-databases-what-you-need-to-know/>.
39. O FUTURO DAS COISAS. Como navegar no futuro exponencial? http:
//ofuturodascoisas.com, 13 jul. 2016. Disponivel em:
<http://ofuturodascoisas.com/como-navegar-no-futuro-exponencial/>.
40. DIANA, F. Exponential Organizations. FRANK DIANA'S BLOG, p.
https://frankdiana.net/2015/04/01/exponential-organizations/, abr. 2015.
Disponivel em: <https://frankdiana.net/2015/04/01/exponential-organizations/>.
41. SURENDRAN, B. Would You Survive the Titanic? A Guide to Machine Learning in
Python. Data Science Centra, 11 jul. 2016. Disponivel em:
<https://www.datasciencecentral.com/profiles/blogs/would-you-survive-the-
titanic-a-guide-to-machine-learning-in>.
42. SAS. Machine Learning. https: //www.sas.com, 2017. Disponivel em:
<https://www.sas.com/pt_br/insights/analytics/machine-learning.html#>.
43. CHUI, M.; MANYIKA, J.; MIREMADI, M. Onde as máquinas poderiam substituir
os seres humanos - e onde eles não podem (ainda). www.mckinsey.com/, 2016.
Disponivel em: <https://www.mckinsey.com/business-functions/digital-
mckinsey/our-insights/where-machines-could-replace-humans-and-where-they-
cant-yet>.