O que é Big Data? Uma das mais importantes ideias em computação é o tal do ‘big data’. Há um acordo unânime de que o big data está revolucionando o comércio no século 21. Quando se fala de negócios, o big data oferece insights sem precedentes, melhorias na tomada de decisão e revelam fontes de lucro nunca antes percebidas.
E ainda assim pergunte a um diretor de T.I. a definição do termo e ele ou ela irão ficar perplexos. Há muitas chances de se obter o mesmo número de definições quanto o número de entrevistados. E esse é um problema para quem está tentando comprar ou vender serviços de big data. Qual exatamente é a oferta? O que está se vendendo, afinal?
Hoje, Jonathan Stuart Ward e Adam Barker da Universidade de St. Andrews na Escócia pegaram a tarefa nas mãos. Esses caras pesquisaram entre várias definições oferecidas pelas mais influentes e grandes organizações de alta-tecnologia. Eles então tentaram destilar uma definição de todo o ruído para chegar a uma definição que todos concordassem.
Stuart Ward e Barker obtiveram um resultado bastante misturado. As definições formais são difíceis de serem achadas em meio a tantas organizações preferindo dar a sua própria versão.
Em particular, o significado de ‘big’ é complicado de se definir, não apenas porque um dataset que, parece grande hoje, irá certamente parecer pequeno em um futuro não tão distante. Onde uma organização nos dá números para o qual se define ‘big’, outra nos dá uma definição relativa, implicando que big data irá sempre ser mais do que técnicas convencionais podem manusear.
Algumas organizações apontam que grandes datasets não são sempre complexos e pequenos datasets são sempre simples. Seu ponto é que a complexidade de um dataset é um fator importante para ser ‘big’ ou não.

Aqui vai um sumário do tipo de descrições que Stuart Ward e Barker descobriram em várias organizações influentes:

1. Gartner

Em 2001, um relatório da Meta (agora Gartner) registrou o aumento na quantidade de dados e o aumento em sua velocidade na qual é produzida e em uma crescente gama de formatos e representações empregadas. Esse relatório predava o conceito de ‘big data’ mas propunha uma definição com três dimensões, os 3 Vs: Volume, Velocidade e Variedade. A ideia desde então se tornou popular e algumas vezes inclue-se um quarto V: veracidade, para cobrir questões de confiança e incerteza.

2. Oracle

Big data é uma derivação de valor dos negócios de tomada de decisão dos tradicionais bancos de dados relacionais, melhorado com novas fontes de dados desestruturados.

3. Intel

Oportunidades com o Big Data emergem em organizações gerando uma média de 300 terabytes de dados por semana. As formas de dados mais comuns analisadas dessa forma são transações armazenadas em databases relacionais seguidos por documentos, e-mails, dados de sensores, blogs e mídias sociais.

4. Microsoft

“Big data é um termo que vem sendo cada dia mais usado para descrever o processo de se aplicar poder de computação sério – os últimos são machine learning e inteligência artificial – para sets de informação massivos e em geral de alta complexidade.

5. Projeto open source Method for an Integrated Knowledge Environment

O projeto MIKO argument que big data não é uma função de tamanho do dataset mas sua complexidade. Consequentemente, é o alto nível das permutações e interações dentro do dataset que define big data.

6. NIST – National Institute of Standards e Technology

O NIST argument que big data é dado que: “excede a capacidade dos atuais e convencionais métodos e sistemas”. Em outras palavras, a noção de ‘big’ é relativa ao atual padrão de computação.

Enfim, uma confusão.
Em adição a busca por definições, os pesquisadores tentaram entender melhor a maneira que as pessoas usam a frase big data ao procurar no Google Trends para encontrar quais palavras são mais associadas a expressão. Eles listaram: data analytics, Hadoop, NoSQL, Google, IBM e Oracle.
Esses caras corajosamente finalizaram sua pesquisa com uma definição própria onde eles tentaram colocar juntos todas essas ideias. Aqui vai a definição:

“Big data é um termo que descreve o armazenamento e análise de data sets grandes e/ou complexos usando uma série de técnicas incluindo, mas não limitada a: NoSQL, MapReduce e machine learning.”

Agora, achar que as pessoas vão aderir a essa definição, talvez, seja pedir demais.
Ref: Undefined By Data: A Survey of Big Data Definitions.
Artigo adaptado de artigo da MIT Technology Review Magazine.
Texto publicado do The Growth Hacker.

Author

Em 2004, André foi responsável por levar internet discada para mais de 4.400 cidades brasileiras. Estudou eletrônica e tecnologia na Unicamp, Harvard e MIT e Finanças na USP. Trabalha intensivamente em 2 novos projetos: Fight e Hack além de atender mais de 150 clientes na YOW Internet.

Write A Comment

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.