Nem tudo é ciência em Ciência de Dados
Computação

Nem tudo é ciência em Ciência de Dados

Heurística e rigor matemático transformam conjuntos de dados em previsões precisas e soluções práticas.

Imagine que você tenha uma caixa preta mágica. Dentro dela você pode adicionar uma enorme quantidade de dados, de fontes diversas, sobre temas distintos. Cada um desses conjuntos de dados descreve de forma variada cenários específicos, como períodos, frequências e recências, características de comportamento, padrões de uso, de consumo, de pagamento etc.

Imagine que, após inserir todos esses dados na caixa, você aperte um botão e, voilà, um novo conhecimento é produzido. Agora você sabe, por exemplo, a probabilidade de um evento ocorrer, a característica de um determinado cenário, a estimação de um valor futuro ou mesmo uma solução para um conjunto de restrições e recursos existentes.

Incrível, não é? Você simplesmente alimenta uma caixa com muitos dados e obtém resultados que estão prontos para serem utilizados de forma prática em um cenário de negócios, em um projeto de pesquisa ou em ações governamentais.

Essa caixa preta se chama Ciência de Dados ou modelagem analítica, mineração de dados, aprendizado de máquina, Inteligência Artificial etc. Essas mudanças de nome ao longo do tempo mostram que essa disciplina não é exatamente nova, porém muito utilizada na indústria, nos negócios e, fortemente, na academia. Ciência de Dados combina Matemática, Estatística, probabilidade, otimização, prognósticos e Computação, disciplinas sempre atribuídas às aplicações práticas. Contudo, não apenas as disciplinas exatas fazem parte da Ciência de Dados. A heurística também desempenha um papel fundamental nesse processo.

Heurística

A palavra heurística vem do grego heuriskein, que significa encontrar, descobrir. No campo da História, refere-se à pesquisa de documentos, tendo como objetivo a descoberta de fatos. Na Computação e na Matemática, diz respeito aos métodos investigativos e de pesquisa que se pautam na aproximação, por meio da quantificação de um determinado objeto.

A heurística é combinada com a Matemática em aplicações de Ciência de Dados.

A palavra matemática vem da palavra grega máthema, que significa aprendizado, conhecimento. Ela sempre esteve relacionada à descrição de quantidades, à representação de estruturas de tipos e formas distintas, à descrição de espaços etc. O reconhecimento de padrões é um tópico inerente aos matemáticos. Reconhecendo padrões, eles esperam compreender melhor o passado, explicar o presente e, assim, prever de forma mais acurada o que está por vir.

Historiadores e matemáticos são semelhantes no uso da heurística. Os primeiros a utilizam em suas análises observacionais. O estudo das perspectivas sociais no passado é, muitas vezes, usado como uma maneira de analisar eventos pregressos, aprender com eles para compreender o presente e, possivelmente, auxiliar a explicação de futuros comportamentos.

Para os matemáticos, eventos passados e as características que os descrevem são reunidos sob a forma de conjuntos de dados que possam ser usados para buscar correlações entre os eventos e suas características. Se os atributos que descrevem os eventos não forem extensos, uma correlação mental pode ser estabelecida com base nas observações feitas, como fazem os historiadores. Quanto mais forte a correlação, mais fidedigna a explicação. Num cenário semelhante, essa correlação poderia embasar uma possível previsão dos eventos futuros.

Em aplicações de Ciências de Dados, o escopo dos atributos é, geralmente, bastante extenso, tornando impossível uma correlação mental, normalmente alcançada por meio de algoritmos.

Uma outra grande diferença é o formalismo matemático que auxilia no mapeamento dos cenários e das suas características. Uma equação matemática é uma forma de descrever um evento dentro de um cenário específico e, assim, estabelecer um método de correlação para predição de eventos futuros.

Heurística e prova matemática

Como a maioria das disciplinas, a Matemática evoluiu ao longo do tempo. Além de contar objetos físicos, como no comércio, seus primeiros usos envolviam quantificar o tempo, definir valores (a troca de bens leva à criação da moeda), medir a terra, medir bens para tecelagem etc. Com o passar do tempo, a Aritmética, a Álgebra e a Geometria foram usadas para impostos e cálculos financeiros, para construção e, em seguida, para Astronomia.

À medida que as aplicações se expandiram, a teoria matemática também evoluiu. Ela se tornou uma ferramenta de apoio a diferentes disciplinas científicas, como Física, Química, Biologia, Ciência de Dados, entre outras.

Para desempenhar esse importante papel de apoiar a ciência, a Matemática deve ser bastante rigorosa do ponto de vista do formalismo. Um de seus maiores rigores são as provas. A prova matemática é um método que transforma teoremas em axiomas, seguindo um conjunto particular de leis, regras, restrições, significados e razões. O nível de rigor necessário para provar teoremas pode variar ao longo do tempo e mudar em diferentes culturas e, sobretudo, adaptar-se para satisfazer cenários distintos.

Mas uma verdade crucial das provas matemáticas é que elas, muitas vezes, são baseadas em processos heurísticos. Os procedimentos usados para provar um teorema são, muitas vezes, derivados de tentativa e erro. Características heurísticas podem estar presentes em todo o cenário do teorema ou apenas no início, em sua elaboração. Na realidade, a heurística está frequentemente envolvida em um ou mais estágios da prova. Heurísticas podem apoiar a definição da prova a partir da simples observação dos eventos (reconhecendo um padrão) ou podem governar toda a prova matemática por exceção ou indução.

A maioria dos modelos matemáticos possuem limites em relação ao conjunto de equações que retratam um determinado cenário. Esses limites indicam que as equações funcionam adequadamente dadas condições específicas e restrições particulares.

Considere as condições normais de temperatura e pressão em Química. Algumas fórmulas funcionam muito bem se a temperatura e a pressão estiverem em uma determinada faixa de valores, caso contrário, elas simplesmente não funcionam.

A fórmula está errada? Ou será que, em outros momentos da história, a fórmula era válida e agora não mais? Em ambos os casos a resposta é não. Lembre-se de que as fórmulas são construídas para modelar um evento específico, com base em observações ou hipóteses, e, portanto, funcionarão bem quando as restrições do cenário modelado forem verdadeiras. Isso é bastante claro na evolução da física, desde a mecânica clássica de Newton, passando pela Teoria da Relatividade de Einstein, até a física quântica de Planck, Dirac e outros. Todas as formulações estão corretas respeitando-se as restrições e condições pertinentes a cada um dos cenários que fundamentaram as diferentes teorias.

Este é um exemplo perfeito de porque os modelos matemáticos podem descrever um cenário particular usando uma ou mais equações. Embora essas equações possam representar adequadamente um cenário específico, os métodos funcionam corretamente se, e apenas se, um determinado conjunto de condições for satisfeito. Existem condições de contorno que limitam a precisão das equações e, portanto, um modelo representa simplesmente um cenário em particular. Essas condições de contorno podem ser simplesmente intervalos de valores atribuídos às constantes e variáveis.

Essa característica aplica-se fortemente aos projetos de Ciência de Dados e pode determinar se os resultados serão aceitáveis ou não. Como historiadores e matemáticos, os cientistas de dados também levam em consideração um conjunto de atributos usados para representar e descrever um determinado cenário e analisam os dados disponíveis para buscar correlações, reconhecer padrões e, possivelmente, prever situações futuras. Contudo, mudanças nos cenários descritos podem provocar alterações significativas nos resultados, por vezes até invalidando as equações que determinam a solução do problema.

Um sopro de vento

Um exemplo clássico remete à Edward Lorenz, um matemático focado em prever o tempo. Em seu tempo, esse tipo de trabalho era amplamente baseado em suposições e formulações heurísticas. A previsão do tempo incluía observações e muitas suposições, apesar dos instrumentos científicos disponíveis à época.

Quando os computadores entraram em cena, Lorenz vislumbrou a possibilidade de combinar Matemática com Meteorologia. Ele começou a construir um modelo matemático computacional usando equações diferenciais para prever mudanças de temperatura e pressão. Criou uma dúzia de equações diferenciais e conseguiu executar algumas simulações e estimar as condições meteorológicas.

Isso certamente foi uma melhoria drástica em relação às suposições históricas. Durante o inverno de 1961, Lorenz estava examinando uma sequência de números. Na época, os computadores usavam um total de seis decimais para todas as observações.

No entanto, para economizar espaço, Lorenz decidiu usar apenas três casas decimais, assumindo que a diferença de uma parte em mil não afetaria o resultado. Essa suposição parecia bastante razoável. Os cientistas aceitam de maneira geral que pequenos ruídos em condições iniciais levarão a pequenas mudanças no comportamento futuro. Mas Lorenz estava usando um sistema determinístico de equações que exigia um ponto de partida bastante específico. Condições iniciais bem determinadas são extremamente importantes em processos dessa natureza.

Quando Lorenz suprimiu três decimais em seu conjunto de equações, ele encontrou um resultado completamente inesperado. Em vez de encontrar resultados semelhantes aos de execuções pregressas, os padrões climáticos divergiram substancialmente dos padrões anteriores. Em apenas alguns meses de iterações, as previsões de três e seis decimais não tinham nenhuma semelhança. Lorenz pensou que uma pequena variação numérica nas condições iniciais era semelhante a um pequeno sopro de vento e improvável que representasse um impacto importante nas características de grande escala dos sistemas meteorológicos. No entanto, esse pequeno “sopro de vento” levou a um desfecho significativamente diferente.

Esse fenômeno chamado de “sopro de vento” é conhecido como dependência da sensibilidade das condições iniciais. Tempos depois, Lorenz chamou sua observação de efeito borboleta. Equações não lineares que explicam o clima são incrivelmente sensíveis às condições iniciais, como se uma borboleta batendo as asas no Brasil pudesse provocar um tornado no Canadá. Talvez isso seja um exagero, mas ajuda a exemplificar como pequenos detalhes na descrição do contorno do problema, das restrições das equações, ou mesmo na forma de utilização dos dados, podem fazer uma diferença enorme nos resultados.

Isso se aplica claramente aos modelos de Ciência de Dados utilizados atualmente, sejam eles estatísticos ou de aprendizado de máquina. Os métodos heurísticos nesse contexto são de extrema importância para caracterizar de forma adequada o problema e permitir as aproximações necessárias para sua resolução. Não obstante os métodos científicos e as formulações matemáticas empregadas, o processo heurístico encontra amplo uso em modelagem analítica e suas aplicações.

Os cenários analisados podem apresentar alterações ao longo do tempo e, com isso, invalidar as formulações matemáticas utilizadas para as resoluções dos problemas. Nesse sentido, os métodos heurísticos auxiliam na definição das aproximações e suposições que manterão a solução válida, ainda que não como uma solução ótima, mas pelo menos como uma solução satisfatória.

Um ponto importante é que o tempo de desenvolvimento e aplicação dos modelos analíticos em cenários de negócios acabam tornando essas aproximações ainda mais relevantes. Não adianta buscar uma solução ótima que não seja entregue no tempo requerido pelo negócio. Assim, é mais pertinente uma solução satisfatória que dê uma resposta em tempo hábil de aplicação, do que uma solução ótima que não responda à demanda no momento necessário.

De maneira geral, existem duas características fundamentais em projetos de Ciência de Dados que acabam por incorporar um pouco de arte no processo científico. A primeira característica é a heurística, abordada nesse artigo com foco nos processos determinísticos, nas aproximações, hipóteses e soluções por tentativa e erro.

A segunda característica é a aleatoriedade dos eventos e das características dos cenários estudados. Esse ponto será abordado em meu próximo artigo, com foco nos processos estocásticos, considerando como o efeito aleatório dos eventos analisados ao longo do tempo impactam nas formulações matemáticas e, consequentemente, nos resultados dos modelos analíticos.

Último vídeo

Nossos tópicos