Ciência de Dados?

 

Presentemente há um movimento intenso em torno do assunto “Ciência de Dados”. Cursos, treinamentos, plataformas de software (principalmente na “nuvem”), webinars, palestras, e até uma nova profissão surgiu a reboque dessa onda: a de “Cientista de Dados”.

Mas o que é um “cientista”? De acordo com o site sciencecouncil.org, “um cientista é alguém que sistematicamente coleta e usa pesquisas e evidências para construir hipóteses e testá-las, para obter e compartilhar compreensão e conhecimento.” [1]

Poder-se-ia afirmar simplesmente que o “cientista” é alguém que pratica “ciência”. Neste caso, resta necessário estabelecer o que é “ciência”. Para não se adentrar o campo filosófico, pode-se lançar mão de definições pragmáticas do que seja “ciência”. Carl Sagan, em seu livro “O Romance da Ciência”, à página 27 da segunda edição brasileira, descreve: “A Ciência é antes de tudo um modo de pensar do que propriamente um conjunto de conhecimentos. Seu objetivo é compreender de que forma o mundo funciona, procurar as regularidades que possam existir, penetrar nas conexões das coisas, desde as partículas subnucleares, que talvez sejam as componentes de toda a matéria, até os organismos vivos e a comunidade social humana, e daí ao cosmo como um todo.” [2]

Eu recordo com nitidez a figura que um professor que tive no mestrado desenhou na lousa certa vez:

E ele disse: “Para você avançar o conhecimento humano na proporção mostrada nesse desenho você tem que ser um cientista fenomenal. A contribuição típica de um cientista é tão marginal que nem apareceria neste desenho.”

Das citações acima pode-se inferir que fazer “ciência” é testar hipóteses, visando a explicar como o universo funciona para expandir o conhecimento humano. E quem faz isso é o cientista.

Só que tem um detalhe: testar hipóteses exige um método formal, padronizado, reproduzível por terceiros; caso contrário, se cada cientista seguisse seu próprio método, ou se este não fosse reproduzível e verificável por outros cientistas, os resultados desses experimentos não seriam reconhecidos pela comunidade científica. Esse método é o chamado de Método Científico (eu precisaria de outro artigo inteiro só para explicá-lo).

Por outro lado, Karl Popper, o maior filósofo da ciência do século XX, foi além. Ele postulou que um cientista não comprova a veracidade uma teoria ou de uma hipótese: no máximo, o que ele pode é falsear (refutar) essa teoria ou hipótese apresentando evidências contrárias. A comprovação não cabe, pois sempre poderão surgir no futuro evidências que derrubem a teoria ou hipótese (basta uma única evidência contrária para refutar toda uma teoria). Popper postulou então que uma teoria para ser considerada científica precisa ser falseável [3]. Por exemplo, a teoria de que “existe vida após a vida” não é falseável pois não existem experimentos que possam ser feitos para refutar essa teoria. Portanto, ela não pode ser considerada uma teoria científica. Na prática, os cientistas angariam evidências que reforçam as suas teorias, mas essas evidências nunca garantem que suas teorias estejam comprovadas.

Eu dei essa volta toda para fazer a seguinte pergunta a você: diante do exposto acima, qual a sua estimativa da porcentagem dos hoje chamados “cientistas de dados” que realmente praticam o método científico e cujas atividades sejam a de testar hipóteses, visando a explicar como o universo funciona? Eu poderia apostar, sem muito medo de errar, em menos de 5%. E isso sendo condescendente.

O que esses cursos, treinamentos, palestras e plataformas de “Data Science” tão propalados hoje em dia possibilitam, na grande maioria dos casos, – eu diria na esmagadora maioria –  é aplicar algoritmos que foram criados por – estes sim –, os verdadeiros cientistas. Mas, aplicar algoritmos e modelos estatísticos não é ciência: criar algoritmos e modelos novos sim. Quantos “cientistas de dados” você conhece que estão criando novos algoritmos ou novos modelos? Eu poderia apostar que mais de 95% deles apenas usam técnicas para ajustar parâmetros de modelos e algoritmos que outro alguém criou. É ou não é?

Se você é um dos menos de 5% que estão criando novos algoritmos para análise de dados e obtenção de inferências, parabéns, você é um verdadeiro Cientista de Dados. Mas se você, assim como eu, apenas tenta se aperfeiçoar na técnica de melhor ajustar parâmetros para esses algoritmos, não se envergonhe, pois essas técnicas são complexas e sofisticadas, mas também não se intitule como "Cientista de Dados". Pé no chão, mão na massa, trabalho e resultados – deixe o Marketing para os marqueteiros.

 

[1] https://sciencecouncil.org/about-science/our-definition-of-a-scientist. Acessado em 13/10/2020.

[2] SAGAN, Carl. O Romance da Ciência. 2ª edição. 1982. Editora Francisco Alves.

[3] POPPER, Karl. A Lógica da Pesquisa Científica. 2014. Editora Cultrix.



Comentários

Postagens mais visitadas deste blog

As Leis de Newton adaptadas às Ciências Sociais e Políticas

Sobre o Óbvio

Verdades, Estatísticas e Probabilidades