Embora Python seja bem avaliada como uma boa opção para a análise…

… de dados, isto não quer dizer que ela seja a única! E vou mais além: muitas vezes, as opções designadas para atender a propósitos específicos, geralmente acabam se saindo melhor do que aquelas designadas para aplicações gerais. Este, talvez seja o caso da linguagem de programação R e sua poderosa biblioteca Tidyverse, as quais foram criadas exclusivamente para trabalhar com a análise de dados. Por isto, não se assustem ao saber que ela é (também) muito pouco popular

“If you take statistics courses in college, you’ll probably learn the R language. The language, due to being created by statisticians, is widely used in statistics academia, as well as by academic researchers in other fields who do statistical analysis, such as the social sciences. If you pick up advanced statistics textbooks, mentioned later, you’ll find that most of the code examples will be in R. R is also used for analysis in the business world.”

— by How-To Geek.

David Delony (editor do portal How-To Geek) destaca em sua publicação original que, embora seja um usuário proficiente de Python para análise de dados, decidiu explorar e aprender R e o Tidyverse por curiosidade e pelas capacidades distintas que eles oferecem. R tem sido, há muito tempo, a linguagem dominante em estatística, sendo amplamente adotada tanto no meio acadêmico quanto em diversos setores da indústria. Devido à sua origem (criada por estatísticos e por isto, designada para um propósito específico), muitos livros didáticos e publicações de estatística avançada utilizam R como padrão para exemplos de código.

O Tidyverse é uma biblioteca apresentada como uma coleção coesa de pacotes R, que moderniza a linguagem e é otimizada para a aplicação em Ciência de Dados. Este poderoso ecossistema inclui ferramentas essenciais para as principais etapas da análise: ggplot2 (para a visualização de dados), dplyr (para a manipulação), tidyr (para a organização e a limpeza) e readr (para importação de dados), além de vários outras que simplificam o fluxo de trabalho de análise.

Entre as principais razões para a adoção, Delony destaca o ggplot2 como um possível “aplicativo matador”, elogiando sua capacidade de criar gráficos complexos e de qualidade profissional, com base em uma “gramática dos gráficos”. Outro ponto forte é a vasta disponibilidade de materiais de aprendizado avançados e livros didáticos que usam R, devido à sua popularidade acadêmica. Além disso, o repositório CRAN (Comprehensive R Archive Network) oferece quase 23.000 pacotes, cobrindo uma imensa variedade de análises estatísticas especializadas.

Finalmente, Delony elogia as ferramentas do Tidyverse para a limpeza e estruturação de dados (o conceito de “tidy data”), uma etapa frequentemente desafiadora na análise. O autor também se surpreendeu positivamente com o RStudio (agora Posit), um IDE que considera excelente para o trabalho interativo e exploratório da análise de dados. Ele conclui que, embora Python seja ótimo para integrar modelos a outros aplicativos, aprender R oferece uma perspectiva diferente e valiosa, sendo benéfico não se limitar a apenas uma linguagem de análise.

Se vale à pena aprendê-la para fazer apenas uma coisa? Eis, a questão… &;-D