Ces ressources sont destinées aux cours et à l’atelier r( Les dates de l’atelier R) que j’anime autour des questions de méthodes de recherche en sciences de gestion et plus particulièrement en marketing. Elles sont centrées sur le langage r. Participer à l’atelier demande de s’investir dans le langage, il demande autant de temps qu’un permis de construire, le début est difficile mais les progrès sont rapides.
Pour démarrer :
Pour avoir des points de repère, s’il faut un ouvrage pour démarrer, l’introduction à l’analyse d’enquêtes avec R et RStudio est parfaite. L’ouvrage est complet, monumental même, et en français! On le recommande vivement, c’est une excellente référence pour les débutants mais aussi pour les autres. Un travail d’équipe emmené par Joseph Larmarange.
Une partie des travaux de l’atelier peut prendre place dans la rubrique #culturedata de Management & Datascience
Ces liens conduisent à nos travaux pratiques, ils ne sont ni achevés (en terme de rédaction), ni optimisés (on est preneur de code plus simple et plus fluide), mais parfaitement fonctionnels (reproductibles) ils servent de support de cours, et fournissent si on les lit dans le détail, de nombreuses astuces. Ils sont aussi publiés sur github
On espère que nos étudiants vont y contribuer largement, c’est aussi la matière de leurs exercices pratiques, on leur demande d’améliorer et de commenter les solutions “brutales” qui y sont proposées.
Les ressources sont abondantes, souvent gratuites, la liste ci-dessous n’est pas exhaustive, elle reflète plutôt nos explorations.
ggplot2
est devenu la norme donnant naissance à une multitude de packages dérivés : gridextra pour assembler les graphiques en une image, ggreppel, pour affiner le labelling, geom_sp pour la cartographie, ggworcloud pour le texte. Il s’appuit sur une grammaire des graphiques.shiny
pour plus que des dashboardts
var
panelvar
partykit
rpart
tm
et r.temis
en est un des enfants qui exploitent le vieil héritage de l’AFC, ce que fait beaucoup mieux iramuteq. Mais désormais il y a plus moderne.quanteda
a de bonne chance de venir un standardcleanNLP
qui propose des fonctions " part of speech" (POS) particulierement utilestext2vec
pour une première approche du web embedding.Wordfish
de Slapin & Proksh (2008)igraph
et pour apprende le très progressif OgnyanovaIl y a des génies laborieux qui depuis des années défrichent le domaine et partagent leurs cours, leurs études, leurs expériences, leurs tutoriaux, leurs recherches, et documentent précisément les codes. Ils sont des grands frères, c’est sur leurs épaules qu’on a appris.
Si on ne sait pas que faire et qu’on veut trouver une solution en quelques mots clés, il y a Google qui reste le meilleur point d’entrée en ajoutant systématiquement la lettre r aux requêtes, le nom du package, de la fonction ou la technique générique. C’est notre principal conseil en cas de problème, de même ne pas hésiter à chercher directement en copiant le message d’erreur dans google search. Il y a toujours quelqu’un qui a trouvé la solution à notre problème, et très peu de problèmes qui n’ont pas de solution (On a mis un moteur de recherche dans le garbage model !).
comptes à suivre : @datacentral, @rstat , @BorisMericskay, @Cranberies,
Les data sets sont désormais nombreux, il y a ceux proposés par les plateformes de concours telles que Kaggle, mais l’open source encourage à publier. En voici un aperçu.