crédit

Ces ressources sont destinées aux cours et à l’atelier r( Les dates de l’atelier R) que j’anime autour des questions de méthodes de recherche en sciences de gestion et plus particulièrement en marketing. Elles sont centrées sur le langage r. Participer à l’atelier demande de s’investir dans le langage, il demande autant de temps qu’un permis de construire, le début est difficile mais les progrès sont rapides.

Démarrage

Pour démarrer :

Pour avoir des points de repère, s’il faut un ouvrage pour démarrer, l’introduction à l’analyse d’enquêtes avec R et RStudio est parfaite. L’ouvrage est complet, monumental même, et en français! On le recommande vivement, c’est une excellente référence pour les débutants mais aussi pour les autres. Un travail d’équipe emmené par Joseph Larmarange.

Une partie des travaux de l’atelier peut prendre place dans la rubrique #culturedata de Management & Datascience

Etudes de cas

Ces liens conduisent à nos travaux pratiques, ils ne sont ni achevés (en terme de rédaction), ni optimisés (on est preneur de code plus simple et plus fluide), mais parfaitement fonctionnels (reproductibles) ils servent de support de cours, et fournissent si on les lit dans le détail, de nombreuses astuces. Ils sont aussi publiés sur github

On espère que nos étudiants vont y contribuer largement, c’est aussi la matière de leurs exercices pratiques, on leur demande d’améliorer et de commenter les solutions “brutales” qui y sont proposées.

Ressources pratiques

Les ressources sont abondantes, souvent gratuites, la liste ci-dessous n’est pas exhaustive, elle reflète plutôt nos explorations.

Générales

Clustering

Dataviz

  • ggplot2 est devenu la norme donnant naissance à une multitude de packages dérivés : gridextra pour assembler les graphiques en une image, ggreppel, pour affiner le labelling, geom_sp pour la cartographie, ggworcloud pour le texte. Il s’appuit sur une grammaire des graphiques.
  • On jetera un coup d’oeil à la rgallery et des ressources qui s’accroissent chaque jour : ie [ggforce] (https://cran.r-project.org/web/packages/ggforce/vignettes/Visual_Guide.html)
  • des palettes riches sont disponibles par exemple Fishualize ou cette liste sans oublier celle de wes anderson.
  • Pour les modèles de régression des graphes de paramètres deviennent un nouveau standards
  • shiny pour plus que des dashboard

Econométrie

  • ts
  • var
  • panelvar

Tests statistiques

Régressions et Arbres de décisions

  • partykit
  • rpart

Textmining et NLP

  • l’ancêtre c’est tm et r.temis en est un des enfants qui exploitent le vieil héritage de l’AFC, ce que fait beaucoup mieux iramuteq. Mais désormais il y a plus moderne.
  • d’abord r for Textmining introduit aux méthodes de Tidytext et donne une bonne idée de comment traiter des fichiers de tokens.
  • le package quanteda a de bonne chance de venir un standard
  • un outil précieux est cleanNLP qui propose des fonctions " part of speech" (POS) particulierement utiles
  • text2vec pour une première approche du web embedding.
  • Word embedding keras pour se mettre au “word embeddings”
  • Wordfish de Slapin & Proksh (2008)

Machine learning

  • caret est le standard du ML sur r
  • tsne est un algo remarquable pour l’analyse des similarités avec de nombreux points.
  • lime donne accès à l’explicabilité des algos de machines learning.
  • et pour aller plus loin et se mettre au deep learning avec l’interface r pour keras

Analyse spatiale et carto

Analyse de réseaux

  • igraph et pour apprende le très progressif Ognyanova

Psychométrie

  • psych est un monument pour l’analyse factorielle et la psychométrie.
  • lavaan est indispensable pour les amateurs de CFA et autres SEM.

Blogs

Il y a des génies laborieux qui depuis des années défrichent le domaine et partagent leurs cours, leurs études, leurs expériences, leurs tutoriaux, leurs recherches, et documentent précisément les codes. Ils sont des grands frères, c’est sur leurs épaules qu’on a appris.

Help! Help ! Help !

Si on ne sait pas que faire et qu’on veut trouver une solution en quelques mots clés, il y a Google qui reste le meilleur point d’entrée en ajoutant systématiquement la lettre r aux requêtes, le nom du package, de la fonction ou la technique générique. C’est notre principal conseil en cas de problème, de même ne pas hésiter à chercher directement en copiant le message d’erreur dans google search. Il y a toujours quelqu’un qui a trouvé la solution à notre problème, et très peu de problèmes qui n’ont pas de solution (On a mis un moteur de recherche dans le garbage model !).

Comptes twitter

comptes à suivre : @datacentral, @rstat , @BorisMericskay, @Cranberies,

Data Sets :

Les data sets sont désormais nombreux, il y a ceux proposés par les plateformes de concours telles que Kaggle, mais l’open source encourage à publier. En voici un aperçu.