[Retour au sommaire]

TELECHARGEMENT ET INSTALLATION DU LOGICIEL R

R et son interface R-GUI

Téléchargement et installation

Le site internet http://www.r-project.org/ présente l’histoire et les principes fondateurs du projet R. Cette adresse permet par exemple de télécharger le logiciel pour différentes plateformes :

  • Windows : la version pour systèmes d’exploitation Windows est téléchargeable à cette adresse puis en en suivant le lien Download R X.X.X for Windows (X.X.X désignant le numéro de version en cours).

  • Mac OS : pour les ordinateurs sous système d’exploitation Mac OS, le téléchargement se fait sur cette page. La version la plus récente R-X.X.X.pkg est disponible en haut de page (X.X.X désignant le numéro de la version en cours).

  • Différentes versions sont également téléchargeables pour les environnements Linux. Il faut installer la version qui convient au poste de travail.

La procédure ci-dessus conduit à l’installation sur votre ordinateur du logiciel R permettant d’exécuter du code R mais aussi, sous Windows, à l’installation d’une interface graphique, la R-GUI (R Graphical User Interface) permettant d’éditer du code R, de l’exécuter et d’en visualiser les résultats. Dans la suite de la formation, la R-GUI ne sera pas utilisée. L’environnement RStudio, bien plus complet, lui sera préféré. RStudio est présenté à la section suivante.

Pour aller plus loin : visite guidée de R-GUI…
La vidéo ci-dessous réalise une visite guidée rapide de la R-GUI :

ScreenShot

Une interface conviviale et puissante : RStudio

Téléchargement et installation

RStudio est un EDI, Environnement de Développement Intégré, pour la programmation avec R. Différentes versions de ce logiciel existent (versions autonome ou serveur, libre ou payante) disponibles sur le site http://www.rstudio.com/.

Des versions libres sont téléchargeables sur cette page. En particulier :

  • une version Windows : RStudio Y.Y.Y - Windows […] (où Y.Y.Y désigne le numéro de version en cours)
  • une version Mac OS : RStudio Y.Y.Y - Mac OS X […] (où Y.Y.Y désigne le numéro de version en cours)

Télécharger la version de RStudio adaptée au poste de travail et suivre la visite guidée ci-dessous.

NB : le fonctionnement de RStudio requiert l’installation préalable de R.

Visite guidée de RStudio

Visionner le document vidéo ci-dessous pour une visite guidée rapide de RStudio.

ScreenShot

PREMIERS PAS AVEC R

R : un calculateur

La console de RStudio permet de saisir quelques données et réaliser des opérations simples.

Pour exécuter une instruction, il suffit de la taper dans la console et de valider par la touche Entrée. Le résultat apparaît sur la ligne suivante.

Exemple :

Les instructions utilisées ici sont fondées sur des opérateurs arithmétiques classiques (*,+,/,-,^, …) ou sur des fonctions mathématiques usuelles (log(), exp(), …).

15 * 32
## [1] 480
log(2)
## [1] 0.6931472
Remarque :
  • Le symbole décimal est le point et non la virgule.
  • Dans ce document, la première ligne représente le code entrée dans la console et la deuxième ligne contient le résultat, toujours précédé de “##”.
  • Pour répéter une instruction déjà tapée, utiliser la flèche du haut.
  • Si la console contient déjà des instructions, il est possible de les effacer : soit par le menu EditClear Console, soit par la combinaison de touches : Ctrl + L

Rubrique d’aide

La commande help(ma_fonction)?ma_fonction permet d’accéder à l’aide de la fonction ma_fonction . La page d’aide apparait automatiquement dans l’onglet Help, en bas à droite de l’interface RStudio. On y trouve :

  • la description de la fonction,
  • ses arguments (obligatoires et optionnels),
  • les références,
  • des exemples d’application de la fonction.
Exemple :

L’exécution de la commande suivante permet d’accéder à la page d’aide de la fonction log() :

help(log)

Visionner le document vidéo ci-dessous pour une visite guidée sur l’utilisation d’une rubrique d’aide sur R.

ScreenShot

Pour aller plus loin : la fonction help.search()

Si le nom d’une fonction n’est pas connue, l’instruction help.search() permet de chercher dans les rubriques d’aide.

Exemple :

On cherche à calculer un coefficient de corrélation mais on ne connaît pas la fonction sous R.

help.search("correlation coefficient")

Gestion de scripts et sauvegarde

Il n’est pas très pratique de travailler sur la console. La saisie y est réalisée ligne à ligne. En cas d’erreur de saisie, il faut soit saisir une nouvelle commande modifiée, soit la rappeler en la recherchant dans l’historique des commandes pour pouvoir la modifier.

Gestion de scripts

Bien que l’historique s’avère très utile en pratique, il permet difficilement d’avoir une vision globale de votre séance de travail. Un atout important de l’EDI RStudio est de pouvoir manipuler des scripts.

Un script est un fichier de type texte dans lequel il est possible de saisir directement une séquence d’instructions pour l’exécuter par la suite. La saisie est réalisée soit dans un éditeur de texte quelconque (Bloc-Notes, Notepad++, etc.), soit directement sous RStudio.

Pour cela, on peut utiliser le menu : FileNew FileR Script :

Une fenêtre d’édition s’ouvre sur laquelle vous pouvez écrire une suite d’instructions :

Remarque :

Il est possible à tout moment d’exécuter une ligne d’instruction en se positionnant sur cette ligne (sans nécessairement la sélectionner), puis en demandant l’exécution :

  • par le bouton Run
  • par le raccourci clavier Ctrl + Entrée (Cmd + Entrée sous Mac).

On peut aussi exécuter plusieurs lignes à la fois. Pour cela, il faut sélectionner les lignes et demander l’exécution comme précisé ci-dessus.

Pour aller plus loin : quelques raccourcis clavier…

RStudio, en tant qu’environnement de développement, fournit un certain nombre de fonctionnalités supplémentaires disponibles par appui sur des boutons ou par des raccourcis clavier :

  1. Complétion de code : touche Tabulation.

  2. Navigation dans l’aide : touche F1.

  3. Indentation de ligne : combinaison de touches Ctrl + I (Cmd + I sous Mac).

  4. Mise en commentaire : combinaison de touches Ctrl + Shift + C (Shift + Cmd + C sous Mac) ou # devant la ligne.

Sauvegarde d’un script

Outre le fait qu’un script puisse donner une vision globale des opérations réalisées, son principal intérét est sa réutilisabilité ! En effet, un script peut être sauvegardé, fermé puis ré-ouvert postérieurement. Ainsi les instructions conservées pourront être réutilisées et complétées.

Pour sauvegarder un fichier : Menu FileSave ou Save As.

Afin de reconnaître vos scripts R, il est conseillé de leur donner un suffixe spécifique, par exemple : MonFichier.r ou MonFichier.R.

La gestion des variables

Variable numérique

Une variable permet de stocker une valeur et de réaliser du calcul formel. Le contenu (ou valeur) d’une variable peut être affiché ou réutilisé dans une expression.

Exemple :

La première instruction permet d’affecter la valeur 2 à la variable x. La seconde d’affecter la valeur 3 à la variable y.

x <- 2
y <- 3

Les variables x et y sont alors utilisées pour réaliser plusieurs calculs formels dont le résultat est soit affiché, soit stocké dans une nouvelle variable z :

1/x + y - 5
## [1] -1.5
z <- 1/x + y - 5

L’expression ci-dessous permet d’ajouter 4 à la valeur de z et de stocker le résultat dans la même variable z.

z <- z + 4
z
## [1] 2.5
Remarque :
  • <-” est une instruction d’affectation. Elle est équivalente à l’instruction “=” : x<-2 est ainsi équivalent à x=2.

  • <-” peut être obtenu par la combinaison de touches Alt + -.

Chaine de caractères

Un autre type de variable est également utilisé ici, ce sont les chaines de caractères.

Exemple :
chaine <- "Bonjour"
chaine
## [1] "Bonjour"

La variable chaine s’est vu affecter la chaîne de caractères "Bonjour".

Pour aller plus loin : concaténer des chaines de caractères…

La fonction paste() permet de concaténer des chaines de caractères entre elles.

Exemple :
chaine <- paste(chaine, "tout le monde !")
chaine
## [1] "Bonjour tout le monde !"

Variable vectorielle

Il est également possible de manipuler des vecteurs (c’est-à-dire des séries de valeurs) et de les stocker dans des variables. C’est une propriété essentielle du langage R car elle permet de manipuler des variables au sens statistique du terme. La fonction c() permet d’initialiser le vecteur avec une série de données, numériques ou non.

Exemple :

Définissons ici une variable x comme un vecteur de 4 valeurs numériques et une variable lettres comme un vecteur de 4 caractères

x <- c(1, 4, 6, 3)
x
## [1] 1 4 6 3
lettres <- c("A", "B", "C", "D")
lettres
## [1] "A" "B" "C" "D"

Dans le cas de vecteurs de valeurs numériques, il est possible de leur appliquer des opérations arithmétiques :

Exemple :

L’instruction x-2 soustrait la valeur 2 à chaque élément de x tandis que x^2 élève chacun des éléments au carré.

x - 2
## [1] -1  2  4  1
x^2
## [1]  1 16 36  9

Il est également possible d’effectuer des opérations sur plusieurs vecteurs.

Exemple :
y <- c(2, 3, 1, 7)
z <- c(1, 2, 3, 5)
y + z
## [1]  3  5  4 12

La taille d’un vecteur peut être obtenue par l’instruction length().

Exemple :
length(z)
## [1] 4
Pour aller plus loin : créer une variable matricielle avec l’instruction matrix()

Le langage R donne aussi la possibilité de créer et de manipuler des matrices (tableau de données multidimensionnel). L’instruction matrix() permet de définir une matrice à partir par exemple d’un vecteur associé à l’argument data.

L’argument data contient donc les données que l’on désire stocker dans la matrice. Les arguments nrow et ncol indiquent le nombre de lignes et de colonnes. L’argument byrow permet quant à elle d’indiquer que les données sont organisées par lignes. Par défaut, byrow = FALSE.

Exemple :
M <- matrix(data = c(1, 2, 3, 4, 5, 6), nrow = 2, ncol = 3, byrow = TRUE)
M
##      [,1] [,2] [,3]
## [1,]    1    2    3
## [2,]    4    5    6

La taille d’une matrice peut être récupérée à l’aide de la fonction dim(). Le résultat donne un vecteur à deux valeurs : le nombre de ligne suivi du nombre de colonne.

Exemple :
dim(M)
## [1] 2 3
Remarque :

L’utilisation de matrices restera toutefois marginale. La manipulation de tableaux de données se fera par le biais de dataframes ou jeux de données (introduits plus loin).

Environnement

Lors de l’exécution de ces instructions, les variables x, y et z et leurs valeurs respectives sont apparues dans la fenêtre Environment. Cette fenêtre liste l’ensemble des variables créées dans la session de travail.

Il est possible de détruire l’ensemble de ces variables (Bouton Clear) ou, au contraire, de les sauvegarder (Bouton Disquette). Cette dernière fonctionnalité peut s’avérer utile si l’on souhaite, lors d’une nouvelle session, pouvoir charger l’ensemble des variables et de leurs valeurs sans avoir à réexécuter les instructions qui ont permis de les générer.

Remarque :

Le nom d’une variable peut être quelconque. Il peut être composé d’une lettre unique (x, y, z…) ou bien d’un mot (chaine). Il est en général conseillé d’utiliser des noms de variables simples, et il est interdit d’utiliser des caractères accentués et des caractères spéciaux.

De plus, R est sensible à la casse (majuscules, minuscules). Ainsi la variable X est différente de x.

Utilisation de fonctions

Certaines des instructions précédentes sont en réalité des appels à des fonctions. Certaines fonctions sont relativement intuitives. D’autres le sont moins et nécessitent de connaître l’ordre et le nom des arguments.

Par exemple, l’instruction exp(-4) réalise l’appel de la fonction exp() avec pour argument le nombre -4.

On reconnait l’appel d’une fonction à l’utilisation des parenthèses. Un ou plusieurs arguments peuvent être fournis. Dans le cas de la fonction exp(), seul un argument est attendu. D’autres fonctions comme la fonction log() peuvent nécessiter plusieurs arguments. Si l’on ne connait pas les arguments d’une fonction, il est toujours possible de se référer à l’aide en ligne de R.

Exemple :

L’aide en ligne de la fonction log() montre que l’on peut indiquer deux arguments. Le premier nommé x désigne le nombre dont on désire calculer le logarithme. Le second nommé base fait référence à la base dans laquelle est calculée ce logarithme. Dans l’exemple ci-dessous, la première instruction permet de calculer le logarithme népérien de 2, tandis que la deuxième le calcule en base 10.

log(x = 2)
## [1] 0.6931472
log(x = 2, base = 10)
## [1] 0.30103

L’ordre des arguments n’est pas important dans la mesure où l’on indique leur nom. Dans le cas où celui-ci n’est pas indiqué, l’ordre des arguments doit être celui fourni dans l’aide de R. Les trois instructions suivantes sont donc strictement équivalentes :

log(x = 2, base = 10)
log(base = 10, x = 2)
log(2, 10)

De plus, si un argument n’est pas renseigné, il est laissé à sa valeur par défaut (s’il en possède une, voir pour cela dans l’aide). Ainsi les deux instructions suivantes sont également strictement équivalentes :

log(x = 2)
log(x = 2, base = exp(1))
Remarque :

Une autre fonctionnalité intéressante de RStudio est la complétion automatique.

Supposons que l’on saisisse la première partie de l’instruction “log(x=2,”. L’appui sur la touche tabulation →| du clavier fait alors apparaître une fenêtre d’aide contextuelle fournissant la liste des arguments possibles et leurs valeurs par défaut. Il est possible de naviguer dans cette fenêtre d’un argument à l’autre à l’aide des flèches (haut et bas) du clavier.

Installation de packages

Un package R est une bibliothèque de fonctions réalisant des opérations particulières. Pour utiliser un package, il faut qu’il ait été préalablement installé puis chargé. Lors de l’installation de R, un certain nombre de packages sont préinstallés. Lors du lancement de RStudio certains de ces packages sont chargés par défaut. C’est le cas par exemple du package stats.

Il est possible de consulter la liste des packages déjà installés sur votre ordinateur via l’onglet Packages de RStudio (cf: vidéo de la visite guidée de RStudio).

Lorsque l’utilisation d’un package non préinstallé s’avère nécessaire, il est possible de l’installer manuellement par le Menu ToolsInstall Packages. Une fois le package installé, son chargement se fait par l’instruction library().

Exemple :

La fonction describe() est disponible dans le package prettyR. Après l’avoir installé manuellement, l’instruction library(prettyR) permet de charger ce package. L’instruction describe(M) fait appel à la fonction describe() du package prettyR en calculant plusieurs descripteurs statistiques sur les variables du jeu de données M tels que la moyenne, la médiane, la variance et l’écart-type.

library(prettyR)
M <- matrix(data = c(1, 2, 3, 4, 5, 6), nrow = 2, ncol = 3, byrow = TRUE)
describe(M)
## Description of structure(list(V1 = c(1, 4), V2 = c(2, 5), V3 = c(3, 6)), .Names = c("V1",  "V2", "V3"), row.names = c(NA, -2L), class = "data.frame")
## 
##  Numeric 
##    mean median var   sd valid.n
## V1  2.5    2.5 4.5 2.12       2
## V2  3.5    3.5 4.5 2.12       2
## V3  4.5    4.5 4.5 2.12       2

[Haut du document|Retour au sommaire]