Procédé de régression linéaire qui permet d'obtenir les paramètres d'une droite de régression en faisant appel à la moyenne. Cette méthode est parfois appelée la méthode de la double moyenne. Elle est plus rapide à utiliser, mais peu fiable si la distribution comporte des données aberrantes.
La méthode de Mayer ou la méthode de la double moyenne
C'est une technique relativement simple qui ne peut être utilisée que si la série chronologique est assez proche d'une droite.
La méthode de la droite de Mayer est une méthode permettant de tracer une droite de régression pour un nuage de points donné en calculant des moyennes. Cette droite peut être utilisée pour interpoler ou extrapoler des valeurs, c'est-à-dire pour faire des prédictions.
L'ajustement permet de prendre en compte dans les calculs statistiques un facteur qui augmente la variabilité du critère de jugement.
L'utilisation de l'ajustement linéaire est courante dans le traitement des données en marketing ou lors d'enquêtes. Dans ce cas-ci, on cherche à étudier la liaison statistique entre deux variables quantitatives grâce à la méthode des moindres carrés ordinaires ou « régression linéaire ».
Méthode de Mayer
La méthode de Mayer consiste à découper la série de données en deux sous-séries, ce qui permet de tenir compte de tous les points de la série. On calcule ensuite le point moyen de chaque sous-série avant de déterminer l'équation de la droite d'ajustement qui passe par ces deux points moyens.
L'analyse de régression linéaire sert à prévoir la valeur d'une variable en fonction de la valeur d'une autre variable. La variable dont vous souhaitez prévoir la valeur est la variable dépendante. La variable que vous utilisez pour prévoir la valeur de l'autre variable est la variable indépendante.
L'avantage d'utiliser la médiane plutôt que la moyenne est qu'elle est plus robuste aux valeurs extrêmes qui pourraient surgir à l'une des extrémités de la distribution. Il est donc important de vérifier si les données comptent des valeurs extrêmes avant de choisir quelle mesure de tendance centrale doit être utilisée.
La méthode consiste à diviser une distribution de données en deux groupes d'effectifs égaux (ou presque égaux si le nombre d'observations est impair) puis à calculer pour chacun d'eux un point moyen. On trace ensuite la droite qui rejoint ces deux points. Cette droite passe ainsi par le centre du nuage de points.
Elle consiste à partager un nuage de points rangés dans l'ordre croissant de leurs abscisses en deux sous-groupes de même effectif. Chacun des deux sous-groupes est alors remplacé par le point dont les coordonnées sont respectivement : en abscisse, la moyenne arithmétique des abscisses des points du sous-groupe.
L'idée ou le but d'une méthode est de permettre de dériver des résultats de même forme à partir de propriétés communes.
Il peut s'agir de lois de conservation que les quantités mesurées doivent respecter. La méthode des moindres carrés permet alors de minimiser l'impact des erreurs expérimentales en « ajoutant de l'information » dans le processus de mesure.
La méthode de régression et de corrélation
Étant donnée la précision du calcul, il s'agit de l'une des méthodes les plus utilisées par les entreprises souhaitant prévoir les ventes d'un produit ou de plusieurs produits.
La méthode de Mayer, ou de la double moyenne, consiste d'abord à diviser une série en deux groupes égaux (ou presque égaux si le nombre d'observations est impair) puis à calculer pour chacun d'eux un point moyen. Enfin, on trace la droite qui rejoint ces deux points.
Pour faire le calcul prévisionnel des ventes d'un nouveau produit, il faudra compter le nombre d'avis clients obtenu pour des produits similaires au cours du dernier mois. Ce chiffre sera comparé avec les données obtenues pour les projections de ventes.
La droite de régression fournit une idée schématique, mais souvent très utile, de la relation entre les deux variables. En particulier, elle permet facilement d'apprécier comment évolue l'une des variables (le critère9 en fonction de l'autre (le prédicteur).
Dans un ajustement linéaire, la fonction f recherchée est une droite : La méthode des moindres carrés cherche une droite y=ax+b de manière à minimiser la somme des carrés des différences entre les points du nuage et ceux de la droite : ∑i(yi−(axi+b))2.
La méthode des moindres carrés consiste à déterminer la droite dite « de régression de y en x » qui rend minimale la somme : . Dans la pratique, on détermine cette droite de régression de y en x, d'équation y = ax + b, à l'aide de la calculatrice.
Propriété : L'équation a x + b y + c = 0 avec a ≠ 0 ou b ≠ 0 est l'équation d'une droite d et, réciproquement, toute droite d a une équation du type a x + b y + c = 0.
La médiane divise une série statistique en deux parts égales, alors que la moyenne est la somme des valeurs de la série, divisée par le nombre de valeurs de cette même série. Concrètement : la médiane est le point central, elle permet d'éliminer les valeurs extrêmes et d'exprimer la valeur du milieu.
La moyenne prend en compte toutes les valeurs et peut-être très influencée par des valeurs extrêmes voire aberrantes du caractère. Définition : La médiane est un nombre qui permet de partager la population en deux groupes de même effectif.
Déterminer la médiane
Pour calculer la médiane : On classe les valeurs de la série statistique dans l'ordre croissant : Si le nombre de valeurs est impair, la médiane est la valeur du milieu. S'il est pair, la médiane est la demi-somme des deux valeurs du milieu.
La corrélation mesure l'intensité de la liaison entre des variables, tandis que la régression analyse la relation d'une variable par rapport à une ou plusieurs autres.
2.1 Le modèle linéaire
– Y est une variable aléatoire réelle (v.a.r.) que l'on observe et que l'on souhaite expliquer, ou prédire (ou les deux à la fois) ; on l'appelle variable à expliquer, ou variable réponse (parfois aussi variable dépendante, ou variable endogène).
Pour cela, il suffit de regarder le "t-stat" (t) ou bien la P-value (P>?t?), et comparer ces valeurs à des "valeurs seuils". Pour faire simple, une variable est significative avec un intervalle de confiance de 95% si son t-stat est supérieur à 1,96 en valeur absolue, ou bien si sa P-value est inférieure à 0,05.