Description du livre
Cet ouvrage présente une approche nouvelle et novatrice en ce sens qu'il offre un examen complet et récent des problèmes difficiles causés par le déséquilibre des données de prévision et de classification, et qu'il présente plusieurs des méthodes statistiques les plus récentes pour traiter ces problèmes. L'ouvrage traite de la propriété du déséquilibre des données de deux points de vue. Le premier est le déséquilibre quantitatif, ce qui signifie que la taille de l'échantillon dans une population est très supérieure en nombre à celle d'une autre population. Elle inclut les données de présence seulement comme cas extrême, où la présence d'une espèce est confirmée, alors que l'information sur son absence est incertaine, ce qui est particulièrement fréquent en écologie pour prédire la distribution de l'habitat. Le second est le déséquilibre qualitatif, ce qui signifie que la distribution des données d'une population peut être bien spécifiée alors que celle de l'autre population présente une propriété très hétérogène. Un cas typique est l'existence de valeurs aberrantes couramment observées dans les données sur l'expression génique, et un autre cas est celui des caractéristiques hétérogènes souvent observées dans un groupe de cas dans les études cas-témoins. L'extension du modèle de régression logistique, maxent et AdaBoost pour les données déséquilibrées est discutée, fournissant un nouveau cadre pour améliorer la prédiction, la classification et la performance de la sélection des variables. Les fonctions de pondération introduites dans les méthodes jouent un rôle important dans la réduction du déséquilibre des données. Ce livre fournit également une nouvelle perspective sur ces problèmes et montre quelques applications des méthodes statistiques récemment développées à des ensembles de données réelles.