Integer autoregressive (INAR) models with explanatory variables for forecasting hospitalizations linked to seasonal epidemics
Modèles autorégressifs pour données entières (INAR) avec variables explicatives pour la prévision des hospitalisations liées aux épidémies saisonnières
Résumé
The modeling of discrete time series in the healthcare field is usually approached by treating them as data derived from a Gaussian random process, allowing ARMA-type methods to be applied. However, for small-scale count data, which are non-Gaussian, it is recommended to use models that account for the specific characteristics of the series. In recent years, several solutions have been proposed, including models based on the thinning operation: the INAR (Integer-Valued Autoregressive) family of models. These models rely on calculating the probability of event occurrence, utilizing the Markov process, thereby ensuring integer-valued predictions.
INAR models are designed for discrete and self-decomposable distributions, such as Poisson, negative binomial, and geometric distributions. Over the years, several variants have been developed, including periodic INAR, multivariate INAR, and INAR models incorporating explanatory variables. For the latter, explanatory variables are integrated through the model parameters, particularly the thinning probability (defined between 0 and 1), which is linked to the explanatory variables via a logistic relationship. INAR models with explanatory variables have been adapted for Poisson and binomial distributions.
In this study, we focus on predicting the weekly number of patients admitted to the hospital through the emergency department of a single institution: the CHU of Saint-Etienne. These hospitalizations are unplanned and likely to create strain on hospital services and disrupt patient care. The data exhibit overdispersion and often follow a negative binomial distribution. We propose using INAR models adapted to the data’s distribution and incorporating exogenous explanatory variables such as temperature.
Negative binomial INAR models successfully replicate the data series; however, when it comes to prediction, INAR models with explanatory variables demonstrate superior performance.
La modélisation des séries temporelles discrètes dans le domaine de la santé se fait habituellement en les assimilant à des données issues d’un processus aléatoire gaussien, ainsi les méthodes de type ARMA peuvent être appliquées. Lorsqu’il s’agit de données de comptage à petite échelle, donc non gaussiennes, il est recommandé d’utiliser des modèles prenant en compte les caractéristiques de la série, plusieurs solutions ont été proposées ces dernières années, parmi elles les modèles basés sur l’opération d’amincissement : la famille des INAR (Integer-Valued Autoregressive times series), dont le principe est basé sur le calcul de la probabilité de survenue d’un évènement, en s’appuyant sur le processus de Markov, garantissant ainsi le résultat entier de la prédiction. Les INAR sont construits pour les distributions dites discrètes et auto-décomposables, telles les lois de Poisson, binomiale négative et géométrique. Plusieurs variantes ont été proposées au fil des années : les INAR périodiques, multivariés, ou incluant des données explicatives, cette dernière se fait à travers les paramètres du modèle, notamment la probabilité d’amincissement, définie entre 0 et 1, elle est liée aux variables explicatives grâce à une relation logistique. Les INAR avec variables explicatives ont été adaptés pour des distributions de Poisson ou binomiales.
Dans ce travail, nous nous intéressons à la prédiction du nombre hebdomadaire de patients hospitalisés à partir des urgences d’un seul établissement : le CHU de Saint-Etienne, ces hospitalisations sont donc non-programmées et susceptibles de provoquer une tension sur les services hospitaliers et une désorganisation de la prise en charge des patients. Ces données ont la particularité d’être surdispersées, et sont souvent de distribution binomiale négative, nous proposons ici d’utiliser des modèles INAR adaptés à la loi de distribution de nos données et d’y inclure des variables explicatives exogènes comme la température.Les INAR pour données binomiales négatives arrivent à reproduire la série de données, mais lorsqu’il s’agit de prédiction, les INAR avec variables explicatives se montrent plus performants.