Evaluation de différentes variantes du modèle de Cox pour le pronostic de patients atteints de cancer à partir de données publiques de séquençage et cliniques - Inserm - Institut national de la santé et de la recherche médicale Accéder directement au contenu
Thèse Année : 2020

Evaluation of different variants of the Cox model for the prognosis of cancer patients from public sequencing and clinical data

Evaluation de différentes variantes du modèle de Cox pour le pronostic de patients atteints de cancer à partir de données publiques de séquençage et cliniques

Rémy Jardillier
  • Fonction : Auteur
  • PersonId : 1044613
  • IdRef : 253676819

Résumé

Cancer has been the leading cause of premature mortality (death before the age of 65) in France since 2004. For the same organ, each cancer is unique, and personalized prognosis is therefore an important aspect of patient management and follow-up. The decrease in sequencing costs over the last decade have made it possible to measure the molecular profiles of many tumors on a large scale. Thus, the TCGA database provides RNA-seq data of tumors, clinical data (age, sex, grade, stage, etc.), and follow-up times of associated patients over several years (including patient survival, possible recurrence, etc.). New discoveries are thus made possible in terms of biomarkers built from transcriptomic data, with individualized prognoses. These advances require the development of large-scale data analysis methods adapted to take into account both survival data (right-censored), clinical characteristics, and molecular profiles of patients. In this context, the main goal of the thesis is to compare and adapt methodologies to construct prognostic risk scores for survival or recurrence of patients with cancer from sequencing and clinical data.The Cox model (semi-parametric) is widely used to model these survival data, and allows linking them to explanatory variables. The RNA-seq data from TCGA contain more than 20,000 genes for only a few hundred patients. The number p of variables then exceeds the number n of patients, and parameters estimation is subject to the “curse of dimensionality”. The two main strategies to overcome this issue are penalty methods and gene pre-filtering. Thus, the first objective of this thesis is to compare the classical penalization methods of Cox's model (i.e. ridge, lasso, elastic net, adaptive elastic net). To this end, we use real and simulated data to control the amount of information contained in the transcriptomic data. Then, the second issue addressed concerns the univariate pre-filtering of genes before using a multivariate Cox model. We propose a methodology to increase the stability of the genes selected, and to choose the filtering thresholds by optimizing the predictions. Finally, although the cost of sequencing (RNA-seq) has decreased drastically over the last decade, it remains too high for routine use in practice. In a final section, we show that the sequencing depth of miRNAs can be reduced without degrading the quality of predictions for some TCGA cancers, but not for others.
Le cancer constitue la première cause de mortalité prématurée (décès avant 65 ans) en France depuis 2004. Pour un même organe, chaque cancer est unique, et le pronostic personnalisé est donc un aspect important de la prise en charge et du suivi des patients. La baisse des coûts du séquençage des ARN a permis de mesurer à large échelle les profils moléculaires de nombreux échantillons tumoraux. Ainsi, la base de données TCGA fournit les données RNA-seq de tumeurs, des données cliniques (âge, sexe, grade, stade, etc.), et les temps de suivi des patients associés sur plusieurs années (dont la survie du patient, la récidive éventuelle, etc.). De nouvelles découvertes sont donc rendues possibles en terme de biomarqueurs construits à partir de données transcriptomiques, avec des pronostics individualisés. Ces avancées requièrent le développement de méthodes d’analyse de données en grande dimension adaptées à la prise en compte à la fois des données de survie (censurées à droite), des caractéristiques cliniques, et des profils moléculaires des patients. Dans ce contexte, l’objet principal de la thèse consiste à comparer et adapter des méthodologies pour construire des scores de risques pronostiques de la survie ou de la récidive des patients atteints de cancer à partir de données de séquençage et cliniques.Le modèle de Cox (semi-paramétrique) est largement utilisé pour modéliser ces données de survie, et permet de les relier à des variables explicatives. Les données RNA-seq de TCGA contiennent plus de 20 000 gènes pour seulement quelques centaines de patients. Le nombre p de variables excède alors le nombre n de patients, et l'estimation des paramètres est soumis à la « malédiction de la dimension ». Les deux principales stratégies permettant de remédier à cela sont les méthodes de pénalisation et le pré-filtrage des gènes. Ainsi, le premier objectif de cette thèse est de comparer les méthodes de pénalisations classiques du modèle de Cox (i.e. ridge, lasso, elastic net, adaptive elastic net). Pour cela, nous utilisons des données réelles et simulées permettant de contrôler la quantité d’information contenue dans les données transcriptomiques. Ensuite, la deuxième problématique abordée concerne le pré-filtrage univarié des gènes avant l’utilisation d’un modèle de Cox multivarié. Nous proposons une méthodologie permettant d’augmenter la stabilité des gènes sélectionnés, et de choisir les seuils de filtrage en optimisant les prédictions. Enfin, bien que le coût du séquençage (RNA-seq) ait diminué drastiquement au cours de la dernière décennie, il reste trop élevé pour une utilisation routinière en pratique. Dans une dernière partie, nous montrons que la profondeur de séquençage des miARN peut être réduite sans atténuer la qualité des prédictions pour certains cancers de TCGA, mais pas pour d’autres.
Fichier principal
Vignette du fichier
JARDILLIER_2020_archivage.pdf (11.69 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03188077 , version 1 (01-04-2021)

Identifiants

  • HAL Id : tel-03188077 , version 1

Citer

Rémy Jardillier. Evaluation de différentes variantes du modèle de Cox pour le pronostic de patients atteints de cancer à partir de données publiques de séquençage et cliniques. Ingénierie de l'environnement. Université Grenoble Alpes [2020-..], 2020. Français. ⟨NNT : 2020GRALS008⟩. ⟨tel-03188077⟩
395 Consultations
762 Téléchargements

Partager

Gmail Facebook X LinkedIn More