Différents logiciels peuvent être utilisés pour obtenir l’identification et la quantification des peptides et des protéines présentes dans l’échantillon (e.g. Proteome Dicoverer pour les analyses TMT, MaxQuant pour les analyses DDA, DIA-NN pour les analyses DIA, Skyline pour les analyses ciblées).  

Identification 

L’identification des peptides se base sur la comparaison entre les données issues des spectromètres de masse et les séquences protéiques présentes dans les banques de données publiques (Uniprot.org). Pour les espèces dont les protéomes sont incomplets dans les banques de données, il est possible d’appliquer des méthodes alternatives comme l’utilisation de banques d’espèces proches ou de données issues de la génomique. 

Les peptides sont ensuite regroupés par protéique selon le principe de parcimonie en prenant en compte les différentes isoformes présentes dans la banque de donnée. On parle donc plutôt de groupe de protéines que de protéines. 

Les listes de peptides et de protéines identifiés sont validées à 1%FDR selon la méthode target-decoy qui permet d’estimer le nombre de faux-positifs dans la liste d’identification. 

Quantification 

Pour les analyses de quantification, deux méthodes sont possibles selon qu’il s’agit d’une expérience avec marquage TMT ou d’une expérience sans marquage (LFQ). 

Pour les analyses TMT (ou les analyses ciblées), le logiciel extrait les intensités des ions rapporteurs pour chaque peptide. Chacun des ions donne ainsi l’intensité du peptide dans les différents échantillons.  

Pour les analyses LFQ, le logiciel procède à un alignement des différentes injections de la même expérience et utilise les données spectrales pour reconstituer le profil d’élution de chaque peptide dans échantillon (i.e dans chaque analyse). L’intégration de l’aire sous pic d’élution permet ainsi d’obtenir une valeur de quantification. 

Afin d’obtenir un maximum de données de quantification, les informations sont croisées entre les différentes injections afin de rechercher les signaux correspondant aux mêmes peptides même si ceux-ci sont de faible intensité (match between runs). 

Dans tous cas, les logiciels procèdent à une normalisation des données spécifique aux données de protéomique et basée sur l’ensemble du signal observé dans chaque échantillon. Il est également possible d’obtenir données non-normalisées afin d’appliquer d’autres méthodes de normalisation.  

Représentation des données et Statistiques 

Pour les analyses quantitatives, nous utilisons le logiciel R afin d’obtenir des représentations graphiques et des statistiques à partir des données issues des logiciels de protéomique. 

Nous produisons ainsi des analyses en composante principale (PCA) et des heatmaps permettant de visualiser le profil protéomique global de chacun des échantillons et d’évaluer la variabilité entre eux. 

Nous pouvons également effectuer des comparaisons entre deux conditions/groupes d’intérêt (pairwise analysis) en calculant un ratio et un test statistique (welch test, Limma) pour chacune des protéines obtenues. Les ratios sont corrigés par centrage des données (calcul du z-score) et les p-values issues du test statistique sont ajustées pour les test multiples par la méthode de Benjamini-Hochberg afin d’obtenir des q-values. Les protéines ayant un |z|>1.96 et un q < 0.05 sont considérées significativement régulées entre les groupes. Ces informations sont représentées sous forme de volcano plots. 

D’autres tests et représentations graphiques peuvent également être obtenues à partir des données de protéomiques selon les besoins du projet (ANOVA, box-plots, correlation plots, clustering). 

Autres analyses bio-informatiques 

Sur demande, nous pouvons également procéder à des analyses bio-informatiques plus poussées comme des analyses fonctionnelles (Gene Ontology, KEGG pathways), des analyses de réseaux d’interaction, la recherche de signature de biomarqueurs ou des analyses multi-omiques. 

Pour cela nous collaborons étroitement avec la plateforme de bio-informatique du Centre de Génomique.