Formerly known as European Learning Laboratory for the Life Sciences
Our inspiring educational experiences share the scientific discoveries of EMBL with young learners aged 10-19 years and teachers in Europe and beyond. We belong to EMBL’s Science Education and Public Engagement office.
À quoi ressemble une séquence biologique et quelles sont les utilisations que pouvez-vous en faire ?
Imaginez un instant que le centre du génome EMBL possède des séquences d’échantillons d’ADN de différentes protéines fluorescentes. Avant de commencer vos analyses bioinformatiques de ces échantillons, lisez les informations ci-dessous afin de voir à quoi ressemble les résultats du séquençage de l’ADN.
Les résultats du séquençage de l’ADN peuvent être visualisés de deux manières différentes :
1. Chromatogramme d’une séquence
La séquence d’ADN peut ainsi être “lue” comme une séquence de pics individuels. L’exemple suivant représente le chromatogramme d’une telle séquence :
2. Fichiers texte en format FASTA
Le format FASTA est un format texte qui permet d’afficher et de stocker des séquences d’acides nucléïques (ADN et ARN) et d’acides aminés (protéines). Chaque séquence débute par le symbole “plus grand que” (>) et par une en-tête descriptive (le nom de la séquence) Le nom de la séquence est ajouté à la suite sans espace. Les lignes qui suivent contiennent les données de la séquence. Les exemples suivants illustrent une séquence représentée en format FASTA :
>Human_1233_P1 AGGAGCAGGGAGGGCAGGAGCCAGGGCTGGGCATAAAAGTCAGGGCAGAGCCATCTATTGCTTACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAACAGACACCATGGTGCACCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCAAGGTGAACGTGGATGGAAGTTGGTGGTGAGGCCCTGGGCAGGTTGGTATCAAGGTTACAAGACAGGTTTAAGGAGACCAATAGAAACTGGGCATGTGGAGACAGAGAAGACTCTTGGGTTTCTGATAGGCACTGACTCTCTCTGCCTATTGGTCTATTTTCCCACCCTTAGGCTGCTGGTGGTCTACCCTTGGACCCAGAGGTTCTTTGAGTCCTTTGGGGATCTGTCCACTCCTGATGCTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCTGGACAACCTCAAGGGCACCTTTGCCACACTGAGTGAGCTGCACTGTGACAAGCTGCACGTGGATCCTGAGAACTTCAGGGT
Dans les séquences en format FASTA, des codes à 1 lettre sont utilisés pour représenter les acides nucléiques et les acides aminés:
Codes à 1 lettre pour les acides nucléiques :
Adenine = A
Cytosine = C
Guanine = G
Thymine = T
Codes à 1 lettre pour les acides aminés :
Alanine A, Arginine R, Asparagine N, Aspartate D, Cysteine C, Glutamine Q, Glutamic acid E, Glycine G, Histidine H, Isoleucine I, Leucine L, Lysine K, Methionine M, Phenylalanine F, Proline P, Serine S, Threonine T, Tryptophane W, Tyrosine Y, Valine V
Share: