La chaîne d'ADN qui est obtenue durant un séquençage contient de nombreuses paires de bases. Les parties les plus importantes de cette séquence sont celles qui codent pour des protéines. Elles se reconnaissent par la présence d'un codon d'initiation en début de séquence comme nous l'avons vu dans l'exercice précédent.
La séquence qui code pour une protéine se termine par un codon d'arrêt. Les trois codons d'arrêt les plus courants sont TGA
, TAA
et TAG
. Dans cet exercice, nous ne considérons que le codon TAA
qui est le plus fréquent.
En utilisant les blocs que vous avez vu jusque maintenant, écrivez un programme qui permet d'extraire d'une séquence qui vous est fournie dans la variable echantillon la partie qui code pour une protéine. Celle-ci se trouve entre les codons start et stop, ceux-ci étant compris dans la séquence. Si la séquence qui vous est donnée ne code pas pour une protéine, placez la chaîne de caractère vide dans la variable prot.
Il vous faudra pour cela d'abord trouver la position du codon start et la stocker dans la variable p1. Cherchez ensuite la position du codon stop et sauvez-la dans la variable p2. Vous pouvez ensuite extraire de la séquence la partie qui code pour la protéine en utilisant le bloc get_substring.