Comment utiliser le module Bio::DB::GenBank

Cet article a pour vocation de vous expliquer comment extraire des informations dans la banque de données GenBank relatives à une séquence nucléique via un numéro d'accession, identifiant, en utilisant un module CPAN Perl (bioperl) nommé Bio::DB::GenBank. 4 commentaires

Article lu fois.

L'auteur

jasmine

L'article

Publié le 18 décembre 2008 - Mis à jour le 22 décembre 2008

Version PDF Version hors-ligne

ePub, Azw et Mobi

Liens sociaux

A. Introduction▲

Vous lisez un article sur un module couramment utilisé en analyse de séquences nucléiques. Notre hypothèse est donc que vous connaissez le langage Perl, que vous maîtrisez la notion de module et que vous connaissez le domaine de la bioinformatique.

Si tel n'est pas le cas, je vous propose de lire les autres articles qui sont ou seront mis à disposition sur ce site et qui ont trait à ces différentes questions.

Le NCBISite du NCBI (National Center for Biotechnology Information) maintient, en collaboration avec d'autres organisations internationales, un certain nombre de bases de données, comme PubMed pour la littérature scientifique, GenBank pour les séquences nucléiques ou OMIM pour les maladies génétiques.

GenBank est une banque généraliste qui contient l'ensemble des séquences nucléiques, quelle que soit leur nature (ADN génomique, ARN messager, EST, …). Les séquences produites dans les laboratoires du monde entier à partir de plus de 100 000 organismes différents sont régulièrement soumises au NCBI. GenBank croit ainsi de manière exponentielle, doublant de taille tous les dix mois. La mise à jour 155 d'août 2006 contenait plus de 65 milliards de nucléotides dans plus de 61 millions de séquences. La banque se construit soit par des dépôts directs en provenance des laboratoires, soit par des dépôts en masse des centres de séquençage à grande échelle.

B. Les séquences de GenBank▲

Chaque séquence de GenBank possède deux identifiants : le numéro Accession et le Gi (prononcé ji-aïe !).

Le numéro Accession

Le numéro Accession est un identifiant unique à chaque enregistrement (nouvelle séquence entrée dans GenBank avec toutes les informations s'y rapportant). Il est composé de lettres et de chiffres (parfois d'un underscore '_'). Il n'est jamais modifié, même si l'enregistrement est corrigé à la demande de l'auteur.

A l'Accession peut être ajouté un numéro de version si la séquence se voit modifiée. Pour une combinaison 'accession.version' existe un numéro Gi unique.

Le Gi (GenInfo Identifier)

Le Gi est un nombre qui est spécifique à une séquence. Si cette séquence change de quelque façon que ce soit, un nouveau Gi et une nouvelle version sont attribués alors que le numéro Accession n'est pas modifié.

Petit exemple de fichier:

Sélectionnez

LOCUS       AM117601                 585 bp    DNA     linear   BCT 13-FEB-2008
DEFINITION  Escherichia coli partial 16S rRNA gene, isolate ASS Eco.
ACCESSION   AM117601
VERSION     AM117601.1  GI:78271544
KEYWORDS    16S ribosomal RNA; 16S rRNA gene.
SOURCE      Escherichia coli
  ORGANISM  Escherichia coli
            Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;
            Enterobacteriaceae; Escherichia.
REFERENCE   1
  AUTHORS   Rani,R., Murthy,R.S., Bhattacharya,S., Ahuja,V., Rizvi,M.A. and
            Paul,J.
  TITLE     Changes in bacterial profile during amebiasis: demonstration of
            anaerobic bacteria in ALA pus samples
  JOURNAL   Am. J. Trop. Med. Hyg. 75 (5), 880-885 (2006)
   PUBMED   17123981
REFERENCE   2
  AUTHORS   Rani,R.
  TITLE     Molecular and biochemical characterization of human gut flora in
            enteric disease patients
  JOURNAL   Unpublished
REFERENCE   3  (bases 1 to 585)
  AUTHORS   Rani,R.
  TITLE     Direct Submission
  JOURNAL   Submitted (20-OCT-2005) Rani R., School of Life Sciences,
            Jawaharlal Nehru University, Dr. Jaishree Paul, Lab No. 441, School
            of Life Sciences, JNU, New Delhi, 110067, INDIA
FEATURES             Location/Qualifiers
     source          1..585
                     /organism="Escherichia coli"
                     /mol_type="genomic DNA"
                     /isolate="ASS Eco"
                     /isolation_source="human faeces"
                     /db_xref="taxon:562"
                     /country="India"
     gene            <1..>585
                     /gene="16S rRNA"
     rRNA            <1..>585
                     /gene="16S rRNA"
                     /product="16S ribosomal RNA"
ORIGIN      
        1 gacctcggtt tagttcacag aagccgtgtt ctcatcctcc cgcctcctcc cccgtaaaaa
       61 agccaggggg tggaggattt aagccatctc ctgatgacgc atagtcagcc catcatgaat
      121 gttgctgtcg atgacaggtt gttacaaagg gagaagggca tggcgagcgt acagctgcaa
      181 aatgtaacga aagcctgggg cgaggtcgtg gtatcgaaag atatcaatct cgatatccat
      241 gaaggtgaat tcgtggtgtt tgtcggaccg tctggctgcg gtaaatcgac tttactgcgc
      301 atgattgccg ggcttgagac gatcaccagc ggcgacctgt tcatcggtga gaaacggatg
      361 aatgacactc cgccagcaga acgcggcgtt ggtatggtgt ttcagtctta cgcgctctat
      421 ccccacctgt cagtagcaga aaacatgtca tttggcccga aactggctgg cgcaaaaaaa
      481 gaggtgatta accaacgcgt taaccaggtg gcggaagtgc tacaactggc gcatttgctg
      541 gatcgcaaac cgaaagcgct ctccggtggt cagcgtcagc gtgtg
//

Il contient les informations de la séquence du gène codant pour l'ARNr 16S chez la bactérie Escherichia coli.
- séquence : gacctcggtt ... gtgtg
- organisme : Escherichia coli
- Numéro Accession : AM117601
- Numéro Gi : 78271544
- Description : Escherichia coli partial 16S rRNA gene, isolate ASS Eco.
- Taille de la séquence : 585 bp

C. Le module Bio::DB::GenBank▲

Le module Bio::DB::GenBank permet de télécharger des informations relatives aux séquences, tels que sa description, sa longueur, ses numéros d'identification, des informations au sujet de l'organisme ...
L'avantage est une utilisation simple et rapide afin de récupérer automatiquement de nombreuses séquences en une fois, ce qui serait très fastidieux manuellement et augmenterait les risques d'erreurs. Celles-ci peuvent être formatées ou chargées dans des bases de données locales.
Il est également possible de faire directement appel à d'autres modules sur ces séquences : Bio::Tools::Run::Alignment::Clustalw pour réaliser un alignement multiple ou Bio::Tools::Run::StandAloneBlast pour faire un BLAST d'une séquence inconnue sur celles identifiées dans GenBank.

Lorsque l'on utilise ce module, la première chose à faire est de le charger.

Sélectionnez

use Bio::DB::GenBank;

La deuxième chose à faire est de créer un objet Bio::DB::GenBank via le constructeur 'new'. Il permet la connexion avec la banque de données GenBank. Il est ainsi possible de rechercher des informations en interrogeant la banque via diverses méthodes existant.

D. Description de certaines méthodes du module▲

D-1. Méthodes permettant la récupération d'informations▲

Certaines méthodes du module permettent de récupérer la séquence via un numéro d'identification (get_Seq_by_id) ou un numéro d'accession (get_Seq_by_acc) ou même un Gi (get_Seq_by_gi).

D'autres méthodes permettent de récupérer un ensemble de séquences en introduisant une liste d'identifiants ou une requête plus complexe.
Les méthodes 'get_Stream_by_id', 'get_Stream_by_acc' et 'get_Stream_by_gi' prennent en entrée une liste d'Id, d'Acc ou de GI, tandis que la méthodes 'get_Stream_by_query' permet une requête plus complexe telle :

Sélectionnez

my $query = Bio::DB::Query::GenBank->new (
	-query   =>'Oryza sativa[Organism] AND EST',
	-reldate => '30',
	-db      => 'nucleotide',
);
my $seqio = $gb->get_Stream_by_query($query);

Cette requête recherche dans la base de données 'nucleotide' les entrées de GenBank de l'organisme Oryza sativa contenant le mot clé "EST" ayant été modifiées (par défaut) dans GenBank au cours des 30 derniers jours. Il est également possible d'obtenir les séquences ayant été créées depuis au maximum 30 jours en ajoutant le paramètre -datetype => 'edat' car par défaut celui-ci a pour valeur 'mdat' (m pour modified).

D-2. Manipulation de la séquence et récupération d'informations▲

Il est possible de retrouver des valeurs précises provenant de l'objet, comme sa séquence, ses identifiants, sa longueur, sa description, son type ('dna','rna','protein').

‘seq' pour la séquence,
‘length' pour la longueur,
‘accession_number' pour l'accession,
‘primary_id' pour l'identifiant primaire,
‘description' pour la description,
‘revcom' pour la séquence complémentaire
‘trunc' pour obtenir une sous-séquence.

Petits exemples de code :

Pour obtenir la séquence complémentaire :

Sélectionnez

my $stringComp = $seq->revcom->seq();

Pour la traduction de la séquence :

Sélectionnez

my $stringComp = $seq->revcom->seq();

Pour une sous séquence :

Sélectionnez

my $stringComp = $seq->revcom->seq();

E. Banques travaillant en collaboration▲

Selon le site de Pasteursite de Pasteur, il existe trois banques travaillant en étroite collaboration dont les missions sont de collecter, maintenir et distribuer publiquement l'information primaire représentée par toutes les séquences nucléotidiques connues. Il s'agit de :

l'EMBL [52], créée en 1980 par l'EMBL (European Molecular Biology Laboratory). Elle est maintenue à l'EBI (European Bioinformatics Institute) [6];
GenBank, créée en 1982 au Los Alamos National Laboratory. Elle est maintenue au NCBI (National Center for Biotechnology information) [7] qui dépend du NIH (National Institute of Health) américain [55, 54] ;
DDBJ (DNA Data Bank of Japan) [99], maintenue par le Centre d'Information Biologique de l'Institut National de Génétique [8], à Mishim. Elle s'est jointe à l'effort des deux précédentes en 1986.

La séquence est séparée des annotations. On distingue deux parties dans ces dernières :
le format de la première partie est relativement souple et varie d'une banque à l'autre. On y trouve entre autres les dates de création et éventuellement de modification de l'entrée, le numéro d'accession (partagé par les trois banques), des références d'articles relatifs à la publication de la séquence, l'origine biologique, ainsi qu'éventuellement d'autres identifiants (un ou plusieurs appelés 'gi', geninfo identifier).
Depuis février 1999, la collaboration internationale entre les trois banques a décidé d'adopter une nomenclature commune pour représenter ces modifications. En plus du numéro d'accession, chaque séquence se voit attribuer un numéro de version de la forme 'ac.version' ( 'ac' est le numéro d'Accession). Lorsqu'une séquence est ajoutée, le numéro de version est 'ac.1'. Si elle est modifiée, il deviendra 'ac.2', le numéro d'accession restant stable. De ce fait, les " gi number " de GenBank sont amenés à disparaître même s'ils sont pour le moment maintenus pour des raisons de compatibilité avec les programmes les utilisant ou les autres banques y faisant référence [55, 16].

La seconde partie concerne les propriétés ou caractéristiques (lignes 'Features' pour GenBank et DDBJ, 'FT' pour EMBL) associées à tout ou partie de la séquence. Un des aspects de la collaboration entre les trois banques est l'adoption d'une nomenclature et de règles communes quant au format de cette partie. La 'Feature Table Definition' décrit en détail ce format. Il est disponible sur le site de l'EBI [17]. Cette partie est structurée en sous-parties correspondant aux différentes caractéristiques de la séquence. Le type d'une caractéristique est indiqué par un mot-clé choisi parmi un vocabulaire contrôlé. Des exemples de clés sont 'source' (tous les éléments permettant de retrouver l'origine moléculaire de la séquence), ou 'CDS' ('Coding Sequence'). Pour une caractéristique donnée, sont également indiquées les positions dans la séquence délimitant la sous-séquence concernée, ainsi qu'un certain nombre d'attributs qualifiants. Il existe d'ailleurs une liste d'attributs possibles pour chaque clé comme par exemple, pour un CDS, l'attribut 'translation' correspondant à la séquence en acides aminés déduite de la séquence nucléotidique, l'attribut 'db_xref' pour indiquer des références croisées avec d'autres banques (de protéines par exemple), ou 'protein_id' suivi d'un numéro identifiant la protéine virtuelle correspondante.

Les banques GenBank/EMBL/DDBJ constituent donc une archive complète des séquences nucléotidiques primaires connues à ce jour.

Méthode de la classe Bio::DB::GenBank : new Bio::DB::GenBank

Sélectionnez

Titre   : new
Usage   : my $gb = Bio::DB::GenBank->new(@options);
But     : Création du constructeur new
Retourne  : handle New genbank handle
Arguments : -delay   permet de définir 3 secondes entre chaque recherche d'identifiant

Méthode de la classe Bio::DB::GenBank : get_Seq_by_acc

Sélectionnez

Méthode   : get_Seq_by_acc
Usage     : $seq = $db->get_Seq_by_acc($acc);
But       : Obtenir un objet de type Bio::Seq utile pour la suite afin de récupérer la séquence
Arguments : le numéro d'accession, composé de lettres, chiffres et parfois d'un underscore

Méthode de la classe Bio::DB::GenBank : get_Seq_by_gi

Sélectionnez

Méthode   : get_Seq_by_id
Usage     : my $seq = $db->get_Seq_by_id('ROA1_HUMAN'); 
But       : Obtenir un objet de type Bio::Seq utile pour la suite
Arguments : le numéro d'identifiant, composé de lettres, chiffres et parfois d'un underscore

Méthode de la classe Bio::DB::GenBank : get_Stream_by_query

Sélectionnez

Méthode   : get_Stream_by_query
Usage     : my $seq = $db->get_Stream_by_query($query); 
But       : Obtenir un objet de type Bio::SeqIO utile pour la suite
Arguments : $query qui est lui même soit un objet de type Bio::DB::Query::GenBank
Il est conseillé de créer un objet Bio::DB::Query::GenBank et de compter le nombre d'entrées
avant d'éxécuter une requête pouvant retourner un très grand nombre de séquences.

Autres méthodes

Sélectionnez

C'est le même principe :
- get_Stream_by_query : my $seqio = $gb->get_Stream_by_query($query);
- get_Stream_by_acc   : my $seqio = $gb->get_Stream_by_acc($ref);

Méthode de la classe Bio::DB::Query::GenBank : Bio::DB::Query::GenBank->new

Sélectionnez

Crée un objet de requêtes
Parametres :
	-db       base de données ('protein' ou 'nucleotide')
    -query    requête
    -mindate  date minimale à partir de laquelle exécuter la recherche
    -maxdate  date maximale à partir de laquelle exécuter la recherche
    -reldate  date relative en jours à partir de laquelle faire la recherche
    -datetype type de date à utiliser ('edat' ou 'mdat')
    -ids      liste indexée de ref ou de gids (overrides query)  exemple :   -ids=>[195052,2981014,11127914]
    -maxids   nombre maximal d'objets de séquence que l'on veut récupérer (défaut : 100)
Usage : my $db = Bio::DB::Query::GenBank->new(@args);
my $query = Bio::DB::Query::GenBank->new(-db=>'nucleotide',
                                        -query=>$query_string,
                                        -mindate => '2001',
                                        -maxdate => '2002');
Retour : Un nouvel objet de requêtes

Une fois qu'on a compris comment ça fonctionne, c'est très simple. Lisez attentivement les documentation des modules en question.

Passons à la pratique avec des exemples de codes

Récupérer des informations au sujet des séquences de Genbank pour 2 séquences (accession J00522 et gi 78271544)

Sélectionnez

#!/usr/bin/perl
# Script introductif :

# But du script :  Récupérer des informations au sujet des séquences de Genbank pour 2 séquences (accession J00522 et gi 78271544)
# Recherche de leur autre identifiant (acc ou gi), leur longueur, leur séquence complémentaire ainsi que leur description.
use strict;
use warnings;

# Chargement du module GenBank
use Bio::DB::GenBank;

# Création du handle permettant de se connecter à la banque de données GenBank avec le constructeur new qui ne prend aucun argument
my $gb = new Bio::DB::GenBank;


# Création de l'objet $seq1 correspondant à l'accession J00522
my $seq1 = $gb->get_Seq_by_acc('J00522');

# Récupération de sa séquence
my $sequence1 = $seq1->seq();
# récupération de son primary_id
my $gi1 = $seq1->primary_id();
# calcul de la longeur de sa séquence
my $length1 = $seq1->length;
# récupération de sa description
my $description1 = $seq1->desc();
# récupération de sa séquence complémentaire réverse
my $rev_com_seq1 = $seq1->revcom->seq();


# Création de l'objet $seq2 correspondant au Gi 78271544
my $seq2 = $gb->get_Seq_by_gi('78271544');

# Récupération de sa séquence
my $sequence2 = $seq2->seq();
# Récupération de son numéro d'accession
my $acc2 = $seq2->accession_number();
# Calcul de la longeur de sa séquence
my $length2 = $seq2->length;
# Récupération de sa description
my $description2 = $seq2->desc();
# Récupération de sa séquence complémentaire réverse
my $rev_com_seq2 = $seq2->revcom->seq();

Quelques façons d'utiliser ce module.

Sélectionnez

#!/usr/bin/perl
use strict;
use warnings;

# Quelques façons d'utiliser ce module.

# Moduke Bio ::DB ::GenBank
use Bio::DB::GenBank;

# Création du handle permettant de se connecter à la banque de données GenBank avec le constructeur new qui ne prend aucun argument
my $gb = new Bio::DB::GenBank;

# Récupération des informations relatives à une séquence en introduisant son Accession Number
# Utilisation de la méthode get_Seq_by_acc avec en argument l'accession demandé
my $seq = $gb->get_Seq_by_acc('J00522');

# Requête plus complexe via la méthode Bio::DB::Query::GenBank
# Plusieurs paramètres tels que la banque de données à interroger
# Renvoi d'un flux d'objets Bio::SeqIO
my $query = Bio::DB::Query::GenBank->new
(-query   =>'Oryza sativa[Organism] AND EST',
 -reldate => '30',
 -db      => 'nucleotide');
 
# Stockage des différentes séquences correspondant à ces critères dans la variable $seqio
my $seqio = $gb->get_Stream_by_query($query);

# Grâce à une boucle récupération un à un des objets correspondant aux différentes séquences
# Obtention des informations comme par exemple la longueur de la séquence.
while( my $seq =  $seqio->next_seq ) {
print "seq length is ", $seq->length,"\n";
}

# Liste d'accessions par la méthode get_Stream_by_acc
# avec en argument la liste des accession
    my $seqio2 = $gb->get_Stream_by_acc(['AC013798', 'AC021953'] );
    while( my $clone =  $seqio2->next_seq ) {
      print "cloneid is ", $clone->display_id, " ",
             $clone->accession_number, "\n";
    }

Résultat

Sélectionnez

seq length is 1041
seq length is 909
seq length is 2106
cloneid is AC013798 AC013798
cloneid is AC021953 AC021953

Recherche une séquence dans GenBank à partir de Gi ou d'Acc

Sélectionnez

#--------------------------- SeqFromNCBI.pl ---------------------------#
#       recherche une séquence dans GenBank à partir de Gi ou d'Acc
#--------------------------- SeqFromNCBI.pl ---------------------------#


# MODULE : Bio::DB::GenBank - Database object interface to GenBank
# Adresse CPAN http://search.cpan.org/~birney/bioperl-1.4/Bio/DB/GenBank.pm

# Pragmas et les modules qui seront utilisés
use strict;
use warnings;

use Bio::DB::GenBank;


# Handle pour de se connecter à la banque de données GenBank.
# avec le constructeur new qui ne prend aucun argument
my $gb = new Bio::DB::GenBank;


# 1) récupération de séquence par requêtes simples
#--------------------------------------------------
# Requêtes basées sur un ou plusieurs numéros de référence (Acc ou Gi)


print "\n\nREQUETE BASEE SUR UN ACC\n\n";
# Récupération dans $seq de l'objet Genbank contenant de nombreuses informations
# Gi, Acc, séquence, Annotations, Organisme, Espèce, Genre ...
my $Acc = 'AM117601';
my $seq1 = $gb->get_Seq_by_acc($Acc);
# récupération d'informations spécifiques
my $Sequence = $seq1->seq();
my $Description = $seq1->desc();
print "Acc = $Acc\nDescription = $Description\n";


# pour info : visualisation à l'écran de l'ensemble des données.
# use Data::Dumper;
# print Dumper ($seq);
# attention pour les objets de grande taille

# requête équivalente avec le Gi en entrée
my $seq = $gb->get_Seq_by_gi('78271544');

print "\n\nREQUETE BASEE SUR UNE LISTE D'ACC ET DE GI\n\n";
# récupération de plusieurs Acc et Gi
my $seqio = $gb->get_Stream_by_acc([ qw(AM117601 AM117600)]);
while( defined ($seq = $seqio->next_seq )){
        my $Acc = $seq->accession_number();
        my $Sequence = $seq->seq();
        # écriture sous format FASTA
        print ">$Acc\n$Sequence\n";
}

# 2) récupération de séquences par requêtes complexes
#-----------------------------------------------------
# http://search.cpan.org/~birney/bioperl-1.4/Bio/DB/Query/GenBank.pm
# Paramètres pour la recherche dans GenBank
#            -db       base de données ('protein' ou 'nucleotide')
#            -query    requête
#            -mindate  date minimale à partir de laquelle exécuter la recherche
#            -maxdate  date maximale à partir de laquelle exécuter la recherche
#            -reldate  date relative en jours à partir de laquelle faire la recherche
#            -datetype type de date à utiliser ('edat' ou 'mdat')
#            -ids      liste indexée de ref ou de gids (overrides query)  exemple :   -ids=>[195052,2981014,11127914]
#            -maxids   nombre maximal d'objets de séquence que l'on veut récupérer (défaut : 100)

my $db = "nucleotide";
my $mindate;
my $maxdate;
my $reldate;
my $datetype;
my $ids;
my $maxids;

# Recherche des séquences 16S de longueur comprise entre 100 et 150 nucléotide chez E.coli
# (Il faut écrire ici exactement ce que l'on mettrait dans l'interface web GenBank)
# http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide
my $query_string = 'escherichia coli [organism] 16S 100:150[slen]';

my $query = Bio::DB::Query::GenBank->new(   -db=>$db,
                                            -query=>$query_string,
        				                    -mindate => $mindate,
        				                    -maxdate => $maxdate,
                                            -reldate => $reldate,
                                            -datetype => $datetype,
                                            -ids => $ids,
                                            -maxids => $maxids
                                  );

# passage de cet objet de requêtes en argument à la méthode get_Stream_by_query
my $stream = $gb->get_Stream_by_query($query);

my @ListeGi;
print "Liste des séquences complémentaires\n\n\n";
while (my $seq = $stream->next_seq){
        my $Gi = $seq->primary_id();
        my $stringComp = $seq->revcom->seq();
        print " Gi : ".$Gi."\n";
        print " Séquence : ".$seq->seq()."\n";
        print " Complem  : $stringComp\n\n";
        push(@ListeGi, $Gi);
}
print "\n\nREQUETE COMPLEXE\n\n";
print "Liste des Gi trouvés pour 16S\n";
print map{$_."\n"} @ListeGi;

Résultat

Sélectionnez

REQUETE BASEE SUR UN ACC

Acc = AM117601
Description = Escherichia coli partial 16S rRNA gene, isolate ASS Eco.


REQUETE BASEE SUR UNE LISTE D'ACC ET DE GI

>AM117601
GACCTCGGTTTAGTTCACAGAAGCCGTGTTCTCATCCTCCCGCCTCCTCCCCCGTAAAAAAGCCAGGGGGTGGAGGATTTAAGCCATCTCCTGATGACGCATAGTCAGCCCATCA
TGAATGTTGCTGTCGATGACAGGTTGTTACAAAGGGAGAAGGGCATGGCGAGCGTACAGCTGCAAAATGTAACGAAAGCCTGGGGCGAGGTCGTGGTATCGAAAGATATCAATCT
CGATATCCATGAAGGTGAATTCGTGGTGTTTGTCGGACCGTCTGGCTGCGGTAAATCGACTTTACTGCGCATGATTGCCGGGCTTGAGACGATCACCAGCGGCGACCTGTTCATC
GGTGAGAAACGGATGAATGACACTCCGCCAGCAGAACGCGGCGTTGGTATGGTGTTTCAGTCTTACGCGCTCTATCCCCACCTGTCAGTAGCAGAAAACATGTCATTTGGCCCGA
AACTGGCTGGCGCAAAAAAAGAGGTGATTAACCAACGCGTTAACCAGGTGGCGGAAGTGCTACAACTGGCGCATTTGCTGGATCGCAAACCGAAAGCGCTCTCCGGTGGTCAGCG
TCAGCGTGTG
>AM117600
CACACGCTGACGCTGACCACCGGAGAGCGCTTTCGGTTTGCGATCCAGCAAATGCGCCAGTTGCAGCACTTCCGCCACCTGGTTGACGCGTTGGTTAATCACCTCTTTTTTTGCG
CCAGCCAGTTTCAGGCCAAATGACATGTTTTCTGCTACTGACAGGTGGGGATAGAGCGCGTAAGACTGAAACACCATACCAACGCCGCGTTCTGCTGGCGGAGTGTCATTCATCC
GTTTCTCACCGATGAACAGGTCGCCGCTGGTGATCGTCTCAAGCCCGGCAATCATGCGCAGTAAAGTCGATTTACCGCAGCCAGACGGTCCGACAAACACCACGAATTCACCTTC
ATGGATATCGAGATTGATATCTTTCGATACCACGACCTCGCCCCAGGCTTTCGTTACATTTTGCAGCTGTACGCTCGCCATGCCCTTCTCCCTTTGTAACAACCTGTCATCGACA
GCAACATTCATGATGGGCTGACTATGCGTCATCAGGAGATGGCTTAAATCCTCCACCCCCTGGCTTTTTTATGGGGGAGGAGGCGGGAGGATGAGAACACGGCTTCTGTGAACTA
AACCGAGGTC
Liste des sÚquences complÚmentaires


 Gi : 2173347
 Séquence : GGTGGCGAAGGCGGCCCCCTGGACGAAGACTGACGCTCAGGTGCGAAAGCGTGGGGAGCAAACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGATGTC
GACTTGGAGGTTGTGCCCTTGAGGCGTGGCTTCC
 Complem  : GGAAGCCACGCCTCAAGGGCACAACCTCCAAGTCGACATCGTTTACGGCGTGGACTACCAGGGTATCTAATCCTGTTTGCTCCCCACGCTTTCGCACCTGAGC
GTCAGTCTTCGTCCAGGGGGCCGCCTTCGCCACC

 Gi : 2173346
 Séquence : GGGCTCAACCTGGGAACTGCATCTGATACTGGCAAGCTTGAGTCTCGTAGAGGGGGGTAGAATTCCAGGTGTAGCGGTGAAATGCGTAGAGATCTGGAGGAAT
ACC
 Complem  : GGTATTCCTCCAGATCTCTACGCATTTCACCGCTACACCTGGAATTCTACCCCCCTCTACGAGACTCAAGCTTGCCAGTATCAGATGCAGTTCCCAGGTTGAG
CCC

 Gi : 2173338
 Séquence : GCAACCCTTATCCTTTGTTGCCAGCGGTCCGGCCGGGAACTCAAAGGAGACTGCCAGTGATAAACTGGAGGAAGGTGGGGATGACGTCAAGTCATCATGGCCC
TTACGACCAGGGCTACACACGTGCTACAATGGC
 Complem  : GCCATTGTAGCACGTGTGTAGCCCTGGTCGTAAGGGCCATGATGACTTGACGTCATCCCCACCTTCCTCCAGTTTATCACTGGCAGTCTCCTTTGAGTTCCCG
GCCGGACCGCTGGCAACAAAGGATAAGGGTTGC

 Gi : 2173335
 Séquence : CGAGAGCAAGCGGACCTCATAAAGTGCGTCGTAGTCCGGATTGGAGTCTGCAACTCGACTCCATGAAGTCGGAATCGCTAGTAATCGTGGATCAGAATGCCAC
GGTGAATACGTTCCCGGGCCTTGTACACACCGCCCGT
 Complem  : ACGGGCGGTGTGTACAAGGCCCGGGAACGTATTCACCGTGGCATTCTGATCCACGATTACTAGCGATTCCGACTTCATGGAGTCGAGTTGCAGACTCCAATCC
GGACTACGACGCACTTTATGAGGTCCGCTTGCTCTCG

 Gi : 2173333
 Séquence : CGTTAAGTCGACCGTCTGGGGAGTACGGCCGCAAGGTTAAAACTCAAATGAATTGACGGGGGCCCGCACAAGCGGTGGAGCATGTGGTTTAATTCGATGCAAC
G
 Complem  : CGTTGCATCGAATTAAACCACATGCTCCACCGCTTGTGCGGGCCCCCGTCAATTCATTTGAGTTTTAACCTTGCGGCCGTACTCCCCAGACGGTCGACTTAAC
G

 Gi : 2173328
 Séquence : CAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTAATCGGAATTACTGGGCGTAAAGCGCACGCAGGCGGTTTGTTAAGTCAGATGTGAAATCCCCGGGCTCA
ACCTGGGAACTGCATCTGATACTGGCAAG
 Complem  : CTTGCCAGTATCAGATGCAGTTCCCAGGTTGAGCCCGGGGATTTCACATCTGACTTAACAAACCGCCTGCGTGCGCTTTACGCCCAGTAATTCCGATTAACGC
TTGCACCCTCCGTATTACCGCGGCTGCTG



REQUETE COMPLEXE

Liste des Gi trouvés pour 16S
2173347
2173346
2173338
2173335
2173333
2173328
Fin

E-1. Références extérieures▲

Pour ceux qui veulent aller plus loin, vous pouvez consulter le module Site officiel de bioperlSite officiel de bioperl Site PasteurSite Pasteur

Définitions de Wikipedia

GENBANKGENBANK
GENOMEGENOME
NUCLEOTIDENUCLEOTIDE
Format d'un fichier GenBankFormat d'un fichier GenBank

F. Remerciements▲

Je tiens à remercier l'équipe de rédaction Perl pour leur relecture et notamment stoyakprofil stoyak pour la correction détaillée de l'article.

Vous avez aimé ce tutoriel ? Alors partagez-le en cliquant sur les boutons suivants :

Les sources présentées sur cette page sont libres de droits et vous pouvez les utiliser à votre convenance. Par contre, la page de présentation constitue une œuvre intellectuelle protégée par les droits d'auteur. Copyright © 2011 jasmine. Aucune reproduction, même partielle, ne peut être faite de ce site ni de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu'à trois ans de prison et jusqu'à 300 000 € de dommages et intérêts.