A. Introduction▲
Vous lisez un article sur un module couramment utilisé en analyse de
séquences nucléiques. Notre hypothèse est donc que vous connaissez le
langage Perl, que vous maîtrisez la notion de module et que vous connaissez
le domaine de la bioinformatique.
Si tel n'est pas le cas, je vous propose de lire les autres articles qui
sont ou seront mis à disposition sur ce site et qui ont trait à ces
différentes questions.
Le NCBISite du NCBI (National Center for Biotechnology Information) maintient, en
collaboration avec d'autres organisations internationales, un certain
nombre de bases de données, comme PubMed pour la littérature scientifique,
GenBank pour les séquences nucléiques ou OMIM pour les maladies génétiques.
GenBank est une banque généraliste qui contient l'ensemble des séquences
nucléiques, quelle que soit leur nature (ADN génomique, ARN messager,
EST, …). Les séquences produites dans les laboratoires du monde entier
à partir de plus de 100 000 organismes différents sont régulièrement
soumises au NCBI. GenBank croit ainsi de manière exponentielle, doublant
de taille tous les dix mois. La mise à jour 155 d'août 2006 contenait
plus de 65 milliards de nucléotides dans plus de 61 millions de séquences.
La banque se construit soit par des dépôts directs en provenance des
laboratoires, soit par des dépôts en masse des centres de séquençage à grande échelle.
B. Les séquences de GenBank▲
Chaque séquence de GenBank possède deux identifiants : le numéro Accession et le Gi (prononcé ji-aïe !).
- Le numéro Accession
Le numéro Accession est un identifiant unique à chaque enregistrement
(nouvelle séquence entrée dans GenBank avec toutes les informations
s'y rapportant). Il est composé de lettres et de chiffres (parfois
d'un underscore '_'). Il n'est jamais modifié, même si l'enregistrement
est corrigé à la demande de l'auteur.
A l'Accession peut être ajouté un numéro de version si la séquence
se voit modifiée. Pour une combinaison 'accession.version' existe
un numéro Gi unique.
- Le Gi (GenInfo Identifier)
Le Gi est un nombre qui est spécifique à une séquence. Si cette
séquence change de quelque façon que ce soit, un nouveau Gi et
une nouvelle version sont attribués alors que le numéro Accession
n'est pas modifié.
Petit exemple de fichier:
LOCUS AM117601 585 bp DNA linear BCT 13-FEB-2008
DEFINITION Escherichia coli partial 16S rRNA gene, isolate ASS Eco.
ACCESSION AM117601
VERSION AM117601.1 GI:78271544
KEYWORDS 16S ribosomal RNA; 16S rRNA gene.
SOURCE Escherichia coli
ORGANISM Escherichia coli
Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;
Enterobacteriaceae; Escherichia.
REFERENCE 1
AUTHORS Rani,R., Murthy,R.S., Bhattacharya,S., Ahuja,V., Rizvi,M.A. and
Paul,J.
TITLE Changes in bacterial profile during amebiasis: demonstration of
anaerobic bacteria in ALA pus samples
JOURNAL Am. J. Trop. Med. Hyg. 75 (5), 880-885 (2006)
PUBMED 17123981
REFERENCE 2
AUTHORS Rani,R.
TITLE Molecular and biochemical characterization of human gut flora in
enteric disease patients
JOURNAL Unpublished
REFERENCE 3 (bases 1 to 585)
AUTHORS Rani,R.
TITLE Direct Submission
JOURNAL Submitted (20-OCT-2005) Rani R., School of Life Sciences,
Jawaharlal Nehru University, Dr. Jaishree Paul, Lab No. 441, School
of Life Sciences, JNU, New Delhi, 110067, INDIA
FEATURES Location/Qualifiers
source 1..585
/organism="Escherichia coli"
/mol_type="genomic DNA"
/isolate="ASS Eco"
/isolation_source="human faeces"
/db_xref="taxon:562"
/country="India"
gene <1..>585
/gene="16S rRNA"
rRNA <1..>585
/gene="16S rRNA"
/product="16S ribosomal RNA"
ORIGIN
1 gacctcggtt tagttcacag aagccgtgtt ctcatcctcc cgcctcctcc cccgtaaaaa
61 agccaggggg tggaggattt aagccatctc ctgatgacgc atagtcagcc catcatgaat
121 gttgctgtcg atgacaggtt gttacaaagg gagaagggca tggcgagcgt acagctgcaa
181 aatgtaacga aagcctgggg cgaggtcgtg gtatcgaaag atatcaatct cgatatccat
241 gaaggtgaat tcgtggtgtt tgtcggaccg tctggctgcg gtaaatcgac tttactgcgc
301 atgattgccg ggcttgagac gatcaccagc ggcgacctgt tcatcggtga gaaacggatg
361 aatgacactc cgccagcaga acgcggcgtt ggtatggtgt ttcagtctta cgcgctctat
421 ccccacctgt cagtagcaga aaacatgtca tttggcccga aactggctgg cgcaaaaaaa
481 gaggtgatta accaacgcgt taaccaggtg gcggaagtgc tacaactggc gcatttgctg
541 gatcgcaaac cgaaagcgct ctccggtggt cagcgtcagc gtgtg
//
Il contient les informations de la séquence du gène codant pour l'ARNr 16S chez la bactérie Escherichia coli.
- séquence : gacctcggtt ... gtgtg
- organisme : Escherichia coli
- Numéro Accession : AM117601
- Numéro Gi : 78271544
- Description : Escherichia coli partial 16S rRNA gene,
isolate ASS Eco.
- Taille de la séquence : 585 bp
C. Le module Bio::DB::GenBank▲
Le module Bio::DB::GenBank permet de télécharger des informations relatives aux
séquences, tels que sa description, sa longueur, ses numéros d'identification,
des informations au sujet de l'organisme ...
L'avantage est une utilisation simple et rapide afin de récupérer automatiquement
de nombreuses séquences en une fois, ce qui serait très fastidieux manuellement
et augmenterait les risques d'erreurs. Celles-ci peuvent être formatées ou
chargées dans des bases de données locales.
Il est également possible de faire directement appel à d'autres modules sur ces séquences : Bio::Tools::Run::Alignment::Clustalw pour réaliser un alignement multiple ou Bio::Tools::Run::StandAloneBlast pour faire un BLAST d'une séquence inconnue sur celles identifiées dans GenBank.
Lorsque l'on utilise ce module, la première chose à faire est de le charger.
use Bio::DB::GenBank;
La deuxième chose à faire est de créer un objet Bio::DB::GenBank via le constructeur 'new'. Il permet la connexion avec la banque de données GenBank. Il est ainsi possible de rechercher des informations en interrogeant la banque via diverses méthodes existant.
D. Description de certaines méthodes du module▲
D-1. Méthodes permettant la récupération d'informations▲
Certaines méthodes du module permettent de récupérer la séquence via
un numéro d'identification (get_Seq_by_id) ou un numéro d'accession
(get_Seq_by_acc) ou même un Gi (get_Seq_by_gi).
D'autres méthodes permettent de récupérer un ensemble de séquences en
introduisant une liste d'identifiants ou une requête plus complexe.
Les méthodes 'get_Stream_by_id', 'get_Stream_by_acc' et 'get_Stream_by_gi'
prennent en entrée une liste d'Id, d'Acc ou de GI, tandis que la méthodes
'get_Stream_by_query' permet une requête plus complexe telle :
my $query
=
Bio::DB::Query::GenBank->
new (
-
query =>
'Oryza sativa[Organism] AND EST'
,
-
reldate =>
'30'
,
-
db =>
'nucleotide'
,
);
my $seqio
=
$gb-
>
get_Stream_by_query($query
);
Cette requête recherche dans la base de données 'nucleotide' les entrées de GenBank de l'organisme Oryza sativa contenant le mot clé "EST" ayant été modifiées (par défaut) dans GenBank au cours des 30 derniers jours. Il est également possible d'obtenir les séquences ayant été créées depuis au maximum 30 jours en ajoutant le paramètre -datetype => 'edat' car par défaut celui-ci a pour valeur 'mdat' (m pour modified).
D-2. Manipulation de la séquence et récupération d'informations▲
Il est possible de retrouver des valeurs précises provenant de l'objet, comme sa séquence, ses identifiants, sa longueur, sa description, son type ('dna','rna','protein').
- ‘seq' pour la séquence,
- ‘length' pour la longueur,
- ‘accession_number' pour l'accession,
- ‘primary_id' pour l'identifiant primaire,
- ‘description' pour la description,
- ‘revcom' pour la séquence complémentaire
- ‘trunc' pour obtenir une sous-séquence.
Petits exemples de code :
my $stringComp
=
$seq-
>
revcom->
seq();
my $stringComp
=
$seq-
>
revcom->
seq();
my $stringComp
=
$seq-
>
revcom->
seq();
E. Banques travaillant en collaboration▲
Selon le site de Pasteursite de Pasteur, il existe trois banques travaillant en étroite collaboration dont les missions sont de collecter, maintenir et distribuer publiquement l'information primaire représentée par toutes les séquences nucléotidiques connues. Il s'agit de :
- l'EMBL [52], créée en 1980 par l'EMBL (European Molecular Biology Laboratory). Elle est maintenue à l'EBI (European Bioinformatics Institute) [6];
- GenBank, créée en 1982 au Los Alamos National Laboratory. Elle est maintenue au NCBI (National Center for Biotechnology information) [7] qui dépend du NIH (National Institute of Health) américain [55, 54] ;
- DDBJ (DNA Data Bank of Japan) [99], maintenue par le Centre d'Information Biologique de l'Institut National de Génétique [8], à Mishim. Elle s'est jointe à l'effort des deux précédentes en 1986.
La séquence est séparée des annotations. On distingue deux parties
dans ces dernières :
le format de la première partie est relativement souple et varie
d'une banque à l'autre. On y trouve entre autres les dates de
création et éventuellement de modification de l'entrée, le numéro
d'accession (partagé par les trois banques), des références d'articles
relatifs à la publication de la séquence, l'origine biologique, ainsi
qu'éventuellement d'autres identifiants (un ou plusieurs appelés 'gi',
geninfo identifier).
Depuis février 1999, la collaboration internationale entre les
trois banques a décidé d'adopter une nomenclature commune pour
représenter ces modifications. En plus du numéro d'accession, chaque
séquence se voit attribuer un numéro de version de la forme 'ac.version'
( 'ac' est le numéro d'Accession). Lorsqu'une séquence est ajoutée, le
numéro de version est 'ac.1'. Si elle est modifiée, il deviendra 'ac.2',
le numéro d'accession restant stable. De ce fait, les " gi number " de
GenBank sont amenés à disparaître même s'ils sont pour le moment
maintenus pour des raisons de compatibilité avec les programmes les
utilisant ou les autres banques y faisant référence [55,
16].
La seconde partie concerne les propriétés ou caractéristiques (lignes
'Features' pour GenBank et DDBJ, 'FT' pour EMBL) associées à tout ou
partie de la séquence. Un des aspects de la collaboration entre les
trois banques est l'adoption d'une nomenclature et de règles communes
quant au format de cette partie. La 'Feature Table Definition'
décrit en détail ce format. Il est disponible sur le site de l'EBI [17].
Cette partie est structurée en sous-parties correspondant aux différentes
caractéristiques de la séquence. Le type d'une caractéristique est indiqué
par un mot-clé choisi parmi un vocabulaire contrôlé. Des exemples de
clés sont 'source' (tous les éléments permettant de retrouver l'origine
moléculaire de la séquence), ou 'CDS' ('Coding Sequence'). Pour une
caractéristique donnée, sont également indiquées les positions dans
la séquence délimitant la sous-séquence concernée, ainsi qu'un certain
nombre d'attributs qualifiants. Il existe d'ailleurs une liste
d'attributs possibles pour chaque clé comme par exemple, pour un CDS,
l'attribut 'translation' correspondant à la séquence en acides aminés
déduite de la séquence nucléotidique, l'attribut 'db_xref' pour indiquer
des références croisées avec d'autres banques (de protéines par exemple),
ou 'protein_id' suivi d'un numéro identifiant la protéine virtuelle correspondante.
Les banques GenBank/EMBL/DDBJ constituent donc une archive complète
des séquences nucléotidiques primaires connues à ce jour.
Titre : new
Usage : my $gb = Bio::DB::GenBank->new(@options);
But : Création du constructeur new
Retourne : handle New genbank handle
Arguments : -delay permet de définir 3 secondes entre chaque recherche d'identifiant
Méthode : get_Seq_by_acc
Usage : $seq = $db->get_Seq_by_acc($acc);
But : Obtenir un objet de type Bio::Seq utile pour la suite afin de récupérer la séquence
Arguments : le numéro d'accession, composé de lettres, chiffres et parfois d'un underscore
Méthode : get_Seq_by_id
Usage : my $seq = $db->get_Seq_by_id('ROA1_HUMAN');
But : Obtenir un objet de type Bio::Seq utile pour la suite
Arguments : le numéro d'identifiant, composé de lettres, chiffres et parfois d'un underscore
Méthode : get_Stream_by_query
Usage : my $seq = $db->get_Stream_by_query($query);
But : Obtenir un objet de type Bio::SeqIO utile pour la suite
Arguments : $query qui est lui même soit un objet de type Bio::DB::Query::GenBank
Il est conseillé de créer un objet Bio::DB::Query::GenBank et de compter le nombre d'entrées
avant d'éxécuter une requête pouvant retourner un très grand nombre de séquences.
C'est le même principe :
- get_Stream_by_query : my $seqio = $gb->get_Stream_by_query($query);
- get_Stream_by_acc : my $seqio = $gb->get_Stream_by_acc($ref);
Crée un objet de requêtes
Parametres :
-db base de données ('protein' ou 'nucleotide')
-query requête
-mindate date minimale à partir de laquelle exécuter la recherche
-maxdate date maximale à partir de laquelle exécuter la recherche
-reldate date relative en jours à partir de laquelle faire la recherche
-datetype type de date à utiliser ('edat' ou 'mdat')
-ids liste indexée de ref ou de gids (overrides query) exemple : -ids=>[195052,2981014,11127914]
-maxids nombre maximal d'objets de séquence que l'on veut récupérer (défaut : 100)
Usage : my $db = Bio::DB::Query::GenBank->new(@args);
my $query = Bio::DB::Query::GenBank->new(-db=>'nucleotide',
-query=>$query_string,
-mindate => '2001',
-maxdate => '2002');
Retour : Un nouvel objet de requêtes
Une fois qu'on a compris comment ça fonctionne, c'est très simple. Lisez attentivement les documentation des modules en question.
Passons à la pratique avec des exemples de codes
#!/usr/bin/perl
# Script introductif :
# But du script : Récupérer des informations au sujet des séquences de Genbank pour 2 séquences (accession J00522 et gi 78271544)
# Recherche de leur autre identifiant (acc ou gi), leur longueur, leur séquence complémentaire ainsi que leur description.
use strict;
use warnings;
# Chargement du module GenBank
use Bio::DB::GenBank;
# Création du handle permettant de se connecter à la banque de données GenBank avec le constructeur new qui ne prend aucun argument
my $gb
=
new Bio::DB::GenBank;
# Création de l'objet $seq1 correspondant à l'accession J00522
my $seq1
=
$gb-
>
get_Seq_by_acc('J00522'
);
# Récupération de sa séquence
my $sequence1
=
$seq1-
>
seq();
# récupération de son primary_id
my $gi1
=
$seq1-
>
primary_id();
# calcul de la longeur de sa séquence
my $length1
=
$seq1-
>
length
;
# récupération de sa description
my $description1
=
$seq1-
>
desc();
# récupération de sa séquence complémentaire réverse
my $rev_com_seq1
=
$seq1-
>
revcom->
seq();
# Création de l'objet $seq2 correspondant au Gi 78271544
my $seq2
=
$gb-
>
get_Seq_by_gi('78271544'
);
# Récupération de sa séquence
my $sequence2
=
$seq2-
>
seq();
# Récupération de son numéro d'accession
my $acc2
=
$seq2-
>
accession_number();
# Calcul de la longeur de sa séquence
my $length2
=
$seq2-
>
length
;
# Récupération de sa description
my $description2
=
$seq2-
>
desc();
# Récupération de sa séquence complémentaire réverse
my $rev_com_seq2
=
$seq2-
>
revcom->
seq();
#!/usr/bin/perl
use strict;
use warnings;
# Quelques façons d'utiliser ce module.
# Moduke Bio ::DB ::GenBank
use Bio::DB::GenBank;
# Création du handle permettant de se connecter à la banque de données GenBank avec le constructeur new qui ne prend aucun argument
my $gb
=
new Bio::DB::GenBank;
# Récupération des informations relatives à une séquence en introduisant son Accession Number
# Utilisation de la méthode get_Seq_by_acc avec en argument l'accession demandé
my $seq
=
$gb-
>
get_Seq_by_acc('J00522'
);
# Requête plus complexe via la méthode Bio::DB::Query::GenBank
# Plusieurs paramètres tels que la banque de données à interroger
# Renvoi d'un flux d'objets Bio::SeqIO
my $query
=
Bio::DB::Query::GenBank->
new
(-
query =>
'Oryza sativa[Organism] AND EST'
,
-
reldate =>
'30'
,
-
db =>
'nucleotide'
);
# Stockage des différentes séquences correspondant à ces critères dans la variable $seqio
my $seqio
=
$gb-
>
get_Stream_by_query($query
);
# Grâce à une boucle récupération un à un des objets correspondant aux différentes séquences
# Obtention des informations comme par exemple la longueur de la séquence.
while( my $seq
=
$seqio-
>
next_seq ) {
print
"seq length is "
, $seq-
>
length
,"
\n
"
;
}
# Liste d'accessions par la méthode get_Stream_by_acc
# avec en argument la liste des accession
my $seqio2
=
$gb-
>
get_Stream_by_acc(['AC013798'
, 'AC021953'
] );
while( my $clone
=
$seqio2-
>
next_seq ) {
print
"cloneid is "
, $clone-
>
display_id, " "
,
$clone-
>
accession_number, "
\n
"
;
}
seq length is 1041
seq length is 909
seq length is 2106
cloneid is AC013798 AC013798
cloneid is AC021953 AC021953
#--------------------------- SeqFromNCBI.pl ---------------------------#
# recherche une séquence dans GenBank à partir de Gi ou d'Acc
#--------------------------- SeqFromNCBI.pl ---------------------------#
# MODULE : Bio::DB::GenBank - Database object interface to GenBank
# Adresse CPAN http://search.cpan.org/~birney/bioperl-1.4/Bio/DB/GenBank.pm
# Pragmas et les modules qui seront utilisés
use strict;
use warnings;
use Bio::DB::GenBank;
# Handle pour de se connecter à la banque de données GenBank.
# avec le constructeur new qui ne prend aucun argument
my $gb
=
new Bio::DB::GenBank;
# 1) récupération de séquence par requêtes simples
#--------------------------------------------------
# Requêtes basées sur un ou plusieurs numéros de référence (Acc ou Gi)
print
"
\n\n
REQUETE BASEE SUR UN ACC
\n\n
"
;
# Récupération dans $seq de l'objet Genbank contenant de nombreuses informations
# Gi, Acc, séquence, Annotations, Organisme, Espèce, Genre ...
my $Acc
=
'AM117601'
;
my $seq1
=
$gb-
>
get_Seq_by_acc($Acc
);
# récupération d'informations spécifiques
my $Sequence
=
$seq1-
>
seq();
my $Description
=
$seq1-
>
desc();
print
"Acc =
$Acc\n
Description =
$Description\n
"
;
# pour info : visualisation à l'écran de l'ensemble des données.
# use Data::Dumper;
# print Dumper ($seq);
# attention pour les objets de grande taille
# requête équivalente avec le Gi en entrée
my $seq
=
$gb-
>
get_Seq_by_gi('78271544'
);
print
"
\n\n
REQUETE BASEE SUR UNE LISTE D'ACC ET DE GI
\n\n
"
;
# récupération de plusieurs Acc et Gi
my $seqio
=
$gb-
>
get_Stream_by_acc([ qw(AM117601 AM117600)
]);
while( defined
($seq
=
$seqio-
>
next_seq )){
my $Acc
=
$seq-
>
accession_number();
my $Sequence
=
$seq-
>
seq();
# écriture sous format FASTA
print
">
$Acc\n$Sequence\n
"
;
}
# 2) récupération de séquences par requêtes complexes
#-----------------------------------------------------
# http://search.cpan.org/~birney/bioperl-1.4/Bio/DB/Query/GenBank.pm
# Paramètres pour la recherche dans GenBank
# -db base de données ('protein' ou 'nucleotide')
# -query requête
# -mindate date minimale à partir de laquelle exécuter la recherche
# -maxdate date maximale à partir de laquelle exécuter la recherche
# -reldate date relative en jours à partir de laquelle faire la recherche
# -datetype type de date à utiliser ('edat' ou 'mdat')
# -ids liste indexée de ref ou de gids (overrides query) exemple : -ids=>[195052,2981014,11127914]
# -maxids nombre maximal d'objets de séquence que l'on veut récupérer (défaut : 100)
my $db
=
"nucleotide"
;
my $mindate
;
my $maxdate
;
my $reldate
;
my $datetype
;
my $ids
;
my $maxids
;
# Recherche des séquences 16S de longueur comprise entre 100 et 150 nucléotide chez E.coli
# (Il faut écrire ici exactement ce que l'on mettrait dans l'interface web GenBank)
# http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide
my $query_string
=
'escherichia coli [organism] 16S 100:150[slen]'
;
my $query
=
Bio::DB::Query::GenBank->
new( -
db=>
$db
,
-
query=>
$query_string
,
-
mindate =>
$mindate
,
-
maxdate =>
$maxdate
,
-
reldate =>
$reldate
,
-
datetype =>
$datetype
,
-
ids =>
$ids
,
-
maxids =>
$maxids
);
# passage de cet objet de requêtes en argument à la méthode get_Stream_by_query
my $stream
=
$gb-
>
get_Stream_by_query($query
);
my @ListeGi
;
print
"Liste des séquences complémentaires
\n\n\n
"
;
while (my $seq
=
$stream-
>
next_seq){
my $Gi
=
$seq-
>
primary_id();
my $stringComp
=
$seq-
>
revcom->
seq();
print
" Gi : "
.$Gi
."
\n
"
;
print
" Séquence : "
.$seq-
>
seq()."
\n
"
;
print
" Complem :
$stringComp\n\n
"
;
push
(@ListeGi
, $Gi
);
}
print
"
\n\n
REQUETE COMPLEXE
\n\n
"
;
print
"Liste des Gi trouvés pour 16S
\n
"
;
print
map
{
$_
."
\n
"
}
@ListeGi
;
REQUETE BASEE SUR UN ACC
Acc = AM117601
Description = Escherichia coli partial 16S rRNA gene, isolate ASS Eco.
REQUETE BASEE SUR UNE LISTE D'ACC ET DE GI
>AM117601
GACCTCGGTTTAGTTCACAGAAGCCGTGTTCTCATCCTCCCGCCTCCTCCCCCGTAAAAAAGCCAGGGGGTGGAGGATTTAAGCCATCTCCTGATGACGCATAGTCAGCCCATCA
TGAATGTTGCTGTCGATGACAGGTTGTTACAAAGGGAGAAGGGCATGGCGAGCGTACAGCTGCAAAATGTAACGAAAGCCTGGGGCGAGGTCGTGGTATCGAAAGATATCAATCT
CGATATCCATGAAGGTGAATTCGTGGTGTTTGTCGGACCGTCTGGCTGCGGTAAATCGACTTTACTGCGCATGATTGCCGGGCTTGAGACGATCACCAGCGGCGACCTGTTCATC
GGTGAGAAACGGATGAATGACACTCCGCCAGCAGAACGCGGCGTTGGTATGGTGTTTCAGTCTTACGCGCTCTATCCCCACCTGTCAGTAGCAGAAAACATGTCATTTGGCCCGA
AACTGGCTGGCGCAAAAAAAGAGGTGATTAACCAACGCGTTAACCAGGTGGCGGAAGTGCTACAACTGGCGCATTTGCTGGATCGCAAACCGAAAGCGCTCTCCGGTGGTCAGCG
TCAGCGTGTG
>AM117600
CACACGCTGACGCTGACCACCGGAGAGCGCTTTCGGTTTGCGATCCAGCAAATGCGCCAGTTGCAGCACTTCCGCCACCTGGTTGACGCGTTGGTTAATCACCTCTTTTTTTGCG
CCAGCCAGTTTCAGGCCAAATGACATGTTTTCTGCTACTGACAGGTGGGGATAGAGCGCGTAAGACTGAAACACCATACCAACGCCGCGTTCTGCTGGCGGAGTGTCATTCATCC
GTTTCTCACCGATGAACAGGTCGCCGCTGGTGATCGTCTCAAGCCCGGCAATCATGCGCAGTAAAGTCGATTTACCGCAGCCAGACGGTCCGACAAACACCACGAATTCACCTTC
ATGGATATCGAGATTGATATCTTTCGATACCACGACCTCGCCCCAGGCTTTCGTTACATTTTGCAGCTGTACGCTCGCCATGCCCTTCTCCCTTTGTAACAACCTGTCATCGACA
GCAACATTCATGATGGGCTGACTATGCGTCATCAGGAGATGGCTTAAATCCTCCACCCCCTGGCTTTTTTATGGGGGAGGAGGCGGGAGGATGAGAACACGGCTTCTGTGAACTA
AACCGAGGTC
Liste des sÚquences complÚmentaires
Gi : 2173347
Séquence : GGTGGCGAAGGCGGCCCCCTGGACGAAGACTGACGCTCAGGTGCGAAAGCGTGGGGAGCAAACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGATGTC
GACTTGGAGGTTGTGCCCTTGAGGCGTGGCTTCC
Complem : GGAAGCCACGCCTCAAGGGCACAACCTCCAAGTCGACATCGTTTACGGCGTGGACTACCAGGGTATCTAATCCTGTTTGCTCCCCACGCTTTCGCACCTGAGC
GTCAGTCTTCGTCCAGGGGGCCGCCTTCGCCACC
Gi : 2173346
Séquence : GGGCTCAACCTGGGAACTGCATCTGATACTGGCAAGCTTGAGTCTCGTAGAGGGGGGTAGAATTCCAGGTGTAGCGGTGAAATGCGTAGAGATCTGGAGGAAT
ACC
Complem : GGTATTCCTCCAGATCTCTACGCATTTCACCGCTACACCTGGAATTCTACCCCCCTCTACGAGACTCAAGCTTGCCAGTATCAGATGCAGTTCCCAGGTTGAG
CCC
Gi : 2173338
Séquence : GCAACCCTTATCCTTTGTTGCCAGCGGTCCGGCCGGGAACTCAAAGGAGACTGCCAGTGATAAACTGGAGGAAGGTGGGGATGACGTCAAGTCATCATGGCCC
TTACGACCAGGGCTACACACGTGCTACAATGGC
Complem : GCCATTGTAGCACGTGTGTAGCCCTGGTCGTAAGGGCCATGATGACTTGACGTCATCCCCACCTTCCTCCAGTTTATCACTGGCAGTCTCCTTTGAGTTCCCG
GCCGGACCGCTGGCAACAAAGGATAAGGGTTGC
Gi : 2173335
Séquence : CGAGAGCAAGCGGACCTCATAAAGTGCGTCGTAGTCCGGATTGGAGTCTGCAACTCGACTCCATGAAGTCGGAATCGCTAGTAATCGTGGATCAGAATGCCAC
GGTGAATACGTTCCCGGGCCTTGTACACACCGCCCGT
Complem : ACGGGCGGTGTGTACAAGGCCCGGGAACGTATTCACCGTGGCATTCTGATCCACGATTACTAGCGATTCCGACTTCATGGAGTCGAGTTGCAGACTCCAATCC
GGACTACGACGCACTTTATGAGGTCCGCTTGCTCTCG
Gi : 2173333
Séquence : CGTTAAGTCGACCGTCTGGGGAGTACGGCCGCAAGGTTAAAACTCAAATGAATTGACGGGGGCCCGCACAAGCGGTGGAGCATGTGGTTTAATTCGATGCAAC
G
Complem : CGTTGCATCGAATTAAACCACATGCTCCACCGCTTGTGCGGGCCCCCGTCAATTCATTTGAGTTTTAACCTTGCGGCCGTACTCCCCAGACGGTCGACTTAAC
G
Gi : 2173328
Séquence : CAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTAATCGGAATTACTGGGCGTAAAGCGCACGCAGGCGGTTTGTTAAGTCAGATGTGAAATCCCCGGGCTCA
ACCTGGGAACTGCATCTGATACTGGCAAG
Complem : CTTGCCAGTATCAGATGCAGTTCCCAGGTTGAGCCCGGGGATTTCACATCTGACTTAACAAACCGCCTGCGTGCGCTTTACGCCCAGTAATTCCGATTAACGC
TTGCACCCTCCGTATTACCGCGGCTGCTG
REQUETE COMPLEXE
Liste des Gi trouvés pour 16S
2173347
2173346
2173338
2173335
2173333
2173328
Fin
E-1. Références extérieures▲
Pour ceux qui veulent aller plus loin, vous pouvez consulter le module Site officiel de bioperlSite officiel de bioperlSite PasteurSite Pasteur
- Définitions de Wikipedia
GENBANKGENBANK
GENOMEGENOME
NUCLEOTIDENUCLEOTIDE
Format d'un fichier GenBankFormat d'un fichier GenBank
F. Remerciements▲
Je tiens à remercier l'équipe de rédaction Perl pour leur relecture et notamment stoyakprofil stoyak pour la correction détaillée de l'article.