ऐसा लगता है (इस पर ठोकर किसी के लिए, जैसा कि मैंने अभी किया) कि इन कार्यों को कॉल करने के लिए विशेष रूप से डिज़ाइन की गई एक मजबूत पायथन लाइब्रेरी है एड Biopython। कोड की कुछ पंक्तियों में, आप उपर्युक्त सभी सवालों के जवाबों को तुरंत एक्सेस कर सकते हैं। यहां कुछ बहुत ही बुनियादी उदाहरण दिए गए हैं, जो अधिकतर लिंक से अनुकूलित होते हैं। ट्यूटोरियल में बॉयलर प्लेट जीसी% ग्राफ और अनुक्रम लंबाई ग्राफ भी हैं।
In [1]: from Bio import SeqIO
In [2]: allSeqs = [seq_record for seq_record in SeqIO.parse('/home/kevin/stack/ls_orchid.fasta', """fasta""")]
In [3]: allSeqs[0]
Out[3]: SeqRecord(seq=Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', SingleLetterAlphabet()), id='gi|2765658|emb|Z78533.1|CIZ78533', name='gi|2765658|emb|Z78533.1|CIZ78533', description='gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA', dbxrefs=[])
In [4]: len(allSeqs) #number of unique sequences in the file
Out[4]: 94
In [5]: len(allSeqs[0].seq) # call len() on each SeqRecord.seq object
Out[5]: 740
In [6]: A_count = allSeqs[0].seq.count('A')
C_count = allSeqs[0].seq.count('C')
G_count = allSeqs[0].seq.count('G')
T_count = allSeqs[0].seq.count('T')
print A_count # number of A's
144
In [7]: allSeqs[0].seq.count("AUG") # or count how many start codons
Out[7]: 0
In [8]: allSeqs[0].seq.translate() # translate DNA -> Amino Acid
Out[8]: Seq('RNKVSVGEPAEGSLMRPWNKRSSESGGPVYSAHRGHCSRGDPDLLLGRLGSVHG...*VY', HasStopCodon(ExtendedIUPACProtein(), '*'))