2009-11-24 18 views
7

मैं जानने के लिए उत्सुक था अगर वहाँ किसी भी जैव सूचना विज्ञान उपकरण एक multiFASTA फ़ाइल मुझे आदि दृश्यों की संख्या, लंबाई, न्यूक्लियोटाइड/aminoacid सामग्री, जैसे infos दे प्रोसेस करने में सक्षम हो सकता है और स्वचालित रूप से वर्णनात्मक भूखंडों आकर्षित है। इसके अलावा एक आर बायोकॉन्डक्टर समाधान या बायोपेरल मॉड्यूल भी करेगा, लेकिन मुझे कुछ भी ढूंढने का प्रबंधन नहीं हुआ।multiFASTA फ़ाइल प्रोसेसिंग

क्या आप मेरी मदद कर सकते हैं? बहुत बहुत धन्यवाद :-)

उत्तर

7

कुछ एम्बॉस टूल छोटे टूल का संग्रह हैं जो आपकी मदद कर सकते हैं।

  • seqstats रिटर्न अनुक्रम लंबाई
  • pepstats आप aminoacid सामग्री आदि उपकरणों से कुछ भी साजिश रचने कार्यों की पेशकश देना चाहिए। बेहद सुविधाजनक। http://emboss.sourceforge.net/apps/release/5.0/emboss/apps/groups.html

fasta प्रविष्टियों की संख्या गिनी के लिए, मैं का उपयोग करें: grep -c '^>' mySequences.fastagrep '^>' mySequences.fasta | sort | uniq | wc -l

2

तुम भी faSize, जो Kent Source Tree से एक उपकरण है में रुचि हो सकती है, हालांकि:

प्रविष्टियों के बारे में सुनिश्चित कोई भी डुप्लिकेट हैं, मैं जाँच करें कि मैं जब यह कर एक ही नंबर प्राप्त करने के लिए इस में थोड़ा और अधिक प्रयास (आप dload और संकलन करना होगा) बस ग्रेप का उपयोग करने से की आवश्यकता है ... यहाँ कुछ उदाहरण उत्पादन होता है:

[email protected] ~/data $ time faSize myfile.fna 
215400419 bases (104761 N's 215295658 real 215295658 upper 0 lower) in 731620 sequences in 1 files 
Total size: mean 294.4 sd 138.5 min 30 (F5854LK02GG895) max 1623 (F5854LK01AHBEH) median 307 
N count: mean 0.1 sd 0.4 
U count: mean 294.3 sd 138.5 
L count: mean 0.0 sd 0.0 
%0.00 masked total, %0.00 masked real 

real 0m3.710s 
user 0m3.541s 
sys  0m0.164s 
0

ऐसा लगता है (इस पर ठोकर किसी के लिए, जैसा कि मैंने अभी किया) कि इन कार्यों को कॉल करने के लिए विशेष रूप से डिज़ाइन की गई एक मजबूत पायथन लाइब्रेरी है एड Biopython। कोड की कुछ पंक्तियों में, आप उपर्युक्त सभी सवालों के जवाबों को तुरंत एक्सेस कर सकते हैं। यहां कुछ बहुत ही बुनियादी उदाहरण दिए गए हैं, जो अधिकतर लिंक से अनुकूलित होते हैं। ट्यूटोरियल में बॉयलर प्लेट जीसी% ग्राफ और अनुक्रम लंबाई ग्राफ भी हैं।

In [1]: from Bio import SeqIO 

In [2]: allSeqs = [seq_record for seq_record in SeqIO.parse('/home/kevin/stack/ls_orchid.fasta', """fasta""")] 

In [3]: allSeqs[0] 
Out[3]: SeqRecord(seq=Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', SingleLetterAlphabet()), id='gi|2765658|emb|Z78533.1|CIZ78533', name='gi|2765658|emb|Z78533.1|CIZ78533', description='gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA', dbxrefs=[]) 

In [4]: len(allSeqs) #number of unique sequences in the file 
Out[4]: 94 

In [5]: len(allSeqs[0].seq) # call len() on each SeqRecord.seq object 
Out[5]: 740 

In [6]: A_count = allSeqs[0].seq.count('A') 
     C_count = allSeqs[0].seq.count('C') 
     G_count = allSeqs[0].seq.count('G') 
     T_count = allSeqs[0].seq.count('T') 

     ​print A_count # number of A's 

     144 

In [7]: allSeqs[0].seq.count("AUG") # or count how many start codons 
Out[7]: 0 

In [8]: allSeqs[0].seq.translate() # translate DNA -> Amino Acid 
Out[8]: Seq('RNKVSVGEPAEGSLMRPWNKRSSESGGPVYSAHRGHCSRGDPDLLLGRLGSVHG...*VY', HasStopCodon(ExtendedIUPACProtein(), '*'))