यह मेरी पहली बार पांडों की कोशिश कर रहा है। मुझे लगता है कि मेरे पास उचित उपयोग केस है, लेकिन मैं ठोकर खा रहा हूं। मैं एक पांडस डेटाफ्रेम में एक टैब सीमांकित फ़ाइल लोड करना चाहता हूं, फिर इसे प्रतीक द्वारा समूहित करें और टाइमस्टैम्प कॉलम द्वारा अनुक्रमित x.axis के साथ इसे प्लॉट करें। यहां डेटा का सबसेट है:पांडस डेटाफ्रेम - वांछित सूचकांक में डुप्लिकेट मान हैं
Symbol,Price,M1,M2,Volume,TimeStamp
TBET,2.19,3,8.05,1124179,9:59:14 AM
FUEL,3.949,9,1.15,109674,9:59:11 AM
SUNH,4.37,6,0.09,24394,9:59:09 AM
FUEL,3.9099,8,1.11,105265,9:59:09 AM
TBET,2.18,2,8.03,1121629,9:59:05 AM
ORBC,3.4,2,0.22,10509,9:59:02 AM
FUEL,3.8599,7,1.07,102116,9:58:47 AM
FUEL,3.8544,6,1.05,100116,9:58:40 AM
GBR,3.83,4,0.46,64251,9:58:24 AM
GBR,3.8,3,0.45,63211,9:58:20 AM
XRA,3.6167,3,0.12,42310,9:58:08 AM
GBR,3.75,2,0.34,47521,9:57:52 AM
MPET,1.42,3,0.26,44600,9:57:52 AM
टाइमस्टैम्प कॉलम के बारे में दो चीजें नोट करें;
- यह डुप्लिकेट मानों है और
- अंतराल अनियमित हैं।
मैंने सोचा कि मैं कुछ इस तरह कर सकता है ...
from pandas import *
import pylab as plt
df = read_csv('data.txt',index_col=5)
df.sort(ascending=False)
df.plot()
plt.show()
लेकिन read_csv विधि एक अपवाद को जन्म देती है "की कोशिश की स्तंभों सूचकांक के रूप में 1 एक्स लेकिन पाया डुप्लिकेट"। क्या कोई ऐसा विकल्प है जो मुझे डुप्लिकेट मानों के साथ एक इंडेक्स कॉलम निर्दिष्ट करने की अनुमति देगा?
मैं अपने अनियमित टाइमस्टैम्प अंतराल को एक दूसरे रिज़ॉल्यूशन में संरेखित करने में भी रूचि रखूंगा, फिर भी मैं एक दूसरे के लिए कई कार्यक्रमों को साजिश करना चाहता हूं, लेकिन शायद मैं एक अद्वितीय इंडेक्स पेश कर सकता हूं, फिर अपनी कीमतों को संरेखित कर सकता हूं?
धन्यवाद। मैं pystatsmodels में शामिल हो जाऊँगा - अगर आप उपयोग के मामलों के साथ ठोकर खाने की तलाश में हैं, तो मैं उपजाऊ क्षेत्र हो सकता हूं। – kavu
यदि कच्चे समय से आपका मतलब केवल नमूना दर के साथ पूर्णांक है, तो यहां एक अपवर्त है। वैज्ञानिक रिकॉर्डिंग की पूरी दुनिया उस दिशा में टाइमसाइरीज के विस्तार के लिए बेताब है ... – meteore