में अजीब डेटा मैनिपुलेशन मैं वेस मैकिनी द्वारा डेटा विश्लेषण के लिए पायथन पढ़ रहा हूं, लेकिन मैं इस डेटा मैनिपुलेशन से आश्चर्यचकित था। आप सभी प्रक्रिया here देख सकते हैं लेकिन मैं इसे सारांशित करने का प्रयास करूंगा। मान लें कि आप कुछ इस तरह है:पांडस
In [133]: agg_counts = by_tz_os.size().unstack().fillna(0)
Out[133]:
a Not Windows Windows
tz 245 276
Africa/Cairo 0 3
Africa/Casablanca 0 1
Africa/Ceuta 0 2
Africa/Johannesburg 0 1
Africa/Lusaka 0 1
America/Anchorage 4 1
...
tz
समय क्षेत्र और Not Windows
और Windows
हैं मूल डेटा में उपयोगकर्ता एजेंट से निकाली गई श्रेणियों का मतलब है, तो हम देखते हैं कि 3 विंडोज उपयोगकर्ताओं और 0 गैर खिड़कियों उपयोगकर्ताओं को देख सकते हैं एकत्रित डेटा से अफ्रीका/काहिरा में।
तो आदेश प्राप्त करने के लिए "शीर्ष समग्र समय क्षेत्र" हमारे पास में:
In [134]: indexer = agg_counts.sum(1).argsort()
Out[134]:
tz
24
Africa/Cairo 20
Africa/Casablanca 21
Africa/Ceuta 92
Africa/Johannesburg 87
Africa/Lusaka 53
America/Anchorage 54
America/Argentina/Buenos_Aires 57
America/Argentina/Cordoba 26
America/Argentina/Mendoza 55
America/Bogota 62
...
तो उस बिंदु पर, मैं सोचा होगा कि documentation के अनुसार मैं स्तंभों पर संक्षेप किया गया था (sum(1)
में) और फिर परिणाम के अनुसार सॉर्टिंग तर्क (सामान्य रूप से Argsort में) दिखा रहा है। सबसे पहले, मुझे यकीन नहीं है कि इस श्रृंखला के संदर्भ में "कॉलम" का क्या अर्थ है क्योंकि sum(1)
वास्तव में Not Windows
और Windows
उपयोगकर्ताओं को उस समय के समान पंक्ति में रखने वाले उपयोगकर्ताओं को मानते हैं। इसके अलावा, मैं argsort मानों और agg_counts
के बीच एक सहसंबंध नहीं देख सकता। उदाहरण के लिए, Pacific/Auckland
में "argsort value" (In[134]
में) 0 है और इसमें केवल 11 Windows
और Not Windows
उपयोगकर्ता हैं। Asia/Harbin
में 1 का argsort मान है और 3 Windows
और Windows उपयोगकर्ताओं के साथ प्रदर्शित होता है।
क्या कोई मुझे बता सकता है कि वहां क्या हो रहा है? जाहिर है मैं कुछ गलत समझ रहा हूँ।
ऐसा नहीं है कि किताब में एक वास्तव में भ्रमित उदाहरण है) – Winand