मैं PostgreSQL 9.2 पर अनुकूलन करने के लिए इस क्वेरी दिया हूँ:Postgresql क्वेरी अनुकूलन कोई आंतरिक/बाहरी अनुमति शामिल होने
SELECT C.name, COUNT(DISTINCT I.id) AS NumItems, COUNT(B.id)
FROM Categories C INNER JOIN Items I ON(C.id = I.category)
INNER JOIN Bids B ON (I.id = B.item_id)
GROUP BY C.name
मेरे स्कूल असाइनमेंट के हिस्से के रूप। > 2ndary बी + पेड़, bids(item_id)
- -> 2ndary बी + पेड़, और categories(id)
-> प्राथमिक सूचकांक यहाँ,
अजीब हिस्सा है, PostgreSQL items(category)
:
मैं संबंधित मेज पर इन अनुक्रमित बनाया है मेरे आइटम, श्रेणियां, और बोलियों की तालिका पर अनुक्रमिक स्कैन कर रहा है, और जब मैं enable_seqscan=off
सेट करता हूं, तो इंडेक्स खोज नीचे दिए गए परिणाम से अधिक भयानक साबित होती है।
जब मैं PostgreSQL में समझाता हूं तो यह परिणाम होता है: कृपया उन लोगों को हटाएं क्योंकि वे महत्वपूर्ण हैं!
GroupAggregate (cost=119575.55..125576.11 rows=20 width=23) (actual time=6912.523..9459.431 rows=20 loops=1)
Buffers: shared hit=30 read=12306, temp read=6600 written=6598
-> Sort (cost=119575.55..121075.64 rows=600036 width=23) (actual time=6817.015..8031.285 rows=600036 loops=1)
Sort Key: c.name
Sort Method: external merge Disk: 20160kB
Buffers: shared hit=30 read=12306, temp read=6274 written=6272
-> Hash Join (cost=9416.95..37376.03 rows=600036 width=23) (actual time=407.974..3322.253 rows=600036 loops=1)
Hash Cond: (b.item_id = i.id)
Buffers: shared hit=30 read=12306, temp read=994 written=992
-> Seq Scan on bids b (cost=0.00..11001.36 rows=600036 width=8) (actual time=0.009..870.898 rows=600036 loops=1)
Buffers: shared hit=2 read=4999
-> Hash (cost=8522.95..8522.95 rows=50000 width=19) (actual time=407.784..407.784 rows=50000 loops=1)
Buckets: 4096 Batches: 2 Memory Usage: 989kB
Buffers: shared hit=28 read=7307, temp written=111
-> Hash Join (cost=1.45..8522.95 rows=50000 width=19) (actual time=0.082..313.211 rows=50000 loops=1)
Hash Cond: (i.category = c.id)
Buffers: shared hit=28 read=7307
-> Seq Scan on items i (cost=0.00..7834.00 rows=50000 width=8) (actual time=0.004..144.554 rows=50000 loops=1)
Buffers: shared hit=27 read=7307
-> Hash (cost=1.20..1.20 rows=20 width=19) (actual time=0.062..0.062 rows=20 loops=1)
Buckets: 1024 Batches: 1 Memory Usage: 1kB
Buffers: shared hit=1
-> Seq Scan on categories c (cost=0.00..1.20 rows=20 width=19) (actual time=0.004..0.028 rows=20 loops=1)
Buffers: shared hit=1
Total runtime: 9473.257 ms
this plan on explain.depesz.com देखें।
मैं सिर्फ यह जानना चाहता हूं कि ऐसा क्यों होता है, यानी अनुक्रमिक स्कैन की तुलना में इंडेक्स क्वेरी को बेहद धीमी गति से क्यों बनाते हैं।
संपादित करें: मुझे लगता है कि मैंने पोस्टग्रेस्क्ल दस्तावेज़ों के माध्यम से कुछ सामानों को उजागर करने में कामयाब रहा है। पोस्टग्रेस्क्ल ने बोलियों और वस्तुओं जैसी कुछ तालिकाओं पर सीक स्कैन करने का निर्णय लिया क्योंकि यह अनुमान लगाया गया है कि इसे तालिका में प्रत्येक पंक्ति को पुनर्प्राप्त करना होगा (वास्तविक समय से पहले ब्रैकेट में पंक्तियों की संख्या और वास्तविक समय में पंक्तियों की संख्या की तुलना करें अंश)। सभी पंक्तियों को पुनः प्राप्त करने में अनुक्रमिक स्कैन बेहतर है। उस हिस्से में कुछ भी नहीं किया जा सकता है।
मैंने categories(name)
के लिए अतिरिक्त अनुक्रमणिका बनाई है, और नीचे दिया गया परिणाम मेरे पास है। यह किसी भी तरह से सुधार हुआ है लेकिन अब हैश जॉइन को नेस्टेड लूप के साथ बदल दिया गया है। क्यों कोई सुराग?
GroupAggregate (cost=0.00..119552.02 rows=20 width=23) (actual time=617.330..7725.314 rows=20 loops=1)
Buffers: shared hit=178582 read=37473 written=14, temp read=2435 written=436
-> Nested Loop (cost=0.00..115051.55 rows=600036 width=23) (actual time=0.120..6186.496 rows=600036 loops=1)
Buffers: shared hit=178582 read=37473 written=14, temp read=2109 written=110
-> Nested Loop (cost=0.00..26891.55 rows=50000 width=19) (actual time=0.066..2827.955 rows=50000 loops=1)
Join Filter: (c.id = i.category)
Rows Removed by Join Filter: 950000
Buffers: shared hit=2 read=7334 written=1, temp read=2109 written=110
-> Index Scan using categories_name_idx on categories c (cost=0.00..12.55 rows=20 width=19) (actual time=0.039..0.146 rows=20 loops=1)
Buffers: shared hit=1 read=1
-> Materialize (cost=0.00..8280.00 rows=50000 width=8) (actual time=0.014..76.908 rows=50000 loops=20)
Buffers: shared hit=1 read=7333 written=1, temp read=2109 written=110
-> Seq Scan on items i (cost=0.00..7834.00 rows=50000 width=8) (actual time=0.007..170.464 rows=50000 loops=1)
Buffers: shared hit=1 read=7333 written=1
-> Index Scan using bid_itemid_idx on bids b (cost=0.00..1.60 rows=16 width=8) (actual time=0.016..0.036 rows=12 loops=50000)
Index Cond: (item_id = i.id)
Buffers: shared hit=178580 read=30139 written=13
Total runtime: 7726.392 ms
यदि यह बेहतर है तो here पर योजना देखें।
मैंने श्रेणी (आईडी) और items(category)
पर इंडेक्स बनाकर इसे 114062.9 2 तक कम करने में कामयाब रहा है। पोस्टग्रेस्क्ल ने 114062.9 2 लागत प्राप्त करने के लिए दोनों इंडेक्स का उपयोग किया। हालांकि, अब पोस्टग्रेस्क्ल इंडेक्स का उपयोग न करके मेरे साथ खेल खेल रहा है! यह इतनी छोटी क्यों है?
नाम से समूह करने के लिए, इसे बहुत अधिक नाम से सॉर्ट करना होगा, हालांकि यदि आप श्रेणियों पर एक अनुक्रमणिका डालते हैं। नाम यह बेहतर काम कर सकता है। मैं अलग-अलग (i.id) को गति देने और तेज़ करने के लिए आइटम्स पर एक इंडेक्स भी डालूंगा और b.item_id में शामिल हो जाऊंगा। –
इसके अलावा, ध्यान रखें कि पोस्टग्रेस "योजना की व्याख्या" शायद आपको "वैक्यूम विश्लेषण" करने के बाद तक अच्छे नतीजे न दें। –
उत्तर @PaulTomblin के लिए धन्यवाद। हाँ मैंने यह सुनिश्चित किया कि मैंने सटीक परिणाम प्राप्त करने के लिए योजना की व्याख्या करने से पहले वैक्यूम विश्लेषण का उपयोग किया था। आइटम।आईडी आइटम तालिका के लिए प्राथमिक कुंजी है इस प्रकार इसमें क्लस्टर सूचकांक होगा। – ImNoob