2011-05-05 8 views
5

मैं HOG डिस्क्रिप्टर पर काम कर रहा हूं और मैं पहचान खिड़कियों के संलयन को छोड़कर अधिकांश हिस्सों में काफी कुछ कर रहा हूं।मल्टी-स्केल (माध्य-शिफ्ट?) में ओरिएंटेड ग्रेडियेंट्स का हिस्टोग्राम

जो मैंने अभी तक किया है; मैं छवि का एक स्केल स्पेस पिरामिड बनाता हूं और प्रत्येक स्केल पर प्रत्येक छवि के लिए मैं पहचान विंडो (64x128) चलाता हूं और मनुष्यों का पता लगाता हूं। प्रत्येक छवि में एक व्यक्ति को एक से अधिक खिड़की से पता चला है।

तो सवाल यह है कि इन सभी विंडोज़ (एक व्यक्ति के लिए मान लें) को एक खिड़की में कैसे फ्यूज करना है। दलाल सुझाव देते हैं कि किसी को एक आधुनिक मॉड डिटेक्शन एल्गोरिदम का उपयोग करना चाहिए, जैसे कि माध्य-शिफ्ट। लेकिन, मेरे पास कई पैमाने हैं ... क्या मुझे पहले ऐसा करने के लिए स्केल स्पेस के निचले स्तर में पाए गए पहचान विंडो का सही स्थान अनुमान लगाया जाना चाहिए?

किसी भी मदद की सराहना की है। अग्रिम धन्यवाद।

उत्तर

1

मेरी व्याख्या यह है कि मतलब शिफ्ट आपको जो भी सुझाव दे रहा है उसे प्रभावी ढंग से प्रदान करेगी।

अनिवार्य रूप से, आप डिटेक्टर आउटपुट की ताकत के आधार पर पहले सबसे बड़े पैमाने पर व्यक्ति के स्थान की संभाव्यता वितरण का अनुमान लगाते हैं। यह आपको मोड का एक मजबूत अनुमान देता है।

आप फिर अधिकतम या मोड के चारों ओर बेहतर स्केल का उपयोग करके परिष्कृत कर सकते हैं।

विचार बहुत समान है जो पिरामिड एलके ट्रैकिंग में उपयोग किया जाता है, उदाहरण के लिए। आप प्रसंस्करण और/या कण फिल्टर भी कर सकते हैं।