2011-09-07 27 views
5

हम स्क्रैपर्स/खराब बॉट का पता लगाने के लिए हमारे एचटीएमएल निकायों में एक छोटी हनीपॉट छवि सेट करना चाहते हैं।स्क्रैपर्स/खराब बॉट्स का पता लगाने के लिए हनीपॉट आईएमजी टैग के उपयोग के लिए सलाह

क्या किसी ने इससे पहले कुछ ऐसा सेट किया है?

हम सबसे अच्छा तरीका सोच रहे थे जाने के लिए यह करने के लिए किया जाएगा पर:

क) के माध्यम से एचटीएमएल बाहर टिप्पणी:

<!-- <img src="http://www.domain.com/honeypot.gif"/> --> 

ख) छवि है कि यह छिपा होगा करने के लिए सीएसएस शैलियों को लागू करें

.... id="honeypot" .... 

#honeypot{ 
    display:none; 
    visibility:hidden; 
} 

ऊपर किसी को भी किसी भी स्थितियों में, जहां एक उचित और वास्तविक UserAgent यह रेंडर करने के लिए छवि/प्रयास खींच जाएगा पूर्वानुमान करता है का उपयोग करना: के माध्यम से ब्राउज़र से?

honeypot.gif एक mod_rewritten php स्क्रिप्ट होगा जहां हम अपना लॉगिंग करेंगे।

जबकि मैं समझता हूं कि उपरोक्त 2 स्थितियों को किसी भी अच्छी तरह से कोडित स्क्रैपर द्वारा छोड़ा जा सकता है, यह कम से कम गंदे लोगों पर कुछ अंतर्दृष्टि डालेगा।

कोई अन्य पॉइंटर्स इस पर जाने का सबसे अच्छा तरीका है?

+0

"खराब बॉट्स" की आपकी परिभाषा क्या है? आप किस तरह की चीजों को रोकने की कोशिश कर रहे हैं? एक बॉट जो आपके पृष्ठों को लाने में खराब व्यवहार करता है, इस तरह की एक HTML पार्सिंग चीज़ से पीड़ित नहीं हो सकता है - आप इसे पकड़ नहीं सकते हैं। आप जो खोज रहे हैं उसे पहचानने के आसान तरीके हो सकते हैं। –

+0

मुझे समझ में नहीं आता कि यह एक हनीपॉट कार्यान्वयन कैसे है। आम तौर पर इसमें एक फॉर्म फ़ील्ड शामिल होता है जो उपयोगकर्ता से स्क्रिप्ट/सीएसएस के माध्यम से छिपा हुआ होता है जो अनजाने में भर जाता है। – TheCodeKing

+0

हालांकि यह व्यापक रूप से व्यापक हो सकता है, खराब बॉट/स्क्रैपर की हमारी परिभाषा वह है जो उपयोगकर्ता उत्पाद के माध्यम से स्रोत उत्पाद (read: domain.com) की पहचान नहीं करती है या कहा है कि डोमेन.com रोबोट के माध्यम से पहुंच प्रतिबंधित करने का तरीका प्रदान नहीं करता है ।टेक्स्ट। हम इन छोटे सींटों में से बहुत सारे देखते हैं। हमारे पास पहले से ही एक व्यापक व्यापक प्रणाली है जो हमें उपभोक्ता/कमी, स्वीकृति हेडर, हिट/अंतराल इत्यादि की कमी आदि के माध्यम से इन्हें पहचानने की अनुमति देती है। इसलिए यह इस प्रणाली के लिए एक और अतिरिक्त होगा जो हमें अतिरिक्त + मैन्युअल जनशक्ति पर ध्यान केंद्रित करने के लिए क्या ips पर। –

उत्तर

3

एक बॉट आपके आईएमजी टैग को अनदेखा कर देगा क्योंकि यह एक टिप्पणी के भीतर है।

इसके बजाय, आप एक अदृश्य div बनाने पर विचार कर सकते हैं जिसमें एक ही साइट पर ट्रिगर यूआरएल का लिंक शामिल है (अधिमानतः उसी निर्देशिका में, बॉट गहराई से संवेदनशील होने पर)।

+0

+1। –

+0

हम छिपी हुई छवि और छिपे हुए लिंक दोनों को समाप्त कर दिया। धन्यवाद! –

0

आईएमओ मुझे लगता है कि कोई भी अच्छा स्क्रैपर यह जानने जा रहा है कि SGML parser का उपयोग करके HTML को कैसे पास किया जाए, और केवल टिप्पणी की गई छवि को छोड़ दें, लेकिन मैं गलत हो सकता हूं।

अधिकतर यह आपको एक विचार देगा जब ऐसा होता है, लेकिन स्क्रैपर पर काउंटर करने का कोई तरीका नहीं प्रदान करता है। आप शायद किसी प्रकार के कुकी आधारित समाधान के साथ आने से बेहतर होंगे, क्योंकि अधिकांश बॉट्स शायद इन परवाह नहीं करते हैं। आप अनुरोधों के बीच छवि पथ को यादृच्छिक भी कर सकते हैं और उन्हें कम अवधि के बाद समाप्त कर सकते हैं।

रेफरर की जांच करना एक स्पष्ट है, अगर आपको उन ब्राउज़र के बारे में परवाह नहीं है जो उन्हें समर्थन नहीं देते हैं या जो लोग उन्हें छुपाते/बदलते हैं।