2009-03-11 13 views
6

लघु प्रश्न इसके खिलाफ यूआरएल मूल्यांकन करने के लिए किसी भी सी # कोड मिला:किसी robots.txt पार्स और

है किसी को भी robots.txt पार्स करने के लिए किसी भी सी # कोड मिल गया और फिर इसके खिलाफ यूआरएल का मूल्यांकन तो देखें कि क्या वे बाहर रखा जाएगा या नहीं।

लांग प्रश्न:

मैं एक नया साइट अभी तक गूगल को रिलीज होने के लिए एक साइटमैप बनाने की है। साइटमैप में दो मोड हैं, एक उपयोगकर्ता मोड (पारंपरिक साइटमैप की तरह) और 'व्यवस्थापक' मोड।

व्यवस्थापक मोड ओपरा पर हमारी साइट को देखने वाले किसी भी व्यक्ति के लिए example.com/oprah जैसे किसी विशिष्ट बाहरी साथी के लिए अनुकूलित प्रविष्टि URLS या URLS सहित साइट पर सभी संभावित URLS दिखाएगा। मैं Excel स्प्रेडशीट के अलावा कहीं और प्रकाशित लिंक ट्रैक करना चाहता हूं।

मुझे लगता है कि किसी को अपने ब्लॉग या कहीं पर /oprah लिंक प्रकाशित हो सकता है के लिए होगा। हम नहीं है वास्तव में इस 'मिनी oprah साइट' क्योंकि यह गैर oprah दर्शकों विशेष ओपरा प्रदान करता है खोजने के लिए सक्षम किया जा रहा में परिणाम होगा अनुक्रमित करने के लिए चाहते हैं।

तो साथ ही मैं साइटमैप बना रहा था, मैंने /oprah जैसे यूआरएल को भी robots.txt फ़ाइल से बाहर करने के लिए जोड़ा।

फिर (और यह वास्तविक सवाल यह है कि) मैंने सोचा था कि 'यह साइटमैप पर दिखाने में सक्षम हैं या नहीं, फ़ाइलें इंडेक्स किए गए और रोबोट को दिखाई के लिए अच्छा नहीं होगा'। यह काफी सरल होगा - बस robse.txt पार्स करें और उसके बाद एक लिंक का मूल्यांकन करें।

हालांकि यह एक 'बोनस फीचर' है और मेरे पास निश्चित रूप से जाने और लिखने का समय नहीं है (यहां तक ​​कि सोचा कि शायद यह जटिल नहीं है) - तो मैं सोच रहा था कि किसी ने पहले से ही रोबोट को पार्स करने के लिए कोई कोड लिखा है ।टेक्स्ट ?

उत्तर

8

कि कहने के लिए, लेकिन सिर्फ "सी # robots.txt पार्सर" गूगल और पहली हिट क्लिक नफरत। यह एक CodeProject article about a simple search engine implemented in C# called "Searcharoo" है, और यह एक वर्ग Searcharoo.Indexer.RobotsTxt, के रूप में वर्णित शामिल हैं: के लिए

  1. चेक, और अगर वर्तमान, डाउनलोड और साइट पर robots.txt फ़ाइल को पार्स
  2. एक इंटरफेस प्रदान करते हैं स्पाइडर robots.txt नियम
+2

उफ़। बीमार मानते हैं कि मैंने इस बार Google को खोज नहीं किया था। लेकिन विडंबना यह है कि इस सवाल का अब 'ग # robots.txt' :-) मैं अगर मैं निकाल सकते हैं मैं क्या है कि से की जरूरत है देखेंगे के लिए पहला मैच है। धन्यवाद –

+0

मुझे आशा है कि आप एक अनंत लूप अब ;-) मजेदार में फंस नहीं कर रहे हैं, वे भी पूर्वावलोकन पाठ के रूप में मेरा उत्तर की सटीक रूप से Google हिस्सा दिखा। मुझे एहसास नहीं हुआ कि Google अभी तक गैर-समाचार साइटों के लिए भी बहुत तेज़ हो गया है, जो बहुत ही रोचक है। – realMarkusSchmidt

+0

क्या मैं लूप में गिर रहा हूं? :) – Velcro

1

स्वयं के बारे में थोड़ी बढ़ावा देने के खिलाफ प्रत्येक यूआरएल की जांच के लिए करने के लिए, लेकिन जब से मैं एक ऐसी ही पार्सर की जरूरत है और कुछ भी मैं के साथ खुश था नहीं मिल सकता है, मैं अपने ही बनाया:

http://nrobots.codeplex.com/

मैं किसी भी प्रतिक्रिया

3

मैं कोड और http://code.google.com/p/robotstxt/ में परीक्षण की तरह एक प्रारंभिक बिंदु के रूप में यह सिफारिश करेंगे अच्छा लगेगा।