में कोई भी अच्छा ओपन सोर्स वेब क्रॉलिंग फ्रेमवर्क Iam एक शॉपिंग तुलना इंजन का निर्माण करता है और मुझे दैनिक डेटा संग्रह प्रक्रिया करने के लिए क्रॉलिंग इंजन बनाने की आवश्यकता होती है।सी #
मैंने सी # में क्रॉलर बनाने का निर्णय लिया है। मुझे HttpWebRequest/HttpWebResponse क्लासेस के साथ बहुत बुरा अनुभव है और वे बड़ी क्रॉल के लिए अत्यधिक छोटी और अस्थिर होने के लिए जाने जाते हैं। तो मैंने उन पर निर्माण न करने का फैसला किया है। फ्रेमवर्क 4.0 में भी वे छोटी हैं।
मैं अपने व्यक्तिगत अनुभव से बात करता हूं।
मुझे यहां विशेषज्ञों की राय चाहिए जो क्रॉलर कोडिंग कर रहे हैं, अगर वे किसी भी अच्छे ओपन सोर्स क्रॉलिंग फ्रेमवर्क के बारे में जानते हैं, जैसे जावा में नच और अपाचे कॉमन्स हैं जो बहुत स्थिर और अत्यधिक मजबूत पुस्तकालय हैं।
यदि सी # में पहले से मौजूद कुछ मौजूदा क्रॉलिंग फ्रेमवर्क हैं, तो मैं आगे बढ़ूंगा और उनके आवेदन को उनके ऊपर बनाऊंगा।
यदि कोड समाधान से इस समाधान को विस्तारित करने और इसे विस्तारित करने की योजना नहीं है।
http://www.codeproject.com/KB/IP/Crawler.aspx
किसी भी एक मुझे एक बेहतर रास्ता सुझाव दे सकते हैं, तो मैं सच में आभारी होंगे।
संपादित करें: कुछ साइट जो मुझे क्रॉल करना है, बहुत जटिल जावा स्क्रिप्ट का उपयोग करके पृष्ठ प्रस्तुत करना है, अब यह मेरे वेब क्रॉलर को और अधिक जटिलता जोड़ता है क्योंकि मुझे जावास्क्रिप्ट द्वारा प्रदान किए गए पृष्ठों को क्रॉल करने में सक्षम होना आवश्यक है। अगर किसी ने सी # में किसी लाइब्रेरी का उपयोग किया है जो जावास्क्रिप्ट को क्रॉल कर सकता है, तो कृपया साझा करें। मैंने वॉटर का उपयोग किया है जिसे मैं पसंद नहीं करता और मुझे सेलेनियम के बारे में भी पता है। यदि आप इनके अलावा किसी अन्य चीज़ के बारे में जानते हैं तो कृपया मेरे साथ और समुदाय के साथ साझा करें।
HttpWebRequest छोटी गाड़ी कैसे है? – SLaks
'SELECT' टूटा नहीं है। – neo2862
http://htmlagilitypack.codeplex.com/ –