2008-09-22 21 views
7

मुझे हमारी कंपनी के वेब अनुप्रयोगों में से किसी एक को क्रॉल करने और उसमें से एक स्थिर साइट बनाने की आवश्यकता है जिसे सीडी में जलाया जा सकता है और वेब साइट पर डेमो के लिए यात्रा करने वाले लोगों द्वारा यात्रा की जा सकती है। बैक एंड डेटा स्टोर कई लोगों में फैल गया है, इसलिए कई व्यक्तियों को बस बिक्री व्यक्ति के लैपटॉप पर वीएम पर साइट चलाना काम नहीं करेगा। और कुछ ग्राहकों पर इंटरनेट तक पहुंच नहीं होगी (कोई इंटरनेट, सेल फोन .... आदिम, मुझे पता है)।आप एक गतिशील साइट को एक स्थिर साइट में कैसे बदल सकते हैं जिसे सीडी से डेमो किया जा सकता है?

क्या किसी के पास क्रॉलर के लिए कोई अच्छी सिफारिश है जो लिंक क्लीनअप, फ्लैश, थोड़ा AJAX, सीएसएस इत्यादि जैसी चीजों को संभाल सकता है? मुझे पता है कि बाधाएं पतली हैं, लेकिन मुझे लगा कि मैं अपना खुद का टूल लिखने से पहले यहां सवाल फेंक दूंगा।

+0

इसे केवल एक विशिष्ट उपयोगकर्ता के दृष्टिकोण से काम करना है। इसलिए क्रॉलर को पूर्व निर्धारित उपयोगकर्ता के रूप में प्रमाणित करने की आवश्यकता होगी, और उसके बाद यह सब कुछ कैप्चर करेगा क्योंकि यह उपयोगकर्ता इसे देखेगा। –

उत्तर

3

wget या कर्ल दोनों रिकर्सिवली लिंक का अनुसरण करें और एक पूरी साइट पर देख सकते हैं, ताकि एक अच्छा दांव हो सकता है। आप साइट के वास्तव में इंटरैक्टिव हिस्सों, जैसे खोज इंजन, या डेटा को संशोधित करने वाले किसी भी चीज का उपयोग करने में सक्षम नहीं होंगे, thoguh।

क्या डमी बैकएंड सेवाओं को बनाने के लिए यह संभव है कि बिक्री वाले लोगों के लैपटॉप से ​​चल सकें, ऐप इंटरफ़ेस कर सकता है?

12

WebCrawler का उपयोग करके, उदा। इनमें से एक:

  • डेटापार्कशर्च एक क्रॉलर और खोज इंजन जीएनयू जनरल पब्लिक लाइसेंस के तहत जारी किया गया है।
  • जीएनयू Wget सी में लिखित एक कमांड लाइन संचालित क्रॉलर है और जीपीएल के तहत जारी किया गया है। यह आमतौर पर वेब और एफ़टीपी साइटों को दर्पण करने के लिए प्रयोग किया जाता है।
  • HTTrack ऑफ़लाइन देखने के लिए किसी वेब साइट का दर्पण बनाने के लिए वेब क्रॉलर का उपयोग करता है। यह सी में लिखा गया है और जीपीएल के तहत जारी किया गया है।
  • आईसीडीएल क्रॉलर सी ++ में लिखा गया एक क्रॉस-प्लेटफ़ॉर्म वेब क्रॉलर है और केवल कंप्यूटर के मुफ्त CPU संसाधनों का उपयोग करके वेबसाइट पार्स टेम्पलेट्स के आधार पर वेबसाइटों को क्रॉल करना है।
  • जेएसपीडर जीपीएल के तहत जारी एक बेहद विन्यास योग्य और अनुकूलन योग्य वेब स्पाइडर इंजन है।
  • सेबेस्टियन Ailleret
  • Webtools4larbin एंड्रियास Beder
  • Methabot द्वारा द्वारा Larbin रफ्तार अनुकूलित वेब क्रॉलर और कमांड लाइन उपयोगिता सी में लिखे और एक 2-खंड बीएसडी लाइसेंस के तहत जारी है। इसमें एक विस्तृत विन्यास प्रणाली, एक मॉड्यूल सिस्टम है और स्थानीय फाइल सिस्टम, HTTP या एफ़टीपी के माध्यम से लक्षित क्रॉलिंग के लिए समर्थन है।
  • जैक्सॉफ्ट वेबशर्च एक वेब क्रॉलर और इंडेक्सर अपाचे ल्यूसीन पर निर्मित है। यह जीपीएल वी 3 लाइसेंस के तहत जारी किया गया है।
  • नच जावा में लिखा गया क्रॉलर है और अपाचे लाइसेंस के तहत जारी किया गया है। इसका उपयोग ल्यूसीन टेक्स्ट इंडेक्सिंग पैकेज के संयोजन के साथ किया जा सकता है।
  • Pavuk एक कमांड लाइन वैकल्पिक X11 जीयूआई क्रॉलर के साथ वेब दर्पण उपकरण और GPL के अंतर्गत जारी है। इसमें wget और fansrack की तुलना में उन्नत सुविधाओं का समूह है, उदाहरण के लिए। नियमित अभिव्यक्ति आधारित फ़िल्टरिंग और फ़ाइल निर्माण नियम।
  • वेबवैक स्टैनफोर्ड वेबबेस परियोजना द्वारा उपयोग किया जाने वाला क्रॉलर है।
  • WebSPHINX (मिलर और भारत, 1998) एक जावा वर्ग पुस्तकालय है कि मल्टी-थ्रेडेड वेब पेज पुनः प्राप्ति और HTML पार्स, और शुरू URL सेट कर डाउनलोड किए गए डेटा को निकालने के लिए और एक को लागू करने के लिए एक ग्राफिकल यूजर इंटरफेस को लागू करता है से बना है मूल पाठ-आधारित खोज इंजन।
  • वायर - वेब सूचना पुनर्प्राप्ति पर्यावरण [15] एक वेब क्रॉलर सी में लिखे ++ और GPL के अंतर्गत जारी, पेज डाउनलोड और रिपोर्ट और डाउनलोड किया पन्नों पर आंकड़ों पैदा करने के लिए एक मॉड्यूल का समय निर्धारण के लिए कई नीतियों सहित तो यह प्रयोग किया गया है वेब विशेषता के लिए।
  • LWP :: RobotUA (Langheinrich, 2004) अच्छी तरह से व्यवहार समानांतर वेब रोबोट पर्ल 5 के लाइसेंस के तहत वितरित लागू करने के लिए एक पर्ल वर्ग है।
  • वेब क्रॉलर ओपन सोर्स वेब क्रॉलर क्लास .NET के लिए (सी # में लिखा गया)।
  • शेरलॉक होम्स शेरलॉक होम्स स्थानीय स्तर पर और नेटवर्क पर टेक्स्ट डेटा (टेक्स्ट फाइल, वेब पेज, ...) एकत्र और अनुक्रमित करता है। होम्स प्रायोजित और व्यावसायिक रूप से चेक वेब पोर्टल सेंट्रम द्वारा उपयोग किया जाता है। इसका उपयोग Onet.pl द्वारा भी किया जाता है।
  • यासी, एक मुक्त वितरित खोज इंजन, पीयर-टू-पीयर नेटवर्क (जीपीएल के तहत लाइसेंस प्राप्त) के सिद्धांतों पर बनाया गया है।
  • रुया रुया एक ओपन सोर्स, उच्च प्रदर्शन चौड़ाई-प्रथम, स्तर-आधारित वेब क्रॉलर है। इसका उपयोग अंग्रेजी और जापानी वेबसाइटों को अच्छी तरह से व्यवहार करने के लिए किया जाता है। यह जीपीएल के तहत जारी किया गया है और पूरी तरह से पाइथन भाषा में लिखा गया है। एक सिंगलडोमेन डेले क्रॉलर कार्यान्वयन क्रॉल विलंब के साथ robots.txt का पालन करता है।
  • सार्वभौमिक सूचना क्रॉलर तेजी से विकासशील वेब क्रॉलर। क्रॉल डेटा बचाता है और विश्लेषण करता है।
  • एजेंट कर्नेल क्रॉल करते समय शेड्यूल, थ्रेड और स्टोरेज प्रबंधन के लिए जावा फ्रेमवर्क।
  • स्पाइडर समाचार, पर्ल में एक मकड़ी बनाने के बारे में जानकारी।
  • Arachnode.NET, ई-मेल पते, फ़ाइलों, हाइपरलिंक्स, छवियों और वेब पृष्ठों सहित इंटरनेट सामग्री को डाउनलोड करने, अनुक्रमणित करने और संग्रहीत करने के लिए एक खुला स्रोत विशिष्ट वेब क्रॉलर है। Arachnode.net SQL सर्वर 2005 का उपयोग कर सी # में लिखा गया है और जीपीएल के तहत जारी किया गया है।
  • भोजन एक बहुप्रचारित जावा HTTP क्लाइंट/क्रॉलर है जिसे एलजीपीएल के तहत जारी जावास्क्रिप्ट में प्रोग्राम किया जा सकता है।
  • क्रॉलजैक्स एक विधि के आधार पर एक अजाक्स क्रॉलर है जो गतिशील रूप से 'राज्य प्रवाह प्रवाह' बनाता है जो विभिन्न नेविगेशन पथों और राज्यों को अजाक्स अनुप्रयोग के भीतर मॉडलिंग करता है। क्रॉलजैक्स जावा में लिखा गया है और बीएसडी लाइसेंस के तहत जारी किया गया है।
1

आप सीडी में वेबसर्वर को जलाने के बिना AJAX अनुरोधों जैसी चीज़ों को संभालने में सक्षम नहीं होंगे, जो मैं समझता हूं कि आप पहले से ही असंभव हैं।

wget आपके लिए साइट डाउनलोड करेगा ("रिकर्सिव" के लिए -r पैरामीटर का उपयोग करें), लेकिन रिपोर्ट की तरह कोई भी गतिशील सामग्री ठीक से काम नहीं करेगी, आपको बस एक स्नैपशॉट मिलेगा।

1

आप इसे एक वेबसर्वर के बंद को चलाने के लिए होने अंत है, तो आप पर एक नज़र लेने के लिए चाहते हो सकता है:

ServerToGo

यह आपको एक WAMPP एक सीडी के बंद ढेर चलाने देता है, के साथ पूरा mysql/php/apache समर्थन। डीबी की लॉन्च पर मौजूदा उपयोगकर्ताओं temp निर्देशिका में प्रतिलिपि बनाई गई है, और उपयोगकर्ता को कुछ भी इंस्टॉल किए बिना पूरी तरह से चलाया जा सकता है!

+0

यह उपयोगी लग रहा है! मुझे लगता है कि यह बॉक्स सीएमएस सिस्टम से बाहर निकलने में सक्षम होना चाहिए जो WAMPP स्टैक पर भी चल सकता है? –

+1

मैंने इसे सालों से नहीं देखा है, लेकिन मुझे यह पृष्ठ दिखाई देता है (http://www.server2go-web.de/wiki/tutorials) ने जूमला के साथ Server2Go का उपयोग करने के तरीके पर एक ट्यूटोरियल किया था, लेकिन यह लिंक की तरह दिखता है क्योंकि यह मर चुका है। लेकिन उनके पास एक जर्मन सीएमएस के लिए ट्यूटोरियल है जिसे कॉन्ट्रेक्स कहा जाता है जो समान सेटअप चरणों को दिखाता है, मुझे यकीन है। –

0

सिर्फ इसलिए कि कोई भी प्रतिलिपि कामकाजी कमांड चिपका नहीं है ... मैं कोशिश कर रहा हूं ... दस साल बाद। : डी

wget --mirror --convert-links --adjust-extension --page-requisites \ 
--no-parent http://example.org 

यह मेरे लिए एक आकर्षण की तरह काम करता था।