टिका की वेबसाइट पर यह कहता है (tika-app-1.2.jar से संबंधित) इसका उपयोग सर्वर मोड में किया जा सकता है। क्या कोई यह जानता है कि दस्तावेजों को कैसे भेजना है और यह चलने के बाद इस सर्वर से पार्स किए गए टेक्स्ट को प्राप्त करना है?सर्वर मोड में Tika का उपयोग कैसे करें
उत्तर
टिकिका दो "सर्वर" मोड का समर्थन करता है। Tika-App का --server
ध्वज सरल और मूल है। अधिक कार्यात्मक, लेकिन हाल ही में JAX-RS JSR-311 server component है, जो एक अतिरिक्त जार है।
टिका-ऐप नेटवर्क सर्वर का उपयोग करना बहुत आसान है। बस --server
ध्वज के साथ Tika-App प्रारंभ करें, और --port ###
ध्वज यह बताता है कि किस पोर्ट को सुनना है। फिर, उस बंदरगाह से कनेक्ट करें और इसे एक फ़ाइल भेजें। आप एचटीएमएल संस्करण वापस ले लेंगे। Netcat इस के लिए अच्छी तरह से काम करता है, java -jar tika-app.jar --server --port 12345
की तरह कुछ nc 127.0.0.1 12345 < MyFileToExtract
के बाद आप वापस एचटीएमएल
मिल जाएगा JAX-RS JSR-311 server component कुछ अलग यूआरएल का समर्थन करता है, मेटाडाटा, सादा पाठ आदि जैसी चीजों के लिए आप java -jar tika-server.jar
के साथ सर्वर प्रारंभ करें, फिर HTTP डाल कर आपके इनपुट दस्तावेज़ के साथ उपयुक्त यूआरएल को कॉल करता है और आपको संसाधन वापस मिल जाएगा। wiki page
पर टिका ऐप नेटवर्क सर्वर काफी सरल है, केवल एक मोड (HTML पर निकालने) का समर्थन करता है, और आमतौर पर परीक्षण/डेमो/प्रोटोटाइप के लिए उपयोग किया जाता है, जिसमें विवरण और उदाहरण (परीक्षण के लिए कर्ल का उपयोग कर) शामिल हैं।/आदि Tika JAXRS Server एक पूरी तरह से पुनर्स्थापित सेवा है जो HTTP से बात करती है, और टिकिका के तरीकों की विस्तृत श्रृंखला का खुलासा करती है। नेटवर्क पर टीका के साथ इंटरफेस करने के लिए इन दिनों आमतौर पर अनुशंसित तरीका है, और/या गैर-जावा स्टैक से।
Gagravarr सही जवाब में वृद्धि करने के लिए:
- अपने दस्तावेज़ एक वेब सर्वर से मिल गया है, तो => कर्ल -u "http: // MyServer-डोमेन/* पथ-टू-डॉक */डॉक्टर-नाम .extension "| nc 127.0.0.1 12345
- और यह भी दस्तावेज़ पासवर्ड => कर्ल -u लॉगिन द्वारा सुरक्षित है, तो बेहतर है: * पासवर्ड * "http: // MyServer-डोमेन/* पथ-टू -डोक */डॉक्टर-नाम .extension "| एनसी 127.0.0.1 12345
बस @ गग्रावायर के महान उत्तर में जोड़ना।
जब सर्वर मोड में टीका के बारे में बात, यह दो संस्करणों जो अन्यथा भ्रम की स्थिति पैदा कर सकते हैं के बीच अंतर करने के लिए महत्वपूर्ण है:
- टीका-app.jar --server है --port 9998 विकल्प एक शुरू करने के लिए सरल सर्वर
- टीका-server.jar एक अलग घटक JAX-आरएस उपयोग कर रहा है
पहला विकल्प केवल पाठ निष्कर्षण प्रदान करता है और HTML के रूप में सामग्री देता है। सबसे अधिक संभावना है कि आप वास्तव में क्या चाहते हैं दूसरा विकल्प है, जो एक रीस्टफुल सेवा है जो टिका की विशेषताओं का खुलासा करती है।
आप टिका परियोजना साइट से बस download the tika-server.jar कर सकते हैं।
java -jar tika-server-x.x.jar -h 0.0.0.0
का उपयोग कर -h 0.0.0.0 (मेजबान) विकल्प सर्वर किसी भी आने वाले अनुरोधों के लिए सुनने में आता है, अन्यथा यह बिना यह केवल स्थानीय होस्ट से अनुरोध के लिए सुनना सर्वर प्रारंभ करें। आप पोर्ट को बदलने के लिए -p विकल्प भी जोड़ सकते हैं, अन्यथा यह 99 9 8 पर डिफ़ॉल्ट हो जाता है।
फिर, सर्वर शुरू होने के बाद आप बस अपने ब्राउज़र का उपयोग करके इसे एक्सेस कर सकते हैं। यह सभी उपलब्ध अंतराल सूचीबद्ध करेगा।
अंत में एक फ़ाइल से मेटा डेटा निकालने के लिए आप इस तरह cURL उपयोग कर सकते हैं:
curl -T testWORD.doc http://example.com:9998/meta
कुंजी/मान जोड़े प्रत्येक पंक्ति में एक के रूप में मेटा डेटा देता है। तुम भी टीका JSON के रूप में परिणाम वापस उचित स्वीकार हैडर जोड़कर हो सकता है:
curl -H "Accept: application/json" -T testWORD.doc http://example.com:9998/meta
[अपडेट 2015-01-19] इससे पहले टिप्पणी ने कहा कि टीका-server.jar डाउनलोड के रूप में उपलब्ध नहीं है। निश्चित है कि यह वास्तव में एक बाइनरी डाउनलोड के रूप में मौजूद है।
Tika सर्वर को कुछ समय के लिए मानक के रूप में बनाया और वितरित किया गया है! आप इसे अपने निकटतम अपाचे दर्पण पर पा सकते हैं, या [डाउनलोड पेज] (http://tika.apache.org/download.html) से लिंक का पालन करें – Gagravarr
इसे याद करना होगा, इसे इंगित करने के लिए धन्यवाद! –
मेरा सुझाव है कि आप लोगों को tika-src के बजाय दर्पण से tika-app और tika-server jars डाउनलोड करने के लिए सीधे लोगों को अपना जवाब संपादित करें, क्योंकि यह उनके लिए बहुत तेज़ और आसान होगा! – Gagravarr
इस उत्तर ने मुझे बहुत मदद की। और वास्तव में, सर्वर न केवल HTML लौटाता है। "-j" जैसे अन्य विकल्पों का उपयोग करना, उदाहरण के लिए, सर्वर जेएसओएन मेटाडेटा लौटाता है। – Marian
आप इसके बजाय कर्ल का उपयोग करना चाह सकते हैं। 'curl -s http: // localhost: 9998/tika --header" स्वीकार करें: टेक्स्ट/सादा "-T filename.xls' –