2012-09-01 20 views
21

टिका की वेबसाइट पर यह कहता है (tika-app-1.2.jar से संबंधित) इसका उपयोग सर्वर मोड में किया जा सकता है। क्या कोई यह जानता है कि दस्तावेजों को कैसे भेजना है और यह चलने के बाद इस सर्वर से पार्स किए गए टेक्स्ट को प्राप्त करना है?सर्वर मोड में Tika का उपयोग कैसे करें

उत्तर

29

टिकिका दो "सर्वर" मोड का समर्थन करता है। Tika-App का --server ध्वज सरल और मूल है। अधिक कार्यात्मक, लेकिन हाल ही में JAX-RS JSR-311 server component है, जो एक अतिरिक्त जार है।

टिका-ऐप नेटवर्क सर्वर का उपयोग करना बहुत आसान है। बस --server ध्वज के साथ Tika-App प्रारंभ करें, और --port ### ध्वज यह बताता है कि किस पोर्ट को सुनना है। फिर, उस बंदरगाह से कनेक्ट करें और इसे एक फ़ाइल भेजें। आप एचटीएमएल संस्करण वापस ले लेंगे। Netcat इस के लिए अच्छी तरह से काम करता है, java -jar tika-app.jar --server --port 12345 की तरह कुछ nc 127.0.0.1 12345 < MyFileToExtract के बाद आप वापस एचटीएमएल

मिल जाएगा JAX-RS JSR-311 server component कुछ अलग यूआरएल का समर्थन करता है, मेटाडाटा, सादा पाठ आदि जैसी चीजों के लिए आप java -jar tika-server.jar के साथ सर्वर प्रारंभ करें, फिर HTTP डाल कर आपके इनपुट दस्तावेज़ के साथ उपयुक्त यूआरएल को कॉल करता है और आपको संसाधन वापस मिल जाएगा। wiki page

पर टिका ऐप नेटवर्क सर्वर काफी सरल है, केवल एक मोड (HTML पर निकालने) का समर्थन करता है, और आमतौर पर परीक्षण/डेमो/प्रोटोटाइप के लिए उपयोग किया जाता है, जिसमें विवरण और उदाहरण (परीक्षण के लिए कर्ल का उपयोग कर) शामिल हैं।/आदि Tika JAXRS Server एक पूरी तरह से पुनर्स्थापित सेवा है जो HTTP से बात करती है, और टिकिका के तरीकों की विस्तृत श्रृंखला का खुलासा करती है। नेटवर्क पर टीका के साथ इंटरफेस करने के लिए इन दिनों आमतौर पर अनुशंसित तरीका है, और/या गैर-जावा स्टैक से।

+4

इस उत्तर ने मुझे बहुत मदद की। और वास्तव में, सर्वर न केवल HTML लौटाता है। "-j" जैसे अन्य विकल्पों का उपयोग करना, उदाहरण के लिए, सर्वर जेएसओएन मेटाडेटा लौटाता है। – Marian

+1

आप इसके बजाय कर्ल का उपयोग करना चाह सकते हैं। 'curl -s http: // localhost: 9998/tika --header" स्वीकार करें: टेक्स्ट/सादा "-T filename.xls' –

3

Gagravarr सही जवाब में वृद्धि करने के लिए:

  • अपने दस्तावेज़ एक वेब सर्वर से मिल गया है, तो => कर्ल -u "http: // MyServer-डोमेन/* पथ-टू-डॉक */डॉक्टर-नाम .extension "| nc 127.0.0.1 12345
  • और यह भी दस्तावेज़ पासवर्ड => कर्ल -u लॉगिन द्वारा सुरक्षित है, तो बेहतर है: * पासवर्ड * "http: // MyServer-डोमेन/* पथ-टू -डोक */डॉक्टर-नाम .extension "| एनसी 127.0.0.1 12345
13

बस @ गग्रावायर के महान उत्तर में जोड़ना।

जब सर्वर मोड में टीका के बारे में बात, यह दो संस्करणों जो अन्यथा भ्रम की स्थिति पैदा कर सकते हैं के बीच अंतर करने के लिए महत्वपूर्ण है:

  • टीका-app.jar --server है --port 9998 विकल्प एक शुरू करने के लिए सरल सर्वर
  • टीका-server.jar एक अलग घटक JAX-आरएस उपयोग कर रहा है

पहला विकल्प केवल पाठ निष्कर्षण प्रदान करता है और HTML के रूप में सामग्री देता है। सबसे अधिक संभावना है कि आप वास्तव में क्या चाहते हैं दूसरा विकल्प है, जो एक रीस्टफुल सेवा है जो टिका की विशेषताओं का खुलासा करती है।

आप टिका परियोजना साइट से बस download the tika-server.jar कर सकते हैं।

java -jar tika-server-x.x.jar -h 0.0.0.0 

का उपयोग कर -h 0.0.0.0 (मेजबान) विकल्प सर्वर किसी भी आने वाले अनुरोधों के लिए सुनने में आता है, अन्यथा यह बिना यह केवल स्थानीय होस्ट से अनुरोध के लिए सुनना सर्वर प्रारंभ करें। आप पोर्ट को बदलने के लिए -p विकल्प भी जोड़ सकते हैं, अन्यथा यह 99 9 8 पर डिफ़ॉल्ट हो जाता है।

फिर, सर्वर शुरू होने के बाद आप बस अपने ब्राउज़र का उपयोग करके इसे एक्सेस कर सकते हैं। यह सभी उपलब्ध अंतराल सूचीबद्ध करेगा।

अंत में एक फ़ाइल से मेटा डेटा निकालने के लिए आप इस तरह cURL उपयोग कर सकते हैं:

curl -T testWORD.doc http://example.com:9998/meta 

कुंजी/मान जोड़े प्रत्येक पंक्ति में एक के रूप में मेटा डेटा देता है। तुम भी टीका JSON के रूप में परिणाम वापस उचित स्वीकार हैडर जोड़कर हो सकता है:

curl -H "Accept: application/json" -T testWORD.doc http://example.com:9998/meta 

[अपडेट 2015-01-19] इससे पहले टिप्पणी ने कहा कि टीका-server.jar डाउनलोड के रूप में उपलब्ध नहीं है। निश्चित है कि यह वास्तव में एक बाइनरी डाउनलोड के रूप में मौजूद है।

+0

Tika सर्वर को कुछ समय के लिए मानक के रूप में बनाया और वितरित किया गया है! आप इसे अपने निकटतम अपाचे दर्पण पर पा सकते हैं, या [डाउनलोड पेज] (http://tika.apache.org/download.html) से लिंक का पालन करें – Gagravarr

+0

इसे याद करना होगा, इसे इंगित करने के लिए धन्यवाद! –

+1

मेरा सुझाव है कि आप लोगों को tika-src के बजाय दर्पण से tika-app और tika-server jars डाउनलोड करने के लिए सीधे लोगों को अपना जवाब संपादित करें, क्योंकि यह उनके लिए बहुत तेज़ और आसान होगा! – Gagravarr