apache-tika

    15गर्मी

    2उत्तर

    इंडेक्स करने का प्रयास करते समय Elasticsearch Parse अपवाद त्रुटि मैं elasticsearch के साथ शुरू कर रहा हूँ। हमारी आवश्यकता के लिए हमें हजारों पीडीएफ फाइलों को अनुक्रमणित करने की आवश्यकता है और मुझे सफल

    5गर्मी

    1उत्तर

    मैं एक परियोजना पर एसओएलआर के साथ काम कर रहा हूं जहां हम समृद्ध दस्तावेजों, मुख्य रूप से एमएस वर्ड, पावरपॉइंट, एक्सेल और पीडीएफ का एक गुच्छा (~ 40k आइटम) आयात करते हैं। वहाँ एक सबसे अच्छा अभ्यास schem

    13गर्मी

    1उत्तर

    क्या कोई इसे हल करने में मेरी मदद कर सकता है? यह इस Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024); की तरह किया जा सकता है लेकिन आप टीका सीधे का उपयोग नहीं करते हैं, इस तरह: Cont

    6गर्मी

    1उत्तर

    मैं अपाचे सोलर में अरबी पीडीएफ खोजने की कोशिश कर रहा हूं। समस्या यह प्रतीत होती है कि टिकिका पीडीएफ को रिवर्स ऑर्डर (बाएं से दाएं) में (दाएं से बाएं) के बजाय अनुक्रमणित करती है। इस समस्या के बारे में

    6गर्मी

    1उत्तर

    मैं का उपयोग कर सूचकांक कोशिश कर रहा हूँ कर्ल आधारित अनुरोध अनुरोध curl "http://localhost:8080/solr1/update/extract?literal.id=who.pdf&uprefix=attr_&fmap.content=attr_content&commit=true" -F "[email p

    26गर्मी

    1उत्तर

    में उचित फ़ाइल एक्सटेंशन को निर्धारित करने के लिए कैसे करें मैं एक अमेज़ॅन एस 3 बाल्टी में फाइल अपलोड कर रहा हूं और इनपुटस्ट्रीम और एक स्ट्रिंग तक पहुंच प्राप्त कर रहा हूं जिसमें फ़ाइल का एमआईएमई प्रक

    6गर्मी

    2उत्तर

    के लिए विकल्प मैं अपाचे टीका फ्रेमवर्क जो जावा आधारित है, के लिए सी/सी ++ विकल्प की तलाश में हूं। विशेष रूप से, मैं एक फ्रेमवर्क के तहत फ़ाइल मीटडाटा और संरचित पाठ निष्कर्षण की खोज कर रहा हूं। कुछ ऑनल

    11गर्मी

    2उत्तर

    जब मैं अपनी पीडीएफ फाइलों से टेक्स्ट निकालने का प्रयास करता हूं, तो ऐसा लगता है कि अलग-अलग शब्दों के बीच सफेद रिक्त स्थान डालें। मैं इस पेज के डाउनलोड अनुभाग में नमूना फ़ाइल निम्न पर pdfbox एप्लिकेशन

    21गर्मी

    3उत्तर

    टिका की वेबसाइट पर यह कहता है (tika-app-1.2.jar से संबंधित) इसका उपयोग सर्वर मोड में किया जा सकता है। क्या कोई यह जानता है कि दस्तावेजों को कैसे भेजना है और यह चलने के बाद इस सर्वर से पार्स किए गए टेक

    6गर्मी

    1उत्तर

    मुझे वसंत & अपाचे टिका एकीकरण में रूचि है। क्या यह दृष्टिकोण धागा-सुरक्षित है? <bean id="tika" class="org.apache.tika.Tika"/> क्या मैं विभिन्न धागे से detect() विधि सुरक्षित रूप से कॉल कर सकता हूं?