2011-06-03 19 views
6

के लिए विकल्प मैं अपाचे टीका फ्रेमवर्क जो जावा आधारित है, के लिए सी/सी ++ विकल्प की तलाश में हूं। विशेष रूप से, मैं एक फ्रेमवर्क के तहत फ़ाइल मीटडाटा और संरचित पाठ निष्कर्षण की खोज कर रहा हूं। कुछ ऑनलाइन खोज और निकटतम बात मैं कर रहा है जीएनयू libextractor और अलग-अलग फ़ाइल फिल्टर है कि पाठ डेटा निकालने के दस्तावेजों को पार्स का एक समूह (pdftoext, xls2csv आदि)सी/सी ++ अपाचे टीका

किसी को भी कृपया एक अच्छा पुस्तकालय तुलनीय अनुशंसा कर सकते हैं ब्राउज़िंग करने के बाद अपाचे की टिकिका को? ताकि आप हमेशा कि का उपयोग कर टीका शुरू और फिर इसे अपने सी ++ कोड से अनुरोध करता भेज सकता है

धन्यवाद

उत्तर

2

टीका, नेटवर्क सर्वर मोड है?

वैकल्पिक रूप से, टीका एक CLI मोड है, तो आप बंद एक नया टीका प्रक्रिया हर बार आग और पाइप से डेटा पढ़ सकता है।

+0

यह सिद्धांत में एक अच्छा विचार है, लेकिन क्या इसे कभी दस्तावेज किया गया है? सर्वर मोड को समझने के लिए कोड और चर्चा समूहों के माध्यम से कुछ खुदाई की आवश्यकता हो सकती है। प्रलेखन Tika परियोजना पर एक समस्या है, जो दुर्भाग्यपूर्ण है, क्योंकि यह एक व्यापक उपकरण प्रतीत होता है। – Jason

+0

शायद अभी के लिए कोड में दस्तावेज है, क्योंकि यह सक्रिय विकास के तहत है। यदि आप रुचि रखते हैं, तो मेलिंग सूची पर पूछने के लिए सबसे अच्छा शर्त है, जो कि कुछ डॉक्टरों को लिखने के लिए देखे जाने वाले कमियों में से एक को उजागर कर सकता है :) – Gagravarr

+1

भविष्य में आने वाले किसी के लिए, सवाल [अब पूछा गया है Tika उपयोगकर्ता सूची पर] (http://mail-archives.apache.org/mod_mbox/tika-user/201206.mbox/%3C4FEF52DA.7070908%40consil.co.uk%3E) - दीर्घकालिक है कि थ्रेड में उम्मीद है कि सही उत्तर! – Gagravarr

1

KDEKFileMetaData नामक एक लाइब्रेरी प्रदान करता है जिसे वे आंतरिक रूप से उनके फ़ाइल इंडेक्सर के लिए उपयोग करते हैं।

यह सी ++, क्यूटी 5 का उपयोग करता है और अधिकांश बुनियादी प्रारूपों जैसे एमएस-ऑफिस -2007, ओडीएफएस, पीडीएफ, छवियों, वीडियो, ऑडियो और ईबुक का समर्थन करता है।