के लिए विकल्प मैं अपाचे टीका फ्रेमवर्क जो जावा आधारित है, के लिए सी/सी ++ विकल्प की तलाश में हूं। विशेष रूप से, मैं एक फ्रेमवर्क के तहत फ़ाइल मीटडाटा और संरचित पाठ निष्कर्षण की खोज कर रहा हूं। कुछ ऑनलाइन खोज और निकटतम बात मैं कर रहा है जीएनयू libextractor और अलग-अलग फ़ाइल फिल्टर है कि पाठ डेटा निकालने के दस्तावेजों को पार्स का एक समूह (pdftoext, xls2csv आदि)सी/सी ++ अपाचे टीका
किसी को भी कृपया एक अच्छा पुस्तकालय तुलनीय अनुशंसा कर सकते हैं ब्राउज़िंग करने के बाद अपाचे की टिकिका को? ताकि आप हमेशा कि का उपयोग कर टीका शुरू और फिर इसे अपने सी ++ कोड से अनुरोध करता भेज सकता है
धन्यवाद
यह सिद्धांत में एक अच्छा विचार है, लेकिन क्या इसे कभी दस्तावेज किया गया है? सर्वर मोड को समझने के लिए कोड और चर्चा समूहों के माध्यम से कुछ खुदाई की आवश्यकता हो सकती है। प्रलेखन Tika परियोजना पर एक समस्या है, जो दुर्भाग्यपूर्ण है, क्योंकि यह एक व्यापक उपकरण प्रतीत होता है। – Jason
शायद अभी के लिए कोड में दस्तावेज है, क्योंकि यह सक्रिय विकास के तहत है। यदि आप रुचि रखते हैं, तो मेलिंग सूची पर पूछने के लिए सबसे अच्छा शर्त है, जो कि कुछ डॉक्टरों को लिखने के लिए देखे जाने वाले कमियों में से एक को उजागर कर सकता है :) – Gagravarr
भविष्य में आने वाले किसी के लिए, सवाल [अब पूछा गया है Tika उपयोगकर्ता सूची पर] (http://mail-archives.apache.org/mod_mbox/tika-user/201206.mbox/%3C4FEF52DA.7070908%40consil.co.uk%3E) - दीर्घकालिक है कि थ्रेड में उम्मीद है कि सही उत्तर! – Gagravarr