2009-07-16 27 views
9

क्या किसी को पाठ से दिनांक संदर्भ निकालने का एक सरल, लेकिन प्रभावी तरीका मिला है? मैंने अस्थायी निष्कर्षण उपकरण खोजने के लिए उचित मात्रा में किया है, लेकिन वहां बहुत कुछ नहीं है। कुछ सफेद कागजात हैं, लेकिन ऐसा लगता है कि यह पूरे अर्थात् वेब चीज़ के उप-समूह में पड़ता है लेकिन ज्यादा ध्यान नहीं दिया जाता है।टेम्पोरल एक्सट्रैक्शन (यानी मुक्त फॉर्म टेक्स्ट से दिनांक/समय इकाइयां निकालें) - कैसे?

मैं बस कुछ ऐसा ढूंढ रहा हूं जो 80% प्रभावी है। "जनवरी 200 9 के महीने के बाद" जैसी चीज़ों को पकड़ने की कोई आवश्यकता नहीं है, लेकिन बुनियादी आम तिथियां संस्थाएं अच्छी होंगी।

मैं सभी सुझावों के लिए खुला हूं, यहां तक ​​कि फैंसी रेगेक्स एक्सप्रेशन भी।

आग लगाना!

(और धन्यवाद - हेनरी)

उत्तर

1

एक तरह से मैंने यह किया है बस कुछ भी है कि 4 नंबर है के लिए देखो और यह एक संख्या में बदलने के लिए है। यदि संख्या उस वर्ष की सीमा के भीतर आती है जिसमें आप रुचि रखते हैं, तो संभवतः आपके पास एक वर्ष का उपयोग हो सकता है। यदि आप किसी भी मेलिंग महीनों और दिनों में रुचि रखते हैं तो आप यह देखने के लिए आसन्न शब्दों की जांच कर सकते हैं कि वे एक महीने का नाम हैं या 1 और 31 के बीच की संख्या है। मुझे विश्वास है कि यह आपकी 80% आवश्यकता को पूरा करेगा।

वर्षों के लिए Regex: [0-9] {4} - आपको एक संख्या में कनवर्ट करने की आवश्यकता होगी और देखें कि यह वर्षों के भीतर मान्य है या नहीं।

महीनों के लिए Regex: जनवरी | जनवरी | फ़रवरी | फ़रवरी ... आदि हर महीने

Regex के लिए महीने के दिनों के लिए: [0-9] {1,2} - आपके पास करने के लिए कन्वर्ट करने के लिए की आवश्यकता होगी एक संख्या और देखें कि यह 1-31

+0

मैं वर्तमान में साल एक सरल regex का उपयोग कर निकालने को पूरा =>/\ ख ((19 | 20) \ घ \ घ) \ b/(केवल झूठी सकारात्मक सीमाओं को सीमित करने के लिए 1 9 और 20 से शुरू होने वाले वर्षों पर ध्यान केंद्रित करना चाहता था); अगला कदम महीनों की तलाश करना है, लेकिन अभी भी एक ही वाक्य में कई तारीखों से निपटने का कोई तरीका नहीं मिला है – henry74

-3

मैं इसे खिलाने के तरीके को खोजने के लिए एक खाली चित्रण कर रहा हूं, लेकिन this library तारीखों की विस्तृत श्रृंखला का विश्लेषण करेगा और "यह वास्तविक तिथि है " समारोह। (पूर्ण प्रकटीकरण, मैं उस lib के लेखक हूँ)

+0

ऐसा लगता है कि लाइब्रेरी की आपको वास्तविक दिनांक शर्तों में भेजने की आवश्यकता है। मैं कुछ ढूंढ रहा हूं जो आपको इसे वाक्यों को खिलाने की अनुमति देता है और इसे दिनांक/समय इकाइयों को निकालने की अनुमति देता है। – henry74

3
  1. आपके डेटा में लक्ष्य लौकिक भाव, केवल सीमित प्रारूप में हैं नियमित अभिव्यक्ति और पुनरावृत्ति दृष्टिकोण का उपयोग अपने सिस्टम को परिष्कृत करने के

  2. अन्यथा तो , का उपयोग स्टैनफोर्ड NLP टूलकिट, SUTime है, जो एक से अधिक को मार हो सकता है, लेकिन निश्चित रूप से अपने मांगों को