एवीआरओ के लिए काफी नया है इसलिए कृपया कुछ भी याद आ रही है, तो क्षमा करें। क्या कोई एवीआरओ वैधता/कमांडलाइन उपयोगिता है जो एवीआरओ स्कीमा के खिलाफ इनपुट मान्य करती है? या शायद यह इंगित करता है कि त्रुटि जेसन इनपुट में कहां है।एवीआरओ सत्यापन
उत्तर
ऐसा नहीं है कि मुझे पता है। मैंने यह छोटी पायथन लिपि लिखी है जो आपको बताएगी कि क्या एक जेसन फ़ाइल स्कीमा से मेल खाती है, लेकिन यह आपको नहीं बताएगी जहां त्रुटि है यदि कोई है तो त्रुटि है।
यह Python avro library पर निर्भर करता है।
#!/usr/bin/env python
from avro.io import validate
from avro.schema import parse
from json import loads
from sys import argv
def main(argv):
valid = set()
invalid_avro = set()
invalid_json = set()
if len(argv) < 3:
print "Give me an avro schema file and a whitespace-separated list of json files to validate against it."
else:
schema = parse(open(argv[1]).read())
for arg in argv[2:]:
try:
json = loads(open(arg, 'r').read())
if validate(schema, json):
valid.add(arg)
else:
invalid_avro.add(arg)
except ValueError:
invalid_json.add(arg)
print ' Valid files:\n\t' + '\n\t'.join(valid)
print 'Invalid avro:\n\t' + '\n\t'.join(invalid_avro)
print 'Invalid json:\n\t' + '\n\t'.join(invalid_json)
if '__main__' == __name__:
main(argv)
मैं आपके सवाल का यकीन नहीं है समझ में आता है: के बाद से एवरो स्कीमा जब एवरो डेटा संसाधित अनिवार्य है, यह हमेशा मूल रूप से डिफ़ॉल्ट रूप से मान्य है। एक और तरीका रखो, एवरो को पार्स करने का कार्य आवश्यकतानुसार इसे मान्य करेगा।
दुर्भाग्यवश, यह देखते हुए कि एवरो डेटा में बहुत कम मेटाडेटा है, सभी असंगत परिवर्तन अनिवार्य रूप से डेटा भ्रष्टाचार होंगे; और आप अच्छी तरह से कचरा हो सकता है। ऐसा इसलिए है क्योंकि कोई फील्ड आईडी या विभाजक नहीं हैं: स्कीमा का क्या पालन करना चाहिए इसके आधार पर सभी डेटा का अर्थ है। अनावश्यकता की कमी डेटा को बहुत कॉम्पैक्ट बनाती है, लेकिन इसका मतलब यह भी है कि यहां तक कि सबसे छोटा डेटा भ्रष्टाचार भी संपूर्ण डेटा स्ट्रीम बेकार कर सकता है।
मैं जो कह रहा हूं उसे प्राप्त करता हूं। लेकिन एवरो अपवाद (स्कीमा के साथ इनपुट विसंगति के मामले में) अस्पष्ट हैं और इनपुट में वास्तविक समस्या को बिल्कुल इंगित नहीं करते हैं। शायद, कुछ और उपयोगकर्ता के अनुकूल के लिए खोज रहे हैं। – airboss
आह, हाँ, समझा। यद्यपि आप शायद एवरो टीम, wrt डिफ़ॉल्ट पार्सर में सुधार का सुझाव दे सकते हैं। मैं उन त्रुटियों में सहमत हूं जो उपयोगी नहीं हैं ...: - / – StaxMan
मैंने जावास्क्रिप्ट के लिए एक एवरो सत्यापनकर्ता बनाया है जिसे आप JSON पर चला सकते हैं। यह अभी तक एवरो रिलीज का हिस्सा नहीं है, लेकिन इसे जल्द ही किया जाना चाहिए। आप पैच को https://issues.apache.org/jira/browse/AVRO-485 पर पा सकते हैं।
स्क्रिप्ट के लिए धन्यवाद ... इसे आजमाएगा। लेकिन तथ्य यह है कि वास्तविक समस्या को इंगित करने वाले कुछ भी नहीं हैं। – airboss
@Anup आपको स्कीमा और इनपुट को टुकड़ों में तोड़ना होगा और उन हिस्सों को मान्य करना होगा। रिकॉर्डस्केमा को तोड़ना काफी आसान है, लेकिन यदि JSON इनपुट अमान्य है, तो यह जानना मुश्किल है कि इसे कैसे तोड़ना है। यदि आपके पास कोई भी सुझाव हो, मुझे बताएं। – kojiro