किसी के पास जावास्क्रिप्ट से उत्पन्न सामग्री (इस मामले में, HTML टेबल) वाले किसी पृष्ठ के HTML स्रोत को स्क्रैप करने का कोई अच्छा समाधान है?किसी के पास जावास्क्रिप्ट से उत्पन्न सामग्री (इस मामले में, HTML टेबल) वाले किसी पृष्ठ के HTML स्रोत को स्क्रैप करने का कोई अच्छा समाधान है?
एक शर्मनाक सरल है, हालांकि समस्या का समाधान Crowbar का उपयोग कर:
<?php
function get_html($url) // $url must be urlencode(d)
{
$context = stream_context_create(array(
'http' => array('timeout' => 120) // HTTP timeout in seconds
));
$html = substr(file_get_contents('http://127.0.0.1:10000/?url=' . $url . '&delay=3000&view=browser', 0, $context), 730, -32); // substr removes HTML from the Crowbar web service, returning only the $url HTML
return $html;
}
?>
लाभ लोहदंड का उपयोग करने कि टेबल नेतृत्वहीन मोज़िला आधारित ब्राउज़र को प्रदान की गई हो जाएगा (और सुलभ) धन्यवाद है। संपादित करें: पता चला है कि क्रॉबर के साथ समस्या एक विरोधाभासी ऐप थी, सर्वर डाउनटाइम नहीं, जो सिर्फ एक संयोग था।