Reading a page and parsing it with minidom.parse or minidom.parseString in Python? -


मेरे पास इनमें से कोड हैं:

  import urlib से xml.dom आयात minidom res = Urllib.urlopen ('https://www.google.com/webhp#q=apple&start=10') dom = minidom.parse (res)  

जो मुझे देता है त्रुटि xml.parsers.expat.ExpatError: वाक्यविन्यास त्रुटि: पंक्ति 1, कॉलम 0

या यह:

  import urllib से xml.dom आयात minidom res = urllib.urlopen ('https://www.google.com/webhp#q=apple&start=10') dom = minidom.parseString (res.read ())  

जो मुझे एक ही त्रुटि देता है res.read () ठीक पढ़ता है और एक स्ट्रिंग है।

मैं बाद में कोड के माध्यम से पार्स करना चाहूंगा। मैं यह कैसे xml.dom.minidom ?

का उपयोग करके कर सकता हूं आपको यह त्रुटि मिल रही है कि पृष्ठ मान्य XML नहीं है यह एचटीएमएल 5 है। शीर्ष पर स्थित doctype यह आपको बताता है, भले ही आप सामग्री प्रकार की उपेक्षा करते हैं आप एक XML पार्सर के साथ HTML को पार्स नहीं कर सकते। *

यदि आप stdlib में हैं, तो आप (पायथन 3.x) / (2.x) का उपयोग कर सकते हैं। ** हालांकि, आप lxml (जैसे नाम के बावजूद, HTML को पार्स कर सकते हैं), html5lib , या BeautifulSoup जैसे तीसरे पक्ष के पुस्तकालयों पर विचार करना चाह सकते हैं (जो

* ठीक है, जब तक कि वह एक्सएचटीएमएल या एचटीएमएल 5 का एक्सएमएल आउटपुट न हो, लेकिन यह यहां मामला न हो।

* * htmllib का उपयोग न करें, जब तक कि आप काम करने वाले HTMLParser के बिना अजगर के पुराने संस्करण का उपयोग नहीं कर रहे हैं। इस मॉड्यूल को किसी कारण के कारण पदावनत किया गया है।


Comments

Popular posts from this blog

Python Equivalent for matlab cart2pol and pol2cart -

Docker - Tomcat and PostgreSQL containers in same host - No Route to host -

sip - Call SipJs to Asterisk 12 -