How to make a RegEx fit in Python -
मेरा अंतिम लक्ष्य शब्द या शब्दों को उद्धरण चिह्नों के बाद title = "। मेरे पास एचटीएमएल की लंबी लाइनों के एक गुच्छा के साथ एक पाठ फ़ाइल है और प्रत्येक पंक्ति में एक
title = "some place"
है अंत में। मेरे पास एक regex है जो मैं अभी भी कोशिश कर रहा हूँ 100% डायल प्राप्त करने के लिए, लेकिन, अब के लिए, ऐसा कुछ दिखता है:
(? = (Title = \ ") $) (। +?)
नहीं, यह अभी तक काम नहीं करता है, लेकिन मुझे लगता है कि मैं इसे ध्यान में रख सकता हूं। मेरे पास दूसरा काम है, हालांकि वह काम करता है, लेकिन यह पूरे title = "thing"
को खींचती है और अगर उद्धरण में एक से अधिक शब्द मिलते हैं, तो यह अंत समाप्त हो जाता है:
title = "कुछ
समस्या यह है कि मैं इस बिंदु पर चल रहा हूं यह है कि मुझे समझ में नहीं आ रहा है कि इसे कैसे मेरी पटकथा में प्राप्त किया जा सकता है। Ep1c l33t h @ x0r regex को आदमी के लिए जाना जाता है लेकिन अगर यह मेरी स्क्रिप्ट में नहीं मिल सकता है तो यह बेकार है। इसमें कई कोष्ठक, उद्धरण और whatnot है कि पायथन पहचानता है कि मुझे नहीं पता है कि "स्लेश-आउट" सब कुछ ठीक से कैसे करें इसे काम करने के लिए।
अगर मैं इस मामले में पायथन इंटरप्रीटर को खुश रखने के बारे में थोड़ा मार्गदर्शन प्राप्त कर सकता हूं, तो मैं इसकी सराहना करता हूं।
और, अगर कोई regex master है
आपकी मदद के लिए धन्यवाद और यदि आपके कोई प्रश्न हैं या स्पष्टीकरण की आवश्यकता है, (मैं संभव के रूप में स्पष्ट होने की कोशिश की! कृपया मुझे बताएं!
धन्यवाद!
एचटीएमएल के एक टुकड़े के लिए, यह एक पृष्ठ है जिसे मैं स्क्रैप किया है और सभी लाइनों को छीन लिया है जो मैं सुंदरसुप का इस्तेमाल करना चाहता हूं। यहां पंक्तियों में से एक का एक टुकड़ा है: यहां पर पूरे कोड का एक" सेंसर " यह खूबसूरत सूप के साथ पूरी तरह से काम करता है, सिवाय इसके कि यह केवल पहली पंक्ति के लिए आप पहले से ही उदाहरण : (अपनी टिप्पणी छोड़कर कि शीर्षक विशेषताओं अंदर संपादित करें : ['कुछ', 'कुछ और', 'फिर से कुछ' > <कोड> & gt पूर्व; & gt; & gt; Soup.find_all में टैग के लिए ('इनपुट'): ... प्रिंट टैग ['शीर्षक'] r 'के लिए धन्यवाद ... टिप्पणी! ऐसा लगता है कि यह पायथन में सही ढंग से मिला है। कुछ समय पहले वापस आ गया और इसके बारे में सब भूल गया। का उल्लेख किया। Lol
& lt; td शैली = "पृष्ठभूमि रंग: लाल; चौड़ाई ... गलत;" वजन: बोल्ड; ऊंचाई: 8px ;; मार्जिन: 0 पिक्सेल पृष्ठभूमि: कोई भी "शीर्षक =" कुछ चीज़ "प्रकार =" बटन "मान =" पीसीएल "/> gt;
शीर्षक
जानकारी देता है।
आयात आयात आयात आयात से बीएस 4 से सुंदर सूप प्रिंट "आप क्या चाहते हैं फ़ाइल को कॉल करें? "फ़ाइल नाम = raw_input () प्रिंट" ठीक है, यह% आर है। "% फाइलनाम प्रिंट"% r खोलना ... "% filename लक्ष्य = खुला (फ़ाइलनाम, 'डब्ल्यू') sock = urllib.urlopen (" http : //1.1.1.1.censored.company.url ") htmlSource = sock.read () sock.close () सूप = खूबसूरत सूप (htmlsource) सारणी = सूप.फ़िंड_आल ('tr') प्रिंट" लेखन फाइल ... " "डेटा" = खुले (फ़ाइल नाम, "आर") पाया = खुले ("मिला।", "डब्ल्यू") डेटा में पंक्ति के लिए: अगर पुनः मैच ("(। *) (पृष्ठभूमि-सह लॉर: लाल) (। *) ", रेखा): प्रिंट & gt; & gt; पाया, लाइन, सूप = खूबसूरत सूप (खुले ("found.txt")) भागों = खुले ("आउट।", "डब्ल्यू") टैग = soup.input मूल्य _ I_want = टैग ['शीर्षक'] भागों.लिखित (value_I_want)
BeautifulSoup
का उपयोग कर रहे हैं आप ने कहा, क्यों नहीं अपने गुणों को निकालने के लिए इसका उपयोग करें?
& gt; & gt; & gt; मैचों = [x] सूप के लिए एक्स के लिए 'शीर्षक']। ('इनपुट')]
इनपुट
टैग हैं)
& gt; & gt; & gt; बीएस 4 आयात से सुंदरसुप & gt; & gt; & gt; Html = '' '& lt; इनपुट आईडी = "foo" शीर्षक = "कुछ" & gt; & Lt; इनपुट आईडी = "foo" शीर्षक = "कुछ और" & gt; & Lt; इनपुट आईडी = "foo" शीर्षक = "फिर से कुछ" & gt; '' 'gt; & gt; & gt; सूप = खूबसूरत सूप (html) & gt; & gt; & gt; मैचों = [एक्स [सूक्ष्म] में x के लिए 'शीर्षक']। ('इनपुट')] & gt; & gt; & gt; प्रत्येक परिणाम को एक अलग पंक्ति पर मुद्रित करने के लिए:
Comments
Post a Comment