How to make a RegEx fit in Python -


मेरा अंतिम लक्ष्य शब्द या शब्दों को उद्धरण चिह्नों के बाद title = "। मेरे पास एचटीएमएल की लंबी लाइनों के एक गुच्छा के साथ एक पाठ फ़ाइल है और प्रत्येक पंक्ति में एक title = "some place" है अंत में। मेरे पास एक regex है जो मैं अभी भी कोशिश कर रहा हूँ 100% डायल प्राप्त करने के लिए, लेकिन, अब के लिए, ऐसा कुछ दिखता है:

  (? = (Title = \ ") $) (। +?)  

नहीं, यह अभी तक काम नहीं करता है, लेकिन मुझे लगता है कि मैं इसे ध्यान में रख सकता हूं। मेरे पास दूसरा काम है, हालांकि वह काम करता है, लेकिन यह पूरे title = "thing" को खींचती है और अगर उद्धरण में एक से अधिक शब्द मिलते हैं, तो यह अंत समाप्त हो जाता है:

title = "कुछ

समस्या यह है कि मैं इस बिंदु पर चल रहा हूं यह है कि मुझे समझ में नहीं आ रहा है कि इसे कैसे मेरी पटकथा में प्राप्त किया जा सकता है। Ep1c l33t h @ x0r regex को आदमी के लिए जाना जाता है लेकिन अगर यह मेरी स्क्रिप्ट में नहीं मिल सकता है तो यह बेकार है। इसमें कई कोष्ठक, उद्धरण और whatnot है कि पायथन पहचानता है कि मुझे नहीं पता है कि "स्लेश-आउट" सब कुछ ठीक से कैसे करें इसे काम करने के लिए।

अगर मैं इस मामले में पायथन इंटरप्रीटर को खुश रखने के बारे में थोड़ा मार्गदर्शन प्राप्त कर सकता हूं, तो मैं इसकी सराहना करता हूं।

और, अगर कोई regex master है

आपकी मदद के लिए धन्यवाद और यदि आपके कोई प्रश्न हैं या स्पष्टीकरण की आवश्यकता है, (मैं संभव के रूप में स्पष्ट होने की कोशिश की! कृपया मुझे बताएं!

धन्यवाद!

r 'के लिए धन्यवाद ... टिप्पणी! ऐसा लगता है कि यह पायथन में सही ढंग से मिला है। कुछ समय पहले वापस आ गया और इसके बारे में सब भूल गया। का उल्लेख किया। Lol

एचटीएमएल के एक टुकड़े के लिए, यह एक पृष्ठ है जिसे मैं स्क्रैप किया है और सभी लाइनों को छीन लिया है जो मैं सुंदरसुप का इस्तेमाल करना चाहता हूं। यहां पंक्तियों में से एक का एक टुकड़ा है:

& lt; td शैली = "पृष्ठभूमि रंग: लाल; चौड़ाई ... गलत;" वजन: बोल्ड; ऊंचाई: 8px ;; मार्जिन: 0 पिक्सेल पृष्ठभूमि: कोई भी "शीर्षक =" कुछ चीज़ "प्रकार =" बटन "मान =" पीसीएल "/> gt;

यहां पर पूरे कोड का एक" सेंसर " यह खूबसूरत सूप के साथ पूरी तरह से काम करता है, सिवाय इसके कि यह केवल पहली पंक्ति के लिए शीर्षक जानकारी देता है।

  आयात आयात आयात आयात से बीएस 4 से सुंदर सूप प्रिंट "आप क्या चाहते हैं फ़ाइल को कॉल करें? "फ़ाइल नाम = raw_input () प्रिंट" ठीक है, यह% आर है। "% फाइलनाम प्रिंट"% r खोलना ... "% filename लक्ष्य = खुला (फ़ाइलनाम, 'डब्ल्यू') sock = urllib.urlopen (" http : //1.1.1.1.censored.company.url ") htmlSource = sock.read () sock.close () सूप = खूबसूरत सूप (htmlsource) सारणी = सूप.फ़िंड_आल ('tr') प्रिंट" लेखन फाइल ... " "डेटा" = खुले (फ़ाइल नाम, "आर") पाया = खुले ("मिला।", "डब्ल्यू") डेटा में पंक्ति के लिए: अगर पुनः मैच ("(। *) (पृष्ठभूमि-सह लॉर: लाल) (। *) ", रेखा): प्रिंट & gt; & gt; पाया, लाइन, सूप = खूबसूरत सूप (खुले ("found.txt")) भागों = खुले ("आउट।", "डब्ल्यू") टैग = soup.input मूल्य _ I_want = टैग ['शीर्षक'] भागों.लिखित (value_I_want)    

आप पहले से ही BeautifulSoup का उपयोग कर रहे हैं आप ने कहा, क्यों नहीं अपने गुणों को निकालने के लिए इसका उपयोग करें?

  & gt; & gt; & gt; मैचों = [x] सूप के लिए एक्स के लिए 'शीर्षक']। ('इनपुट')]  

उदाहरण : (अपनी टिप्पणी छोड़कर कि शीर्षक विशेषताओं अंदर इनपुट टैग हैं)

  & gt; & gt; & gt; बीएस 4 आयात से सुंदरसुप & gt; & gt; & gt; Html = '' '& lt; इनपुट आईडी = "foo" शीर्षक = "कुछ" & gt; & Lt; इनपुट आईडी = "foo" शीर्षक = "कुछ और" & gt; & Lt; इनपुट आईडी = "foo" शीर्षक = "फिर से कुछ" & gt; '' 'gt; & gt; & gt; सूप = खूबसूरत सूप (html) & gt; & gt; & gt; मैचों = [एक्स [सूक्ष्म] में x के लिए 'शीर्षक']। ('इनपुट')] & gt; & gt; & gt; प्रत्येक परिणाम को एक अलग पंक्ति पर मुद्रित करने के लिए:   

संपादित करें : ['कुछ', 'कुछ और', 'फिर से कुछ' > <कोड> & gt पूर्व; & gt; & gt; Soup.find_all में टैग के लिए ('इनपुट'): ... प्रिंट टैग ['शीर्षक']


Comments

Popular posts from this blog

Member with no value in F# -

java - Joda Time Interval Not returning what I expect -

c# - Showing a SelectedItem's Property -