How to make a RegEx fit in Python -

मेरा अंतिम लक्ष्य शब्द या शब्दों को उद्धरण चिह्नों के बाद title = "। मेरे पास एचटीएमएल की लंबी लाइनों के एक गुच्छा के साथ एक पाठ फ़ाइल है और प्रत्येक पंक्ति में एक title = "some place" है अंत में। मेरे पास एक regex है जो मैं अभी भी कोशिश कर रहा हूँ 100% डायल प्राप्त करने के लिए, लेकिन, अब के लिए, ऐसा कुछ दिखता है:

   (? = (Title = \ ") $) (। +?)  
  नहीं, यह अभी तक काम नहीं करता है, लेकिन मुझे लगता है कि मैं इसे ध्यान में रख सकता हूं। मेरे पास दूसरा काम है, हालांकि वह काम करता है, लेकिन यह पूरे  title = "thing"  को खींचती है और अगर उद्धरण में एक से अधिक शब्द मिलते हैं, तो यह अंत समाप्त हो जाता है: 
   title = "कुछ  
  समस्या यह है कि मैं इस बिंदु पर चल रहा हूं यह है कि मुझे समझ में नहीं आ रहा है कि इसे कैसे मेरी पटकथा में प्राप्त किया जा सकता है। Ep1c l33t h @ x0r regex को आदमी के लिए जाना जाता है लेकिन अगर यह मेरी स्क्रिप्ट में नहीं मिल सकता है तो यह बेकार है। इसमें कई कोष्ठक, उद्धरण और whatnot है कि पायथन पहचानता है कि मुझे नहीं पता है कि "स्लेश-आउट" सब कुछ ठीक से कैसे करें इसे काम करने के लिए। 
  अगर मैं इस मामले में पायथन इंटरप्रीटर को खुश रखने के बारे में थोड़ा मार्गदर्शन प्राप्त कर सकता हूं, तो मैं इसकी सराहना करता हूं। 
  और, अगर कोई regex master है 
  आपकी मदद के लिए धन्यवाद और यदि आपके कोई प्रश्न हैं या स्पष्टीकरण की आवश्यकता है, (मैं संभव के रूप में स्पष्ट होने की कोशिश की! कृपया मुझे बताएं! 
  धन्यवाद! 
   r 'के लिए धन्यवाद ...  टिप्पणी! ऐसा लगता है कि यह पायथन में सही ढंग से मिला है। कुछ समय पहले वापस आ गया और इसके बारे में सब भूल गया। का उल्लेख किया। Lol  
 एचटीएमएल के एक टुकड़े के लिए, यह एक पृष्ठ है जिसे मैं स्क्रैप किया है और सभी लाइनों को छीन लिया है जो मैं सुंदरसुप का इस्तेमाल करना चाहता हूं। यहां पंक्तियों में से एक का एक टुकड़ा है:  
  & lt; td शैली = "पृष्ठभूमि रंग: लाल; चौड़ाई ... गलत;" वजन: बोल्ड; ऊंचाई: 8px ;; मार्जिन: 0 पिक्सेल पृष्ठभूमि: कोई भी "शीर्षक =" कुछ चीज़ "प्रकार =" बटन "मान =" पीसीएल "/> gt;  
  यहां पर पूरे कोड का एक" सेंसर " यह खूबसूरत सूप के साथ पूरी तरह से काम करता है, सिवाय इसके कि यह केवल पहली पंक्ति के लिए  शीर्षक  जानकारी देता है। 
   आयात आयात आयात आयात से बीएस 4 से सुंदर सूप प्रिंट "आप क्या चाहते हैं फ़ाइल को कॉल करें? "फ़ाइल नाम = raw_input () प्रिंट" ठीक है, यह% आर है। "% फाइलनाम प्रिंट"% r खोलना ... "% filename लक्ष्य = खुला (फ़ाइलनाम, 'डब्ल्यू') sock = urllib.urlopen (" http : //1.1.1.1.censored.company.url ") htmlSource = sock.read () sock.close () सूप = खूबसूरत सूप (htmlsource) सारणी = सूप.फ़िंड_आल ('tr') प्रिंट" लेखन फाइल ... " "डेटा" = खुले (फ़ाइल नाम, "आर") पाया = खुले ("मिला।", "डब्ल्यू") डेटा में पंक्ति के लिए: अगर पुनः मैच ("(। *) (पृष्ठभूमि-सह लॉर: लाल) (। *) ", रेखा): प्रिंट & gt; & gt; पाया, लाइन, सूप = खूबसूरत सूप (खुले ("found.txt")) भागों = खुले ("आउट।", "डब्ल्यू") टैग = soup.input मूल्य _ I_want = टैग ['शीर्षक'] भागों.लिखित (value_I_want)       आप पहले से ही  BeautifulSoup  का उपयोग कर रहे हैं आप ने कहा, क्यों नहीं अपने गुणों को निकालने के लिए इसका उपयोग करें? 
   & gt; & gt; & gt; मैचों = [x] सूप के लिए एक्स के लिए 'शीर्षक']। ('इनपुट')]  
   उदाहरण : (अपनी टिप्पणी छोड़कर कि शीर्षक विशेषताओं अंदर  इनपुट  टैग हैं) 
   & gt; & gt; & gt; बीएस 4 आयात से सुंदरसुप & gt; & gt; & gt; Html = '' '& lt; इनपुट आईडी = "foo" शीर्षक = "कुछ" & gt; & Lt; इनपुट आईडी = "foo" शीर्षक = "कुछ और" & gt; & Lt; इनपुट आईडी = "foo" शीर्षक = "फिर से कुछ" & gt; '' 'gt; & gt; & gt; सूप = खूबसूरत सूप (html) & gt; & gt; & gt; मैचों = [एक्स [सूक्ष्म] में x के लिए 'शीर्षक']। ('इनपुट')] & gt; & gt; & gt; प्रत्येक परिणाम को एक अलग पंक्ति पर मुद्रित करने के लिए:   
   संपादित करें : ['कुछ', 'कुछ और', 'फिर से कुछ' > <कोड> & gt पूर्व; & gt; & gt; Soup.find_all में टैग के लिए ('इनपुट'): ... प्रिंट टैग ['शीर्षक']

Search This Blog

Alcantara

How to make a RegEx fit in Python -

Comments

Post a Comment

Popular posts from this blog

php - Select box validation (in laravel) -

pandas - Iterate on Groupby Object's fields -

java - Joda Time Interval Not returning what I expect -