c# - How to convert HTML to plain text -


इस सवाल का पहले से ही एक उत्तर है: < / Html>

निम्नलिखित फ़ंक्शन के साथ सादा पाठ करें, लेकिन परिवर्तित होने में अभी भी त्रुटि हो रही है।

<पूर्व> निजी स्थिर स्ट्रिंग HtmlToPlainText (स्ट्रिंग HTML) {const स्ट्रिंग टैग WhiteSpace = @ "(& gt; | $) (\ डब्ल्यू | \ n | \ r) + & lt;"; // एक मैच या अधिक (सफेद स्थान या लाइन ब्रेक) के बीच '& gt;' और '& lt;' Const स्ट्रिंग स्ट्रापफॉर्मेटिंग = @ "& lt; [^ & gt;] * (& gt; |)"; // किसी भी वर्ण के बीच '& lt;' और '& gt;', जब भी अंत टैग में स्ट्रिंग पंक्ति की यादृच्छिक पंक्ति होती है, ब्रेक = @ "& lt; (br | BR) \ s {0,1} \ / {0}>"; // matches: & lt; br & gt; ;, & Lt; br / & gt;, & lt; br / & gt;, & lt; बीआर & gt; & lt; BR / & gt; & lt; बीआर / & gt; Var लाइनब्रेकआरगेज = नया रेगेक्स (लाइनब्रैक, रेगेक्सऑप्टिस। मल्टीलाइन); Var स्ट्रिपफॉर्मेटिंग रीजक्स = नया रेगेक्स (पट्टी फ़ॉर्मेटिंग, रेगेक्स ऑप्शन। मल्टीलाइन); Var टैग WhiteSpaceRegex = नया Regex (टैगWhiteSpace, RegexOptions.Multiline); Var टेक्स्ट = html; // डीकोड एचटीएमएल विशिष्ट अक्षर पाठ = System.Net.WebUtility.HtmlDecode (पाठ); // निकालें टैग्स व्हाइटस्पेस / लाइन ब्रेक्स टेक्स्ट = टैग WhiteSpaceRegex.Replace (टेक्स्ट, "& gt; & lt;"); // बदलें & lt; br / & gt; लाइन ब्रेक के साथ टेक्स्ट = लाइनरेक रिजैक्स। रीप्ले (टेक्स्ट, एनवायरनमेंट.NewLine); // स्ट्रिप फ़ॉर्मेटिंग टेक्स्ट = स्ट्रिप फ़ॉर्मेटिंग रीजक्स। रीप्ले (टेक्स्ट, स्ट्रिंग.एप्टी); टेक्स्ट = टेक्स्ट। बदलें ("& gt;", ""); वापसी पाठ; }

जब मैंने कोड डिबग करने की कोशिश की तो यह \ r और \ r \ n भी सादे टेक्स्ट आउटपुट में प्रदर्शित करता है। यह फ़ंक्शन एचटीएल को सादे पाठ में ठीक से परिवर्तित नहीं करता है। क्या कोई मुझे कोई अन्य रूपांतरण फ़ंक्शन सुझा सकता है?

धन्यवाद

आप < कोड> HtmlAgilityPack के HtmlToText डेमो, जो हो सकता है।

मैंने अन्य उत्तरों पर एक नज़र डाला था लेकिन वे सभी नियमित अभिव्यक्तियों से जुड़े विभिन्न समाधानों का सुझाव देते हैं। मैंने सोचा कि HtmlAgilityPack को पर्याप्त ध्यान नहीं मिला।

आपको केवल अपने प्रोजेक्ट में प्लग करना होगा और उदाहरण का पालन करना होगा।

< / html>

Comments

Popular posts from this blog

Python Equivalent for matlab cart2pol and pol2cart -

sip - Call SipJs to Asterisk 12 -

java - Joda Time Interval Not returning what I expect -