Java에서 정규 표현식으로 html 태그 제거
주: 이것은 자바 정규 표현식으로 html 라벨을 제거하는 방법입니다.
private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; // script
private static final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; // style
private static final String regEx_html = "<[^>]+>"; // HTML
private static final String regEx_space = "\\s*|\t|\r|
";//
private static final String regEx_w = "<w[^>]*?>[\\s\\S]*?<\\/w[^>]*?>";// w
/**
* @param htmlStr
* @return Html
* @author LongJin
*/
public static String delHTMLTag(String htmlStr) {
Pattern p_w = Pattern.compile(regEx_w, Pattern.CASE_INSENSITIVE);
Matcher m_w = p_w.matcher(htmlStr);
htmlStr = m_w.replaceAll(""); // script
Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
Matcher m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // script
Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
Matcher m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); // style
Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
Matcher m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); // html
Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);
Matcher m_space = p_space.matcher(htmlStr);
htmlStr = m_space.replaceAll(""); //
htmlStr = htmlStr.replaceAll(" ", ""); //
return htmlStr.trim(); //
}
ps: 방법은 참고만 제공하여 모두가 함께 공부할 수 있도록 합니다. 부족하거나 의문이 있으면 평론을 환영합니다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
38. Java의 Leetcode 솔루션텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.