자바 정규 표현 식 html 의 모든 태그 와 특수 HTML 문 자 를 제거 합 니 다.

20560 단어 자바 개발
자바 정규 표현 식 에 대해 html 에 있 는 모든 태그 와 특수 HTML 문 자 를 제거 하고 제 가 한 프로젝트 의 총 결 경험 을 결합 합 니 다.
모두 세 가지 로 나 뉜 다. 첫 번 째 는 짧 은 글 에 적용 되 고 글 을 정규 표현 식 으로 코드 에 연결 하 는 것 이 번 거 롭 고 실 용적 이지 않다.두 번 째 는 문 서 를 직접 도입 하여 변경 하 는 것 입 니 다. 그러나 작은 단점 은 문서 의 형식 이 utf - 8 형식 일 수 있 으 므 로 gbk 형식 으로 변경 해 야 한 다 는 것 입 니 다.세 번 째 는 코드 에서 자동 으로 형식 을 바 꾸 는 것 이다.초보 자 이 므 로 부족 한 점 이 많 습 니 다. 여러분 의 보충 을 환영 합 니 다.다음은 제 가 따로 나 눠 드릴 게 요.
첫 번 째: 짧 은 데이터 에 사용 되 며 번 거 롭 습 니 다.
package day0703;  
  
import java.util.regex.Matcher;  
import java.util.regex.Pattern;  
  
public class HtmlUtil { 
    private static final String regEx_script = "]*?>[\\s\\S]*?<\\script>"; //   script        
    private static final String regEx_style = "<style [^>]*?>[\\s\\S]*?<\\/style >"; //   style        
    private static final String regEx_html = "<[^>]+>"; //   HTML          
    private static final String regEx_space = "\\s*|\t|\r|
";// private static final String regEx_special = "\\&[a-zA-Z]{1,10};";// ,   /** * @param htmlStr * @return * Html * , , , “\” , */ public static String delHTMLTag(String htmlStr) { Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE); Matcher m_script = p_script.matcher(htmlStr); htmlStr = m_script.replaceAll(""); // script Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE); Matcher m_style = p_style.matcher(htmlStr); htmlStr = m_style.replaceAll(""); // style Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE); Matcher m_html = p_html.matcher(htmlStr); htmlStr = m_html.replaceAll(""); // html Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE); Matcher m_space = p_space.matcher(htmlStr); htmlStr = m_space.replaceAll(""); // Pattern p_special = Pattern.compile(regEx_special, Pattern.CASE_INSENSITIVE); Matcher m_special = p_special.matcher(htmlStr); htmlStr = m_special.replaceAll(""); // return htmlStr.trim(); // } public static String getTextFromHtml(String htmlStr){ htmlStr = delHTMLTag(htmlStr); htmlStr = htmlStr.replaceAll(" ", ""); return htmlStr; } public static void main(String[] args) { String str = "<P> </P>" + "<P class=MsoNormal style=\"LAYOUT-GRID-MODE: char; MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 150%; TEXT-INDENT: 24pt; mso-layout-grid-align: none\"><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">2014</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> </SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">12</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> </SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">30</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> , , </SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">2015</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> , (</SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">USML</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\">) , 。</SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\"><?xml:namespace prefix =\"o\" ns = \"urn:schemas-microsoft-com:office:office\" /><o:p></o:p></SPAN></P>" + "<P class=MsoNormal style=\"LAYOUT-GRID-MODE: char; MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 150%; TEXT-INDENT: 24pt; mso-layout-grid-align: none\"><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> </SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'; mso-ascii-theme-font: minor-fareast; mso-hansi-theme-font: minor-fareast\">·</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> , (</SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">EAR</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\">) (</SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">ITAR</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\">) , </SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">2015</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> 。 , , , 。 “ ” , “ ” 。 “ ”。 ,“ ” 。</SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\"><o:p></o:p></SPAN></P>" + "<P class=MsoNormal style=\"LAYOUT-GRID-MODE: char; TEXT-ALIGN: right; MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 150%; TEXT-INDENT: 24pt; mso-layout-grid-align: none\" align=right><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\">( </SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\"><SPAN style=\"mso-spacerun: yes\">  </SPAN></SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> )</SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\"><o:p></o:p></SPAN></P>" + "<P> </P>"; System.out.println(getTextFromHtml(str)); } } </code></pre> <br> <br> <p></p> <p> : 。( "D:/content.txt“, content.txt。</p> <pre><code class="language-java">package day0703; import java.io.BufferedReader; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import java.util.regex.Pattern; public class success { /** * Html * utf-8 gbk , , * @param inputString * @return */ public static String removeHtmlTag(String inputString) { if (inputString == null) return null; String htmlStr = inputString; // html String textStr = ""; java.util.regex.Pattern p_script; java.util.regex.Matcher m_script; java.util.regex.Pattern p_style; java.util.regex.Matcher m_style; java.util.regex.Pattern p_html; java.util.regex.Matcher m_html; java.util.regex.Pattern p_special; java.util.regex.Matcher m_special; try { // script { <script[^>]*?>[\\s\\S]*?<\\/script> String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; // style { <style[^>]*?>[\\s\\S]*?<\\/style> String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // HTML String regEx_html = "<[^>]+>"; // :      String regEx_special = "\\&[a-zA-Z]{1,10};"; p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE); m_script = p_script.matcher(htmlStr); htmlStr = m_script.replaceAll(""); // script p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE); m_style = p_style.matcher(htmlStr); htmlStr = m_style.replaceAll(""); // style p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE); m_html = p_html.matcher(htmlStr); htmlStr = m_html.replaceAll(""); // html p_special = Pattern .compile(regEx_special, Pattern.CASE_INSENSITIVE); m_special = p_special.matcher(htmlStr); htmlStr = m_special.replaceAll(""); // textStr = htmlStr; } catch (Exception e) { e.printStackTrace(); } return textStr;// } /** * main * @param args */ public static void main(String[] args) { StringBuffer sb = new StringBuffer(); try { FileReader fr = new FileReader("D:/content.txt"); BufferedReader br = new BufferedReader(fr); String s = ""; while((s = br.readLine())!=null){ sb.append(s); } } catch (FileNotFoundException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } String ssss = ReduceHtml2Text.removeHtmlTag(sb.toString()); System.out.println(ssss); } }</code></pre> <br> <br> <p></p> <p> : 。 </p> <p></p> <pre><code class="language-java">package day0703; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.util.regex.Pattern; public class ReduceHtml2Text { /** * Html * utf-8 gbk , * @param inputString * @return */ public static String removeHtmlTag(String inputString) { if (inputString == null) return null; String htmlStr = inputString; // html String textStr = ""; java.util.regex.Pattern p_script; java.util.regex.Matcher m_script; java.util.regex.Pattern p_style; java.util.regex.Matcher m_style; java.util.regex.Pattern p_html; java.util.regex.Matcher m_html; java.util.regex.Pattern p_special; java.util.regex.Matcher m_special; try { // script { <script[^>]*?>[\\s\\S]*?<\\/script> String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; // style { <style[^>]*?>[\\s\\S]*?<\\/style> String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // HTML String regEx_html = "<[^>]+>"; // :      String regEx_special = "\\&[a-zA-Z]{1,10};"; p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE); m_script = p_script.matcher(htmlStr); htmlStr = m_script.replaceAll(""); // script p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE); m_style = p_style.matcher(htmlStr); htmlStr = m_style.replaceAll(""); // style p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE); m_html = p_html.matcher(htmlStr); htmlStr = m_html.replaceAll(""); // html p_special = Pattern .compile(regEx_special, Pattern.CASE_INSENSITIVE); m_special = p_special.matcher(htmlStr); htmlStr = m_special.replaceAll(""); // textStr = htmlStr; } catch (Exception e) { e.printStackTrace(); } return textStr;// } /** * main * * @param args */ public static void main(String[] args) { StringBuffer sb = new StringBuffer(); try { File fr = new File("D:/content.txt"); BufferedReader br = new BufferedReader(new InputStreamReader( new FileInputStream(fr), "UTF-8")); String s = ""; while ((s = br.readLine()) != null) { sb.append(s); String str2 = new String(s.getBytes("GBK"), "GBK"); } } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } String asc= ReduceHtml2Text.removeHtmlTag(sb.toString()); System.out.println(asc); } }</code></pre> <br> <br> <p></p> <p><br></p> </div> </div> </div> </div> </div> <!--PC WAP --> <div id="SOHUCS" sid="1288360164927283200"></div> <script type="text/javascript" src="/views/front/js/chanyan.js">
이 가능 하 다, ~ 할 수 있다,...
  • html
    주화
    html
  • [Struts 2 4] Struts 2 차단기
    bit1129
    struts 2 차단기
  • make: cc 명령 에서 해결 방법 을 찾 을 수 없습니다.
    daizj
    linux 명령 알 수 없 음 make cc
  • Oracle Job 응용 프로그램
    주 범 양
    oracle job
  • 다 중 스 레 드 메커니즘
    주 휘 휘 휘
    다 중 스 레 드
  • 웹 보고서 도구 FineReport 사용 중 자주 발생 하 는 오류 및 해결 방법 (1)
    A 씨 는 괴 롭 히 지 않 는 다
    웹 보고서 finereport 자바 보고서 보고서 도구
  • my sql rpm 설치 후 my. cnf 가 없습니다.
    임 학 소
    my. cnf 없 음
  • Kindle Fire HDX root 와 구 글 서비스 프레임 워 크 를 설치 한 후에 도 구 글 계 정 에 로그 인 할 수 없 는 문제
    aigo
    root
  • 알파벳 별 분류:
    A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 기타
    첫 페이지 -
    우리 -
    역 내 검색 -
    Sitemap -
    권리 침해 신고
    모든 IT 지식 창고 저작권© 2000 - 2050 IT 지식 창고 IT610. com, 판권 소유.
    경 ICP 비 09083238 호









    좋은 웹페이지 즐겨찾기