자바 정규 표현 식 html 의 모든 태그 와 특수 HTML 문 자 를 제거 합 니 다.
20560 단어 자바 개발
모두 세 가지 로 나 뉜 다. 첫 번 째 는 짧 은 글 에 적용 되 고 글 을 정규 표현 식 으로 코드 에 연결 하 는 것 이 번 거 롭 고 실 용적 이지 않다.두 번 째 는 문 서 를 직접 도입 하여 변경 하 는 것 입 니 다. 그러나 작은 단점 은 문서 의 형식 이 utf - 8 형식 일 수 있 으 므 로 gbk 형식 으로 변경 해 야 한 다 는 것 입 니 다.세 번 째 는 코드 에서 자동 으로 형식 을 바 꾸 는 것 이다.초보 자 이 므 로 부족 한 점 이 많 습 니 다. 여러분 의 보충 을 환영 합 니 다.다음은 제 가 따로 나 눠 드릴 게 요.
첫 번 째: 짧 은 데이터 에 사용 되 며 번 거 롭 습 니 다.
package day0703;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class HtmlUtil {
private static final String regEx_script = "]*?>[\\s\\S]*?<\\script>"; // script
private static final String regEx_style = "<style [^>]*?>[\\s\\S]*?<\\/style >"; // style
private static final String regEx_html = "<[^>]+>"; // HTML
private static final String regEx_space = "\\s*|\t|\r|
";//
private static final String regEx_special = "\\&[a-zA-Z]{1,10};";// ,
/**
* @param htmlStr
* @return
* Html
* , , , “\” ,
*/
public static String delHTMLTag(String htmlStr) {
Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
Matcher m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // script
Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
Matcher m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); // style
Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
Matcher m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); // html
Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);
Matcher m_space = p_space.matcher(htmlStr);
htmlStr = m_space.replaceAll(""); //
Pattern p_special = Pattern.compile(regEx_special, Pattern.CASE_INSENSITIVE);
Matcher m_special = p_special.matcher(htmlStr);
htmlStr = m_special.replaceAll(""); //
return htmlStr.trim(); //
}
public static String getTextFromHtml(String htmlStr){
htmlStr = delHTMLTag(htmlStr);
htmlStr = htmlStr.replaceAll(" ", "");
return htmlStr;
}
public static void main(String[] args) {
String str = "<P> </P>" +
"<P class=MsoNormal style=\"LAYOUT-GRID-MODE: char; MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 150%; TEXT-INDENT: 24pt; mso-layout-grid-align: none\"><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">2014</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> </SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">12</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> </SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">30</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> , , </SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">2015</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> , (</SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">USML</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\">) , 。</SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\"><?xml:namespace prefix =\"o\" ns = \"urn:schemas-microsoft-com:office:office\" /><o:p></o:p></SPAN></P>" +
"<P class=MsoNormal style=\"LAYOUT-GRID-MODE: char; MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 150%; TEXT-INDENT: 24pt; mso-layout-grid-align: none\"><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> </SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'; mso-ascii-theme-font: minor-fareast; mso-hansi-theme-font: minor-fareast\">·</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> , (</SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">EAR</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\">) (</SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">ITAR</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\">) , </SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\">2015</SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> 。 , , , 。 “ ” , “ ” 。 “ ”。 ,“ ” 。</SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\"><o:p></o:p></SPAN></P>" +
"<P class=MsoNormal style=\"LAYOUT-GRID-MODE: char; TEXT-ALIGN: right; MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: 150%; TEXT-INDENT: 24pt; mso-layout-grid-align: none\" align=right><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\">( </SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\"><SPAN style=\"mso-spacerun: yes\"> </SPAN></SPAN><SPAN style=\"FONT-SIZE: 12pt; FONT-FAMILY: ; LINE-HEIGHT: 150%; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-fareast-font-family: ; mso-fareast-theme-font: minor-fareast; mso-bidi-font-family: 'Times New Roman'\"> )</SPAN><SPAN lang=EN-US style=\"FONT-SIZE: 12pt; FONT-FAMILY: 'Times New Roman','serif'; LINE-HEIGHT: 150%\"><o:p></o:p></SPAN></P>" +
"<P> </P>";
System.out.println(getTextFromHtml(str));
}
} </code></pre>
<br>
<br>
<p></p>
<p> : 。( "D:/content.txt“, content.txt。</p>
<pre><code class="language-java">package day0703;
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Pattern;
public class success {
/**
* Html
* utf-8 gbk , ,
* @param inputString
* @return
*/
public static String removeHtmlTag(String inputString) {
if (inputString == null)
return null;
String htmlStr = inputString; // html
String textStr = "";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
java.util.regex.Pattern p_special;
java.util.regex.Matcher m_special;
try {
// script { <script[^>]*?>[\\s\\S]*?<\\/script>
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";
// style { <style[^>]*?>[\\s\\S]*?<\\/style>
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";
// HTML
String regEx_html = "<[^>]+>";
// :
String regEx_special = "\\&[a-zA-Z]{1,10};";
p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // script
p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); // style
p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); // html
p_special = Pattern
.compile(regEx_special, Pattern.CASE_INSENSITIVE);
m_special = p_special.matcher(htmlStr);
htmlStr = m_special.replaceAll(""); //
textStr = htmlStr;
} catch (Exception e) {
e.printStackTrace();
}
return textStr;//
}
/**
* main
* @param args
*/
public static void main(String[] args) {
StringBuffer sb = new StringBuffer();
try {
FileReader fr = new FileReader("D:/content.txt");
BufferedReader br = new BufferedReader(fr);
String s = "";
while((s = br.readLine())!=null){
sb.append(s);
}
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
String ssss = ReduceHtml2Text.removeHtmlTag(sb.toString());
System.out.println(ssss);
}
}</code></pre>
<br>
<br>
<p></p>
<p> : 。 </p>
<p></p>
<pre><code class="language-java">package day0703;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.regex.Pattern;
public class ReduceHtml2Text {
/**
* Html
* utf-8 gbk ,
* @param inputString
* @return
*/
public static String removeHtmlTag(String inputString) {
if (inputString == null)
return null;
String htmlStr = inputString; // html
String textStr = "";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
java.util.regex.Pattern p_special;
java.util.regex.Matcher m_special;
try {
// script { <script[^>]*?>[\\s\\S]*?<\\/script>
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";
// style { <style[^>]*?>[\\s\\S]*?<\\/style>
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";
// HTML
String regEx_html = "<[^>]+>";
// :
String regEx_special = "\\&[a-zA-Z]{1,10};";
p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // script
p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); // style
p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); // html
p_special = Pattern
.compile(regEx_special, Pattern.CASE_INSENSITIVE);
m_special = p_special.matcher(htmlStr);
htmlStr = m_special.replaceAll(""); //
textStr = htmlStr;
} catch (Exception e) {
e.printStackTrace();
}
return textStr;//
}
/**
* main
*
* @param args
*/
public static void main(String[] args) {
StringBuffer sb = new StringBuffer();
try {
File fr = new File("D:/content.txt");
BufferedReader br = new BufferedReader(new InputStreamReader(
new FileInputStream(fr), "UTF-8"));
String s = "";
while ((s = br.readLine()) != null) {
sb.append(s);
String str2 = new String(s.getBytes("GBK"), "GBK");
}
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
String asc= ReduceHtml2Text.removeHtmlTag(sb.toString());
System.out.println(asc);
}
}</code></pre>
<br>
<br>
<p></p>
<p><br></p>
</div>
</div>
</div>
</div>
</div>
<!--PC WAP -->
<div id="SOHUCS" sid="1288360164927283200"></div>
<script type="text/javascript" src="/views/front/js/chanyan.js">
이 가능 하 다, ~ 할 수 있다,...주화
html
bit1129
struts 2 차단기
daizj
linux 명령 알 수 없 음 make cc
주 범 양
oracle job
주 휘 휘 휘
다 중 스 레 드
A 씨 는 괴 롭 히 지 않 는 다
웹 보고서 finereport 자바 보고서 보고서 도구
임 학 소
my. cnf 없 음
aigo
root
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 기타
첫 페이지 -
우리 -
역 내 검색 -
Sitemap -
권리 침해 신고
모든 IT 지식 창고 저작권© 2000 - 2050 IT 지식 창고 IT610. com, 판권 소유.
경 ICP 비 09083238 호
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
자바 에서 흔히 볼 수 있 는 몇 가지 http 요청 사례위의 4 가지 방법 은 get 과 post 요청 을 보 낼 수 있 는 방법 입 니 다. 1 번: HttpURLConnection, 2 번: URLConnection, 3 번: HttpClient, 4 번 째: Soc...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.