자바 파충류 인 스 턴 스 - 웹 페이지 를 오 르 는 url
10935 단어 자바
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.nio.charset.Charset;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class WebSpider {
//
public static String getURLContext(String urlStr,String charsetName){
StringBuffer sb=new StringBuffer();
try{
URL url =new URL(urlStr);
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(), Charset.forName( charsetName)));
String temp="";
while((temp=reader.readLine())!=null){
// System.out.println(temp);
sb.append(temp);
}
}catch(MalformedURLException e){
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return sb.toString();
}
public static List<String> getSubStrs(String destStr,String regexStr){
Pattern p=Pattern.compile(regexStr);//
Matcher m=p.matcher(destStr);
List<String>result = new ArrayList<String>();
while (m.find()) {
result.add(m.group());
}
return result;
}
public static void main(String args[]){
String urlStr="https://daohang.qq.com/?fr=hmpage";
String destStr=getURLContext(urlStr,"utf-8");
String regexStr="href=\"([\\w\\s./:]+?)\""; //
List<String>result=getSubStrs(destStr, regexStr);
for(String temp:result ){
System.out.println(temp);
}
}
}
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Is Eclipse IDE dying?In 2014 the Eclipse IDE is the leading development environment for Java with a market share of approximately 65%. but ac...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.