C\#파충류 간단 한 튜 토리 얼
공식 사이트:https://html-agility-pack.net/?z=codeplex
// From File html
var doc = new HtmlDocument();
doc.Load(filePath);
// From String html
var doc = new HtmlDocument();
doc.LoadHtml(html);
// From Web html
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
1.1 마지막 용법 소개
var web = new HtmlWeb();
var doc = web.Load(url);
웹 에서 저 희 는 쿠키,headers 등 정 보 를 설정 하여 특정한 사이트 수 요 를 처리 할 수 있 습 니 다.예 를 들 어 로그 인 등 이 필요 합 니 다.1.2 용법 해석
웹 페이지 는 웹 페이지 소스 코드 를 본 후에 문자열 일 뿐 이 고 파충류 가 하 는 일 은 바로 이 문자열 에서 우리 가 원 하 는 정 보 를 조회 하여 선택 하 는 것 이다.
이전의 선별 방법:정규(너무 번 거 로 워 서 쓰기 에 머리 가 아프다)
HtmlAgility Pack 은 XPath 를 통 해 우리 가 필요 로 하 는 정 보 를 분석 하 는 것 을 지원 합 니 다.
1,2,1 어디서 XPath 를 찾 나 요?
웹 페이지 오른쪽 단추 검사
XPath 를 통 해 원 하 는 요소 의 모든 정 보 를 정확하게 얻 을 수 있 습 니 다.
1.2.2 선택 한 Html 요소 에 대한 정 보 를 가 져 옵 니까?
선택 한 요소 가 져 오기
var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")
요소 정보 가 져 오기
htmlnode.InnerText;
htmlnode.InnerHtml;
//
htmlnode?.GetAttributeValue("src", " ")
2.자신 이 포장 한 라 이브 러 리
/// <summary>
/// HTML
/// </summary>
public static class LoadHtmlHelper
{
/// <summary>
/// Url
/// </summary>
/// <param name="url"></param>
/// <returns></returns>
public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)
{
HtmlWeb web = new HtmlWeb();
return await
web?.LoadFromWebAsync(url);
}
/// <summary>
///
/// </summary>
/// <param name="htmlDocument"> </param>
/// <param name="xPath">xPath </param>
/// <returns></returns>
public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
{
return htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
}
/// <summary>
///
/// </summary>
/// <param name="htmlDocument"> </param>
/// <param name="xPath">xPath </param>
/// <returns></returns>
public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
{
return htmlDocument?.DocumentNode?.SelectNodes(xPath);
}
/// <summary>
///
/// </summary>
/// <param name="htmlDocument"> </param>
/// <param name="xPath">xPath </param>
/// <returns></returns>
public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
{
return htmlNode?.SelectNodes(xPath);
}
/// <summary>
///
/// </summary>
/// <param name="htmlDocument"> </param>
/// <param name="xPath">xPath </param>
/// <returns></returns>
public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
{
return htmlNode?.SelectSingleNode(xPath);
}
/// <summary>
///
/// </summary>
/// <param name="url"> </param>
/// <param name="filpath"> </param>
/// <returns></returns>
public async static ValueTask<bool> DownloadImg(string url ,string filpath)
{
HttpClient httpClient = new HttpClient();
try
{
var bytes = await httpClient.GetByteArrayAsync(url);
using (FileStream fs = File.Create(filpath))
{
fs.Write(bytes, 0, bytes.Length);
}
return File.Exists(filpath);
}
catch (Exception ex)
{
throw new Exception(" ", ex);
}
}
}
3.자신 이 쓴 파충류 사례,올 라 간 사이트https://www.meitu131.com/데이터 저장 층 이 실현 되 지 않 아 쓰기 가 귀 찮 습 니 다.여러분 덕분 입 니 다.저 는 데이터 가 잠시 파일 에 존재 합 니 다.
GitHub 주소:https://github.com/ZhangQueque/quewaner.Crawler.git
이상 은 C\#파충류 간단 한 튜 토리 얼 의 상세 한 내용 입 니 다.c\#파충류 에 관 한 자 료 는 우리 의 다른 관련 글 을 주목 하 세 요!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
C#Task를 사용하여 비동기식 작업을 수행하는 방법라인이 완성된 후에 이 라인을 다시 시작할 수 없습니다.반대로 조인(Join)만 결합할 수 있습니다 (프로세스가 현재 라인을 막습니다). 임무는 조합할 수 있는 것이다. 연장을 사용하여 그것들을 한데 연결시키는 것이...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.