C\#파충류 간단 한 튜 토리 얼

5355 단어 c#파충

1.제3자 라 이브 러 리 HtmlAgilityPack 사용
공식 사이트:https://html-agility-pack.net/?z=codeplex


// From File      html  
var doc = new HtmlDocument();
doc.Load(filePath);

// From String       html  
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web       html  
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

1.1 마지막 용법 소개


var web = new HtmlWeb();
var doc = web.Load(url);

웹 에서 저 희 는 쿠키,headers 등 정 보 를 설정 하여 특정한 사이트 수 요 를 처리 할 수 있 습 니 다.예 를 들 어 로그 인 등 이 필요 합 니 다.
1.2 용법 해석
웹 페이지 는 웹 페이지 소스 코드 를 본 후에 문자열 일 뿐 이 고 파충류 가 하 는 일 은 바로 이 문자열 에서 우리 가 원 하 는 정 보 를 조회 하여 선택 하 는 것 이다.
이전의 선별 방법:정규(너무 번 거 로 워 서 쓰기 에 머리 가 아프다)
HtmlAgility Pack 은 XPath 를 통 해 우리 가 필요 로 하 는 정 보 를 분석 하 는 것 을 지원 합 니 다.
1,2,1 어디서 XPath 를 찾 나 요?
웹 페이지 오른쪽 단추 검사

XPath 를 통 해 원 하 는 요소 의 모든 정 보 를 정확하게 얻 을 수 있 습 니 다.
1.2.2 선택 한 Html 요소 에 대한 정 보 를 가 져 옵 니까?
선택 한 요소 가 져 오기


var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")

요소 정보 가 져 오기


htmlnode.InnerText;
htmlnode.InnerHtml;
//      
htmlnode?.GetAttributeValue("src", "   ")

2.자신 이 포장 한 라 이브 러 리


 /// <summary>
  ///   HTML   
  /// </summary>
  public static class LoadHtmlHelper
  {
    /// <summary>
    ///  Url      
    /// </summary>
    /// <param name="url"></param>
    /// <returns></returns>
    public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)
    {
      HtmlWeb web = new HtmlWeb();
       return await
         web?.LoadFromWebAsync(url);
    }

    /// <summary>
    ///           
    /// </summary>
    /// <param name="htmlDocument">    </param>
    /// <param name="xPath">xPath  </param>
    /// <returns></returns>
    public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
    {
     return htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
    }

    /// <summary>
    ///           
    /// </summary>
    /// <param name="htmlDocument">    </param>
    /// <param name="xPath">xPath  </param>
    /// <returns></returns>
    public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
    {
      return htmlDocument?.DocumentNode?.SelectNodes(xPath);
    }

   

    /// <summary>
    ///           
    /// </summary>
    /// <param name="htmlDocument">    </param>
    /// <param name="xPath">xPath  </param>
    /// <returns></returns>
    public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectNodes(xPath);
    }


    /// <summary>
    ///           
    /// </summary>
    /// <param name="htmlDocument">    </param>
    /// <param name="xPath">xPath  </param>
    /// <returns></returns>
    public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectSingleNode(xPath);
    }

    /// <summary>
    ///     
    /// </summary>
    /// <param name="url">  </param>
    /// <param name="filpath">    </param>
    /// <returns></returns>
    public async static ValueTask<bool> DownloadImg(string url ,string filpath)
    {
      HttpClient httpClient = new HttpClient();
      try
      {
        var bytes = await httpClient.GetByteArrayAsync(url);
        using (FileStream fs = File.Create(filpath))
        {
          fs.Write(bytes, 0, bytes.Length);
        }
        return File.Exists(filpath);
      }
      catch (Exception ex)
      {
       
        throw new Exception("      ", ex);
      }
      
    }
  }

3.자신 이 쓴 파충류 사례,올 라 간 사이트https://www.meitu131.com/
데이터 저장 층 이 실현 되 지 않 아 쓰기 가 귀 찮 습 니 다.여러분 덕분 입 니 다.저 는 데이터 가 잠시 파일 에 존재 합 니 다.
GitHub 주소:https://github.com/ZhangQueque/quewaner.Crawler.git

이상 은 C\#파충류 간단 한 튜 토리 얼 의 상세 한 내용 입 니 다.c\#파충류 에 관 한 자 료 는 우리 의 다른 관련 글 을 주목 하 세 요!

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

C#Task를 사용하여 비동기식 작업을 수행하는 방법

라인이 완성된 후에 이 라인을 다시 시작할 수 없습니다.반대로 조인(Join)만 결합할 수 있습니다 (프로세스가 현재 라인을 막습니다). 임무는 조합할 수 있는 것이다. 연장을 사용하여 그것들을 한데 연결시키는 것이...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

Android xUtils 가 3.0 으로 업 데 이 트 된 후 기본 사용 규칙 에 대한 자세 한 설명

C\#의 의존 주입 과 IoC 용기 에 대한 자세 한 설명

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다