C\#파충류 간단 한 튜 토리 얼

5355 단어 c#파충
1.제3자 라 이브 러 리 HtmlAgilityPack 사용
공식 사이트:https://html-agility-pack.net/?z=codeplex

// From File      html  
var doc = new HtmlDocument();
doc.Load(filePath);

// From String       html  
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web       html  
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
1.1 마지막 용법 소개

var web = new HtmlWeb();
var doc = web.Load(url);
웹 에서 저 희 는 쿠키,headers 등 정 보 를 설정 하여 특정한 사이트 수 요 를 처리 할 수 있 습 니 다.예 를 들 어 로그 인 등 이 필요 합 니 다.
1.2 용법 해석
웹 페이지 는 웹 페이지 소스 코드 를 본 후에 문자열 일 뿐 이 고 파충류 가 하 는 일 은 바로 이 문자열 에서 우리 가 원 하 는 정 보 를 조회 하여 선택 하 는 것 이다.
이전의 선별 방법:정규(너무 번 거 로 워 서 쓰기 에 머리 가 아프다)
HtmlAgility Pack 은 XPath 를 통 해 우리 가 필요 로 하 는 정 보 를 분석 하 는 것 을 지원 합 니 다.
1,2,1 어디서 XPath 를 찾 나 요?
웹 페이지 오른쪽 단추 검사

XPath 를 통 해 원 하 는 요소 의 모든 정 보 를 정확하게 얻 을 수 있 습 니 다.
1.2.2 선택 한 Html 요소 에 대한 정 보 를 가 져 옵 니까?
선택 한 요소 가 져 오기

var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")
요소 정보 가 져 오기

htmlnode.InnerText;
htmlnode.InnerHtml;
//      
htmlnode?.GetAttributeValue("src", "   ")
2.자신 이 포장 한 라 이브 러 리

 /// <summary>
  ///   HTML   
  /// </summary>
  public static class LoadHtmlHelper
  {
    /// <summary>
    ///  Url      
    /// </summary>
    /// <param name="url"></param>
    /// <returns></returns>
    public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)
    {
      HtmlWeb web = new HtmlWeb();
       return await
         web?.LoadFromWebAsync(url);
    }

    /// <summary>
    ///           
    /// </summary>
    /// <param name="htmlDocument">    </param>
    /// <param name="xPath">xPath  </param>
    /// <returns></returns>
    public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
    {
     return htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
    }

    /// <summary>
    ///           
    /// </summary>
    /// <param name="htmlDocument">    </param>
    /// <param name="xPath">xPath  </param>
    /// <returns></returns>
    public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
    {
      return htmlDocument?.DocumentNode?.SelectNodes(xPath);
    }

   

    /// <summary>
    ///           
    /// </summary>
    /// <param name="htmlDocument">    </param>
    /// <param name="xPath">xPath  </param>
    /// <returns></returns>
    public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectNodes(xPath);
    }


    /// <summary>
    ///           
    /// </summary>
    /// <param name="htmlDocument">    </param>
    /// <param name="xPath">xPath  </param>
    /// <returns></returns>
    public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectSingleNode(xPath);
    }

    /// <summary>
    ///     
    /// </summary>
    /// <param name="url">  </param>
    /// <param name="filpath">    </param>
    /// <returns></returns>
    public async static ValueTask<bool> DownloadImg(string url ,string filpath)
    {
      HttpClient httpClient = new HttpClient();
      try
      {
        var bytes = await httpClient.GetByteArrayAsync(url);
        using (FileStream fs = File.Create(filpath))
        {
          fs.Write(bytes, 0, bytes.Length);
        }
        return File.Exists(filpath);
      }
      catch (Exception ex)
      {
       
        throw new Exception("      ", ex);
      }
      
    }
  }
3.자신 이 쓴 파충류 사례,올 라 간 사이트https://www.meitu131.com/
데이터 저장 층 이 실현 되 지 않 아 쓰기 가 귀 찮 습 니 다.여러분 덕분 입 니 다.저 는 데이터 가 잠시 파일 에 존재 합 니 다.
GitHub 주소:https://github.com/ZhangQueque/quewaner.Crawler.git

이상 은 C\#파충류 간단 한 튜 토리 얼 의 상세 한 내용 입 니 다.c\#파충류 에 관 한 자 료 는 우리 의 다른 관련 글 을 주목 하 세 요!

좋은 웹페이지 즐겨찾기