[데이터 캡처] HTML 해석

배경.


아날로그 로그인을 통해 저는 상응하는 웹 페이지 정보를 얻었습니다. 그 다음에 해야 할 일은 html을 해석하고 그 안에서 자신이 필요로 하는 내용을 선별하는 것입니다.
이 절차는 매우 명확하여 데이터를 얻는다. - 선별 데이터. - 저장 데이터. - 디스플레이 데이터.

기능 설명


html 코드를 분석하여 필요한 내용을 선별하다
ps. 이번에 사용한 것은 지난번 아날로그 로그인에 저장된 html 텍스트입니다. 이 두 모듈은 아직 조합되지 않았습니다.

코드


html 코드

<html>
    <head>
        <title>    title>
        <link href="/resource.ashx/635709062375475691/3/css/page.css" rel="stylesheet" />
        <script src="//resource.ashx/635709062375475691/3/javascript/common.js">script>
    head>
    <body>
        <form method="post" action="eventdialog.aspx?eventId=2046" id="form1">
            <div class="aspNetHidden">
                <input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/wEPDwUKMTA1MzY5OTk4Nw9kFgICAQ9kFgxmDw8WAh4EVGV4dAUG5rWP6KeIZGQCAQ8PFgIfAAUJMjAxNy8yLzIyZGQCAg8PFgIfAAUJ5p2O6Z2S5p2+ZGQCAw8PFgIfAAUIMTg6NDM6MDBkZAIEDw8WAh8ABSxQYXRoOiAKCVtGaWxlVmlzdGEt5rWL6K+V5Yy6XTpc5a2m5pyv6LWE5paZCmRkAgUPDxYCHwAFBuehruiupGRkZJsHJooEt4hg7kT8NGuc6OGX0d3tGhbCt6nnrpHoXyhd" />
            div>

            <div class="aspNetHidden">
                <input type="hidden" name="__EVENTVALIDATION" id="__EVENTVALIDATION" value="/wEWAwKhuZq6DQKAtdPXAQKM54rGBumKkbiesZBA0vTMtI/UD5TTngaEDnEb6xk9TvAzVzh2" />
            div>

            <table cellpadding="0" cellspacing="10" border="0" style="width: 100%">
                <tr>
                    <td style="width: 50px">  :td>
                    <td><span id="LabelType">  span>td>
                    <td style="width: 50px">  :td>
                    <td><span id="LabelDate">2017/2/22span>td>
                tr>
                <tr>
                    <td>  :td>
                    <td><span id="LabelUser">   span>td>
                    <td>  :td>
                    <td><span id="LabelTime">18:43:00span>td>
                tr>
                <tr>
                    <td colspan="4">
                          :<br />
                        <textarea name="TextBoxDescription" rows="2" cols="20" wrap="off" readonly="readonly" id="TextBoxDescription" style="width: 360px; height: 150px; resize:none">
Path: 
    [222   ]:\Java  
                        textarea>
                    td>
                tr>
            table>
            <div class="gt-formBottom"><input type="submit" name="Button1" value="  " onclick="elementDialog.close(); return false;" id="Button1" style="width: 80px" />div>
        form>
    body>
html>

백그라운드 코드

static void Main(string[] args)
{
    //  html  
    StreamReader sr = new StreamReader("E:\\【Project】\\    \\html  .txt", Encoding.Default);
    String htmltxt = sr.ReadToEnd();
    sr.Close();

    //HtmlDocument  html  
    HtmlDocument htmldoc = new HtmlDocument();
    htmldoc.LoadHtml(htmltxt);

    //  html      
    HtmlNode type_node = htmldoc.DocumentNode.SelectSingleNode("/html/body/table/tr[1]/td[2]/span");
    HtmlNode date_node = htmldoc.DocumentNode.SelectSingleNode("/html/body/table/tr[1]/td[4]/span");
    HtmlNode user_node = htmldoc.DocumentNode.SelectSingleNode("/html/body/table/tr[2]/td[2]/span");
    HtmlNode time_node = htmldoc.DocumentNode.SelectSingleNode("/html/body/table/tr[2]/td[4]/span");
    HtmlNode path_node = htmldoc.DocumentNode.SelectSingleNode("/html/body/table/tr[3]/td/textarea");

    //       
    Console.WriteLine(date_node.InnerText);
    Console.WriteLine(time_node.InnerText);
    Console.WriteLine(user_node.InnerText);
    Console.WriteLine(type_node.InnerText);
    Console.WriteLine(path_node.InnerText.Replace("\r", "").Replace("
"
, "").Replace("\t", "")); Console.ReadKey(); }

문제 & 해결

  • 필요한 자료 참조 HtmlAgilityPack, 주소http://htmlagilitypack.codeplex.com/Scrapy Sharp, css 선택기를 제공하여 더욱 편리합니다(찾지 못해서 사용하지 않았습니다.Html Agility Pack으로 제 문제를 해결할 수 있습니다)
  • form문제HtmlAgilityPack은DOM에서 등급별로 해석되었지만form은 쓸모가 없기 때문에 이 층을 뛰어넘어야 한다(힌트:층층이 아래로 쓰고 검증하면 많은 오류를 피할 수 있다)
  • 참조 블로그http://blog.csdn.net/hongsejiaozhu/article/details/43274615 http://www.cnblogs.com/bearhb/archive/2012/08/14/2637870.html http://www.cnblogs.com/TianFang/p/4804289.html http://blog.csdn.net/lee576/article/details/44708907

  • 소결


    데이터를 얻는 데 성공함에 따라 다음 작업은 처리, 저장, 디스플레이 기술점이 실현된 후에 수요를 다시 정리하고 모듈을 통합하여 전체 시스템의 html 해석을 최적화하는 것이다. 지금 시도하는 것은 이것뿐이다. 시스템의 수요에 따라 다음에 계속 연구하자.

    좋은 웹페이지 즐겨찾기