가장 간단 한 URL 집합

부 텍스트 의 http 링크 를 발견 하고 그룹 행동 을 발견 하여 URL 을 가 져 옵 니 다.
STEP 1:http 링크 추출
Jsoup 으로 하 겠 습 니 다.

        Document doc = Jsoup.parse(stream.getText())
        Elements links = doc.select("a[href]")
        for (Element element: links) {
            link = element.attributes().iterator().next().getValue()
            // link     
            println(link)
        }

STEP 2:벡터 추출
예 를 들 면https://cwiki.apache.org/confluence/display/MAHOUT/Downloads
cwiki,apache,org,confluence,display,mahout
제3 부:집합
레 퍼 런 스
Mahout 과 hadop 기반 의 집합 구축
단 어 를 나 누 지 마라,왜냐하면 너 는 이미 단 어 를 나 누 었 기 때문이다.
위의 cwiki,apache,org,confluence,display,mahout 는 모두 filed 로 document 에 추가 하면 됩 니 다.
집합 은 단체 행동 을 발견 하고 후속 적 인 텍스트 발굴 을 위해 준비 하 는 것 이다.
너무 기대 하지 마 세 요.

좋은 웹페이지 즐겨찾기