가장 간단 한 URL 집합

부 텍스트 의 http 링크 를 발견 하고 그룹 행동 을 발견 하여 URL 을 가 져 옵 니 다.
STEP 1:http 링크 추출
Jsoup 으로 하 겠 습 니 다.


        Document doc = Jsoup.parse(stream.getText())
        Elements links = doc.select("a[href]")
        for (Element element: links) {
            link = element.attributes().iterator().next().getValue()
            // link     
            println(link)
        }

STEP 2:벡터 추출
예 를 들 면https://cwiki.apache.org/confluence/display/MAHOUT/Downloads
cwiki，apache，org，confluence，display，mahout
제3 부:집합
레 퍼 런 스
Mahout 과 hadop 기반 의 집합 구축
단 어 를 나 누 지 마라,왜냐하면 너 는 이미 단 어 를 나 누 었 기 때문이다.
위의 cwiki,apache,org,confluence,display,mahout 는 모두 filed 로 document 에 추가 하면 됩 니 다.
집합 은 단체 행동 을 발견 하고 후속 적 인 텍스트 발굴 을 위해 준비 하 는 것 이다.
너무 기대 하지 마 세 요.

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

Azure HDInsight + Microsoft R Server에서 연산 처리 분산

Microsoft Azure HDInsight는 Microsoft가 제공하는 Hadoop의 PaaS 서비스로 인프라 주변의 구축 노하우를 몰라도 훌륭한 Hadoop 클러스터를 구축할 수 있는 훌륭한 서비스입니다. 이...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다