가장 간단 한 URL 집합
STEP 1:http 링크 추출
Jsoup 으로 하 겠 습 니 다.
Document doc = Jsoup.parse(stream.getText())
Elements links = doc.select("a[href]")
for (Element element: links) {
link = element.attributes().iterator().next().getValue()
// link
println(link)
}
STEP 2:벡터 추출
예 를 들 면https://cwiki.apache.org/confluence/display/MAHOUT/Downloads
cwiki,apache,org,confluence,display,mahout
제3 부:집합
레 퍼 런 스
Mahout 과 hadop 기반 의 집합 구축
단 어 를 나 누 지 마라,왜냐하면 너 는 이미 단 어 를 나 누 었 기 때문이다.
위의 cwiki,apache,org,confluence,display,mahout 는 모두 filed 로 document 에 추가 하면 됩 니 다.
집합 은 단체 행동 을 발견 하고 후속 적 인 텍스트 발굴 을 위해 준비 하 는 것 이다.
너무 기대 하지 마 세 요.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Azure HDInsight + Microsoft R Server에서 연산 처리 분산Microsoft Azure HDInsight는 Microsoft가 제공하는 Hadoop의 PaaS 서비스로 인프라 주변의 구축 노하우를 몰라도 훌륭한 Hadoop 클러스터를 구축할 수 있는 훌륭한 서비스입니다. 이...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.