Spark CountVectorizer 처리 텍스트 특징
7867 단어 spark
블 로 거 소개: 눈보라 밤 귀 자 (Allen), 머 신 러 닝 알고리즘 공 성 사자, Meachine Learning 의 블랙 테 크 놀 로 지 를 좋아 합 니 다. Deep Learning 과 Artificial Intelligence 에 관심 이 많 고 Kaggle 데이터 발굴 경기 플랫폼 에 관심 이 많 습 니 다. 데이터, Machine Learning 과 Artificial Intelligence 에 관심 이 있 는 동 화 는 함께 토론 할 수 있 습 니 다.개인 CSDN 블 로그:http://blog.csdn.net/u013719780?viewmode=contents
CountVectorizer 알고리즘 은 텍스트 벡터 를 희소 표시 수치 벡터 (문자 주파수 벡터) 로 변환 합 니 다.이 수치 벡터 는 LDA 와 같은 다른 알고리즘 에 전달 할 수 있다.fitting 과정 에서 CountVectorizer 는 주파수 가 높 은 단 어 를 앞 에 놓는다.선택 가능 한 인자 minDF 는 텍스트 에 나타 나 야 할 횟수 를 표시 합 니 다.다음은 구체 적 인 예 를 보 겠 습 니 다.
from pyspark.ml.feature import CountVectorizer
# Input data: Each row is a bag of words with a ID.
df = sqlContext.createDataFrame([
(0, "a b c".split(" ")),
(1, "a b b c a".split(" "))
], ["id", "words"])
# fit a CountVectorizerModel from the corpus.
cv = CountVectorizer(inputCol="words", outputCol="features", vocabSize=3, minDF=2.0)
model = cv.fit(df)
result = model.transform(df)
result.show()
+---+---------------+--------------------+
| id| words| features|
+---+---------------+--------------------+
| 0| [a, b, c]|(3,[0,1,2],[1.0,1...|
| 1|[a, b, b, c, a]|(3,[0,1,2],[2.0,2...|
+---+---------------+--------------------+
from pyspark.ml.feature import CountVectorizer
# Input data: Each row is a bag of words with a ID.
df = sqlContext.createDataFrame([
(0, "a b c".split(" ")),
(1, "a b b c a".split(" "))
], ["id", "words"])
# fit a CountVectorizerModel from the corpus.
cv = CountVectorizer(inputCol="words", outputCol="features", vocabSize=3, minDF=2.0)
model = cv.fit(df)
result = model.transform(df)
result.show()
+---+---------------+--------------------+
| id| words| features|
+---+---------------+--------------------+
| 0| [a, b, c]|(3,[0,1,2],[1.0,1...|
| 1|[a, b, b, c, a]|(3,[0,1,2],[2.0,2...|
+---+---------------+--------------------+
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Spark 팁: 컴퓨팅 집약적인 작업을 위해 병합 후 셔플 파티션 비활성화작은 입력에서 UDAF(사용자 정의 집계 함수) 내에서 컴퓨팅 집약적인 작업을 수행할 때 spark.sql.adaptive.coalescePartitions.enabled를 false로 설정합니다. Apache Sp...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.