spark
CountVectorizer 알고리즘 은 텍스트 벡터 를 희소 표시 수치 벡터 (문자 주파수 벡터) 로 변환 합 니 다.이 수치 벡터 는 LDA 와 같은 다른 알고리즘 에 전달 할 수 있다.fitting 과정 에서 CountVectorizer 는 주파수 가 높 은 단 어 를 앞 에 놓는다.선택 가능 한 인자 minDF 는 텍스트 에 나타 나 야 할 횟수 를 표시 합 니 다.다음은 구체 적 인 예 를 보 겠 습 니 다.
from import CountVectorizer

# Input data: Each row is a bag of words with a ID.
df = sqlContext.createDataFrame([
    (0, "a b c".split(" ")),
    (1, "a b b c a".split(" "))
], ["id", "words"])

# fit a CountVectorizerModel from the corpus.
cv = CountVectorizer(inputCol="words", outputCol="features", vocabSize=3, minDF=2.0)
model =
result = model.transform(df)
| id|          words|            features|
|  0|      [a, b, c]|(3,[0,1,2],[1.0,1...|
|  1|[a, b, b, c, a]|(3,[0,1,2],[2.0,2...|

