Spark CountVectorizer 처리 텍스트 특징

7867 단어 spark
성명: 판권 소유, 전재 작가 에 게 연락 하여 출처 를 밝 혀 주 십시오.  http://blog.csdn.net/u013719780?viewmode=contents
블 로 거 소개: 눈보라 밤 귀 자 (Allen), 머 신 러 닝 알고리즘 공 성 사자, Meachine Learning 의 블랙 테 크 놀 로 지 를 좋아 합 니 다. Deep Learning 과 Artificial Intelligence 에 관심 이 많 고 Kaggle 데이터 발굴 경기 플랫폼 에 관심 이 많 습 니 다. 데이터, Machine Learning 과 Artificial Intelligence 에 관심 이 있 는 동 화 는 함께 토론 할 수 있 습 니 다.개인 CSDN 블 로그:http://blog.csdn.net/u013719780?viewmode=contents
CountVectorizer 알고리즘 은 텍스트 벡터 를 희소 표시 수치 벡터 (문자 주파수 벡터) 로 변환 합 니 다.이 수치 벡터 는 LDA 와 같은 다른 알고리즘 에 전달 할 수 있다.fitting 과정 에서 CountVectorizer 는 주파수 가 높 은 단 어 를 앞 에 놓는다.선택 가능 한 인자 minDF 는 텍스트 에 나타 나 야 할 횟수 를 표시 합 니 다.다음은 구체 적 인 예 를 보 겠 습 니 다.
from pyspark.ml.feature import CountVectorizer

# Input data: Each row is a bag of words with a ID.
df = sqlContext.createDataFrame([
    (0, "a b c".split(" ")),
    (1, "a b b c a".split(" "))
], ["id", "words"])

# fit a CountVectorizerModel from the corpus.
cv = CountVectorizer(inputCol="words", outputCol="features", vocabSize=3, minDF=2.0)
model = cv.fit(df)
result = model.transform(df)
result.show()
+---+---------------+--------------------+
| id|          words|            features|
+---+---------------+--------------------+
|  0|      [a, b, c]|(3,[0,1,2],[1.0,1...|
|  1|[a, b, b, c, a]|(3,[0,1,2],[2.0,2...|
+---+---------------+--------------------+

 
from pyspark.ml.feature import CountVectorizer

# Input data: Each row is a bag of words with a ID.
df = sqlContext.createDataFrame([
    (0, "a b c".split(" ")),
    (1, "a b b c a".split(" "))
], ["id", "words"])

# fit a CountVectorizerModel from the corpus.
cv = CountVectorizer(inputCol="words", outputCol="features", vocabSize=3, minDF=2.0)
model = cv.fit(df)
result = model.transform(df)
result.show()
+---+---------------+--------------------+
| id|          words|            features|
+---+---------------+--------------------+
|  0|      [a, b, c]|(3,[0,1,2],[1.0,1...|
|  1|[a, b, b, c, a]|(3,[0,1,2],[2.0,2...|
+---+---------------+--------------------+

좋은 웹페이지 즐겨찾기