Mahout: CVB
1802 단어 Mahout
org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.io.IntWritable
Solution:
the new LDA requires SequenceFile<IntWritable, VectorWritable> as input
(the same disk format as DistributedRowMatrix), which you can get out of
SequenceFile<Text, VectorWritable> by running the
RowIdJob ("$MAHOUT_HOME/bin/mahout rowid -h" for more details) before running CVB.
Interpret the result
doc-topic
mahout vectordump
-i hdfs://192.168.122.1:2014/user/zhaohj/mahout/topics/lda/doc-topic
-o data/lda/doc-topic
-sort true -vs 1 -p true
Note: -vs 1 just dump the first topic a document belongs to, such as
#doc-index topic-id:properblity
0 {1:0.9999999918613426}
1 {2:0.999999958633294}
2 {0:0.9999999872590848}
3 {0:0.9999999914501596}
Warning: don't provide -d option to dump doc-topic, otherwise you' ll get meanless output.
topic-term
mahout vectordump
-i hdfs://192.168.122.1:2014/user/zhaohj/mahout/topics/lda/topic-term
-o data/lda/topic-term
-d hdfs://192.168.122.1:2014/user/zhaohj/mahout/topics/docsvectors3/dictionary.file-0
-dt sequencefile
-sort true -vs 5 -p true
References
http://mail-archives.apache.org/mod_mbox/mahout-user/201205.mbox/%3CCAG3i8Se1QobSPpw8ewgNkjVw_Zd_8crb6Z18_7G5Yqew1XRTAw@mail.gmail.com%3E
http://stackoverflow.com/questions/21318459/how-to-run-mahout-cvb-on-reuters-news-on-cloudera-vm-cdh4-5-as-lda-is-not-longer
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
mahout 원본 분석의 Decision Forest 3부작의 3Test Forest먼저 TestForest를 호출하는 코드를 붙입니다. mahout 원본이 Job 작업 실행이 끝난 후에 마퍼의 출력을 삭제하고 파일을 저장한 것을 볼 수 있다(이것은 원본에서 볼 수 있다).그 다음은 정확도입니다. ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.