높 은 기계 학습 알고리즘 백화

기본 모델
단어 주머니 모형
    (Bag of Words,  BoW)。

         ,        。

                         ,     
      。                。

                        。

       :
      (tokenizing):
        
    
            (counting):

                      ,           
             ,                    
           ,          。
        
                    TF-IDF         ,
          ,             ,         
                     ,          。
        
       (normalizing):

                ,     。

단어 주머니 모형 알고리즘 에는 어떤 것들 이 있 습 니까?
    Tfidf       
    
    LDA         :      ,         ,             ,   BOW(bag of words)
                           。
                        
    VSM      :         
    
    LSA      (Laten Semantic Analysis):        ,      (SVD  NMF),       
                                                             。
    
    PLSA:
    

TextRank 알고리즘

pageRank 알고리즘
 TextRank pageRank    ,pageRank        ,
 TextRank          。
 
 pageRank         PR ,  rank       。
          rank   。
 
 pageRank    ,     rank          rank    。
 
 
 pageRank         ,       。
 
      A,    B C  A,B     A,C       A D,  PR(A)=PR(B)+P(C)/2。
              。
    N   ,   N        。
 
   :
    PR(A) = “    A    {T0,T1....,Ti} PR PR(Ti)  Ti     ,    ”。
    
  
   :
           , PR    ,      ,       PR ,          rank 。 

콘 셉 트
    :

      ,                       
   ,              。
  
          ,             ,      
     。
  
     co-occurrence :
          ,                 ,  
          。
    
            ,           ,  
                    ,           
       。
    
  pageRank  :
    TextRank  pageRank     ,        ,     , pageRank       。
    
    TextRank    PageRank  ,                  。          ?

실행 과정
              ,   PageRank        
 rank ,  rank            。


tf-idf VS textrank
  :
    TextRank TFIDF          。
           。
    
  :
    TextRank       ,      。
    TextRank        , Tf-id       。

확률 도 모형
기본 용어 와 문제 설정

                                  。  :               ,             0   9      。

    ,            。   ,      “I like machine learning”,          (  、  、  、    )。               :                    ——“learning”              ,      。                       ,                、      。

     (PGM/probabilistic graphical model)             (dependency)        。

     (      )            。      (node)          ,    (edge)                 。            ,              ——     ( Bayesian network)       (Markov networks)。

베 일 스 네트워크
                 。                。

마 르 코 프 네트워크
조건 랜 덤 필드
LDA 은 딕 레 분포

LDA(Latent Dirichlet Allocation)           ,              ,
   、         。
      ,   ,                “            ,              
    ”        。

            ,           。

                。

LDA 는 어휘 문장 과 주 제 를 어떻게 보 십 니까?
LDA              。

                        ,      
             。              
       。LDA                 。
      ,       :
    {  :0.3,  :0.3,  :0.3,   :0.03,  
     :0.03,   :0.04}

              。

LDA  ,                 ,    ,   
      ,              。

수학 지식
Gamma  ,    ,Gamma  ,Beta/Dirichlet  /  ,
    ,         ,MCMC(Markov Chain Monte Carlo) ⁄Gibbs Sampling。

                    ,                   。
       ,       。

참고 하 다
기계 학습 확률 도 모형
조건 확률 분포 와 기계 학습
PageRank 알고리즘 원리 와 실현
얕 은 입 출력: PageRank 알고리즘
(9) 알 기 쉬 운 이해 - TF - IDF 와 TextRank (pageRank vs TextRank)

좋은 웹페이지 즐겨찾기