php 는 글 주제 키워드 생 성 기능 에 대한 심도 있 는 분석 을 자동 으로 가 져 옵 니 다.

예전 에는 프로그램 을 써 서 이 문 제 를 피 했 습 니 다.tag 는 프로그램 을 사용 하 는 사람 에 게 스스로 입력 하 라 고 요 구 했 습 니 다.일부 게으름뱅이 와 프로그램 을 위 한 체험 은 글 키 워드 를 자동 으로 생 성하 고 글 tag 의 유사 한 기능 을 자동 으로 얻 기 를 바 랐 습 니 다.이번 에는 새로운 프로젝트 를 맞이 하기 위해 밤새 이 기능 을 연 구 했 습 니 다.키 워드 를 자동 으로 가 져 오 는 기능 을 실현 하려 면 대략 3 단계 1 로 나 눌 수 있 으 며,분사 알고리즘 을 통 해 제목 과 내용 을 각각 분할 하여 키워드 와 빈 도 를 추출 할 수 있다.현재 주요 한 두 가지 알고리즘 은 중국 과학원 의 ICTCLAS 와 인 마 르 코 프 모델 이다.하지만 둘 다 너무 고 급 스 러 워 문턱 이 있 고 C++/JAVA 만 지원 합 니 다.PHP 기반 의 현재 두 가 지 는 추천 할 만 한 PSCWS 와 HTTPCWS 입 니 다.SCWS 는 2008-03-08 에 1.0.0 정식 버 전 을 발 표 했 고 지금까지 최신 버 전 은 1.0.4 에 이 르 렀 다.PSCWS 는 그것 의 PHP 버 전이 다.HTTPCWS 는 장 연 이 개발 한 것 으로 PHPCWS 라 고 불 렸 다.PHPCWS 는 먼저'ICTCLAS 3.0 공유 판 중국어 분사 알고리즘'의 API 를 사용 하여 첫 분사 처 리 를 한 다음 에 자체 적 으로 작 성 된'역방향 최대 일치 알고리즘'을 사용 하여 분사 와 단 어 를 통합 처리 하고 문장 부호 필터 기능 을 추가 하여 분사 결 과 를 얻는다.그러나 안 타 깝 게 도 현재 Linux 시스템 만 지원 하고 win 플랫폼 에 이식 되 지 않 았 습 니 다.2.추출 결 과 를 기 존 어고 와 비교 하여 처리 하고 쓸모없는 단 어 를 제거 하여 가장 규칙 에 맞 는 키 워드 를 얻는다.여 기 는 주로 어 고 를 봐 야 합 니 다.우 리 는 스스로 어 고 를 정의 할 수도 있 고 기 존의 성숙 한 어 고 를 사용 할 수도 있 습 니 다.예 를 들 어 시 나 닷 컴 과 왕 이 블 로 그 는 모두 이런 기능 을 가지 고 있다.그들 은 단 어 를 나 누 면 괜 찮 은 단어 창고 가 있 을 것 이다.그들 은 모두 큰 사이트 이기 때문에 나 는 작은 프로그래머 라 서 권위 있 는 어 고 를 구 할 수 없 기 때문에 기 존의 오픈 소스 프로그램 에서 출발 하여 그들의 어 고 를 볼 수 밖 에 없다.3.처리 후의 추출 결과 에서 적당 한 것 을 최종 키워드 로 선택 하여 현재 내용 에 가장 부합 되 는 키 워드 를 얻 을 수 있 습 니 다.이 단계 에서 구체 적 인 상황 을 구체 적 으로 분석 한 것 입 니 다.어쨌든 사람의 그런 지능 화 에 이 를 수 없습니다.기껏해야현재 PHP 클래스 CMS 는 자체 추출 키워드 시스템 이 있 습 니 다.현재 인터넷 상에 서 가장 널리 알려 진 것 은 DEDECMS 의 단어 소스 코드 이다.나 는 테스트 를 했 는데 상당히 멍청 하고 효과 가 좋 지 않다 는 것 을 발견 했다.먼저 키워드 의 길 이 를 설정 하고 키 워드 를 가 져 오 는 수량 을 확인 한 다음 에 단 어 를 가 져 옵 니 다.제목 이 좋 은 단 어 는 필요 한 키워드 라 고 생각 합 니 다.게다가 본문 에서 키 워드 를 읽 는 것 은 이 설정 한 길이 에 만 이 르 는 것 이 최종 키워드 입 니 다.또'우리'와 같은 무의미 한 단어 들 도 추출 을 제거 하지 않 고 키워드 로 분류 되 는 빈도 가 너무 높 아 빈 칸 의 HTML 을 키워드 로 제시 하기 도 해 개선 이 시 급 하 다.하지만 보조 기능 으로 는 이미 좋다.discuz 는 조금 좋 지만 discuz 는 소스 코드 를 제공 하지 않 고 온라인 api 만 제공 합 니 다.그리고 dede 의 단어 도 여러 가지 버 전이 있 습 니 다.가장 좋 은 것 은 최신 버 전 일 것 입 니 다.나타 나 는 빈도 가 모두 있 습 니 다.다음은 dede 5.7 의 단어 와 discuz 의 api 결 과 를 비교 해 보 겠 습 니 다.테스트 예:$title="THINKPHP 공식 은 2.0 버 전에 대한 지원 을 중단 할 것 입 니 다."$body="ThinkPHP 프레임 워 크 의 개발,유지 와 지원 을 더욱 잘 할 수 있 게 되 었 습 니 다.2012 년 5 월 1 일부 터 s 가 2.0 및 이전 버 전에 대한 유지 와 지원 을 발 표 했 습 니 다.저 탄소 절약 을 위해 홈 페이지 의 해당 버 전과 문서 다운로드 도 취소 하 겠 습 니 다.그 시절,함께 개 발 했 던 ThinkpHP 버 전 을 추억 하 자!2006 년 에 탄생 한 ThinkpHP 2.0 버 전과 관련 하여 WEB 애플 리 케 이 션 의 신속 한 개발 에 힘 썼 다.그 2.0 버 전 은 2009 년 10 월 1 일 에 발표 되 었 고 이전 1.*버 전에 서 새로운 재 구성 과 비약 을 완 성 했 으 며 그 당시 에는 획기적 인 버 전 으로 새로운 버 전에 기반 을 다 져 주 었 으 며 많은 사용자 군 과 사 이 트 를 쌓 았 다.프레임 워 크 가 빠르게 업데이트 되면 서 새로운 버 전과 2.1,2.2 와 3.0 버 전의 속속 발 표 는 씽 크 PHP 의 3.0 시대 가 도래 했 음 을 예고 하 며 2.0 의 생애 주기 가 끝났다.그러나 기본적으로 2.0 의 많은 기능 이 2.1 버 전 으로 연장 되 거나 보완 되 었 고 2.0 버 전에 서 2.1 과 2.2 버 전 으로 업그레이드 하 는 것 도 상대 적 으로 쉽다.2.2 버 전 은 2.*버 전의 최종 버 전 으로 기능 을 업데이트 하지 않 고 버그 복구 만 한다."1.dede 단 어 는 결 과 를 다음 과 같이 정렬 합 니 다.    수상}Array    (    [THINKPHP] => 1    [정부측    [머지않아    [정지    [맞다    [2.0] => 1    [버 전    [의=>1    [지원    )    내용 배열    (    [버 전    [의=>12    [와=>8    [ThinkPHP] => 5    [2.0] => 5    [도=>3    [2.2] => 3    [2.1] => 3    [개발    [3.0] => 2    [예=>2    [신속]=>2    [도착    [발표    [유지 보수    [이전    [=>2    [신 판    [지원    [프레임]=>2    [동시    [에서]=>2 이에 대해 어떻게 최종 적 으로 필요 한 키 워드 를 꺼 냅 니까?초보적인 사고방식 은 먼저'의','의'라 는 단어 들 을 제거 한 다음 에 내용 의 순서에 따라 제목 에 나타 나 는 지 여 부 를 순서대로 보면 필요 한 것 이다.그러면 일 정량의 단어 가 가장 최종 적 인 키 워드 를 꺼 낼 수 있다.위의 결과 와 같이 우 리 는 버 전 thinkphp 2.0 에서 다섯 개의 키 워드 를 정지 하 는 것 을 지원 할 수 있 습 니 다.결 과 는 받 아들 일 수 있 을 것 같 습 니 다.2.discuz 를 보면 api 를 이용 하여 xml 문 서 를 얻 었 습 니 다.분석 한 후에 얻 은 키 워드 는 예,빠 르 고 버 전 업그레이드,개발,사용자 다섯 단어 입 니 다.첫 번 째 는'의'입 니 다.이 두 가지 방식 을 비교 해 보면 첫 번 째 dede+후속 처리 가 문서 에 가 까 운 내용 을 발견 하면 조금 좋 을 것 입 니 다.그리고 discuz 는 문장의 주제 에서 벗 어 났 습 니 다.그러나 그 단 어 는 어느 정도 인기 가 있다.

좋은 웹페이지 즐겨찾기