paiza의 채용 정보에서 연수입 예측 모델을 구축하는 방법
2909 단어 TensorFlowWebScrapingPython
나는 IT 엔지니어의 전직 사이트가 여러 가지가 있다고 생각한다. 그 중 하나는 Paiza이다.Paiza는 온라인 판단을 통해 문제를 쉽게 해결할 수 있는 기능 검사 기능이 있어 자신의 코딩 기술(일부)에 대해 축적하고 연구하며 학습 내용을 활용해 다양한 기술 분야에 진출할 수 있는 다채로운 기능을 갖추고 있다.(Paiza 정말 고마워요! 33;)
이번 목적은 Paiza에 게재된 채용 정보를 복제해 채용 내용의 요소(근무지, 개발 언어, 경력 등)와 연 소득 안내의 관계를 예측하고, 머신러닝을 통해 예측 모델을 만드는 것이다.
클론 캡처로 정보 수집
이번 노력으로 채용 페이지에서 얻은 요소는 다음과 같다.
두 단계에서 복제 블록을 집행하고 첫 번째 단계에서 뒤이어 기계 학습 부분에서 교사의 데이터로 사용된 상술한 요소의 일람을 얻어 첫 번째 단계에서 각 요소가 원-hot 인코딩을 통해 어떤 요소를 얻었는지2단계에서 각 채용을 취득하는 데는 어떤 요소가 있는가.
1단계 클론 사용이 코드
2단계 커튼은 사용이 코드으로 진행됐다.1단계의 복제는 lxml과 selector, 정규 표현식으로 상기 각 요소가 얻을 수 있는 값의 목록을 만들고 2단계의 폐쇄는 각 채용을 통해 얻은 데이터를 판다스의 데이터 프레임 형식으로 CSV에 저장한다.
연수입은 범위 내에서'400만~800만엔'처럼 제시하는 것도 있고,'400만엔~'처럼 제시하는 것도 있다. 전자는 600만엔, 후자는 하한치가 대표치인 400만엔으로 라벨을 만든다.
그렇게 해서 얻은 데이터는여기.이다.(2021/12/1시)
데이터 수집 학습
이후 수집한 데이터를 판다스의 데이터 프레임으로 구글 colab에서 학습해 연수입 예측 모델을 제작한다.
샘플 코드는여기.입니다.
데이터가 많지 않기 때문에 몇 초만에 공부를 끝낼 수 있다.
상술한 것은 연수입의 직사각형이다.모두들 많은 돈을 받았으니 나는 정말 부럽다.
학습의 진전 상황은 20세기면 충분하기 때문에 20세기는 끝났다.
결국 100만엔 안팎의 오차가 남아 있다.
이 모델을 이용하여 다음과 같은 요소에 대해 매개 변수 연구를 진행하였다.
이거에 대해서 레벨이 올라가면...
S
506.27173
A
425.1205
B
343.9692
C
262.81808
D
181.66684
E
100.5156
그렇다고 합니다.절대치의 정확도는 모르지만 이 경향은 직감과 같다고 본다.
상술한 매개 변수에 대해 이런 일을 진행하였는데, 영향이 큰 요소의 순서에 따라
레벨 > 필수 조건 > 근무지 > 언어 프레임워크, 데이터베이스, 클라우드 플랫폼 개발
이런 느낌이야.
참고로 페이즈 등급은 S, 근무지는 도쿄로 1년 개발 경험이 있다.AWS 채용 현황에 따른 연수입은 701만8천8434엔으로 예측됐다.스케줄러:좋다!
최후
복제, 압박은 대상의 서비스에 부담을 줄 수 있으므로 사전에 로봇스를 주의하세요.txt를 확인해 주십시오. 폐를 끼치지 마십시오.
Reference
이 문제에 관하여(paiza의 채용 정보에서 연수입 예측 모델을 구축하는 방법), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/mebius37/items/d29237a22e93adad382a텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)