기계 학습과 Elasticsearch는 위대한 시장에 힘을 불어넣었다

소개하다.


현대 세계에서 속도는 모든 온라인 업무의 관건적인 요소이다.분류 시장에서 자동차를 매매하는 것도 이런 추세를 따르고 있다.루마니아Publi24의 유니버설 분류 광고 포털Russmedia Equity Parters에서 우리는 고객에게 중고차 시장을 제공합니다.우리는 물품의 질을 발표하는 데 전념하고, 사용자들이 꿈꾸는 자동차를 찾을 수 있도록 신속하고 정확한 검색 옵션을 제공한다.스티커 광고의 수량이 끊임없이 증가함에 따라 우리 제품팀은 어떻게 자동차 명세서의 가격을 더욱 정확하게 함으로써 고객 만족도를 높일 수 있는지 연구를 진행하였다.우리의 목표는 Publi24의 판매자와 구매자 쌍방이 모두 좋은 거래를 달성할 수 있도록 하는 것이다.
우리는 기계 학습 기술을 시험해 보기로 결정했지만, 세계에서 가장 강력한 검색엔진 중 하나인 Elasticsearch도 시험해 보고 싶다.본문에서 나는 이 두 가지 방법을 묘사하고 우리가 얻은 결과를 비교할 것이다.

정확한 데이터는 필수적이다


모든 기계 학습 과정은 매우 길고 세밀한 데이터 예처리를 필요로 한다.지난 몇 년 동안의 모든 데이터를 수집한 후에, 우리는 그것에 대해 분석을 하고, 우리의 예측이 정확하지 않을 수 있는 모든 정보를 삭제해야 한다.Google 사용자가 Google 플랫폼에서 자동차를 판매하고자 할 때, 그들은 반드시 광고 광고표에 반드시 입력해야 하는 필드 (즉 브랜드, 모델, 등록일, 차체 유형) 를 작성해야 한다.A/C 또는 색상과 같은 선택적 데이터도 포함할 수 있습니다.데이터를 자세히 살펴보면 필수 필드만 ML 모델 구축에 유용하다고 여겨질 수 있습니다.
그 밖에 우리는 목록에서 100만 킬로미터를 넘는 거리를 발견했기 때문에 모든 데이터가 정확하지 않은 항목을 삭제해야 한다.
데이터를 정리한 후에 우리는 기계 학습 회귀 알고리즘을 사용하기로 결정했다.우리의 결정 배후의 생각은 사용자가 모든 필수 필드를 기입한 후에, 우리 시스템은 자동차의 가장 좋은 가격을 제안하여 사용자가 자동차 명세서를 발표하는 것을 지원한다는 것이다.
EMC 의 최종 기능 세트는 다음과 같습니다.
  • 차체
  • 연료 유형
  • 마력
  • 등록 날짜
  • 마일리지
  • 모델
  • 기계 학습 기반의 자동차 가격 예측


    머신러닝python 라이브러리는 다양한 회귀 알고리즘을 제공하기 때문에 깨끗한 데이터가 있을 때 우리는 그 중 일부를 시도하기로 결정했다.
  • 선형 회귀
  • DecisionTreeRegressor
  • 계단식 증강 회귀기
  • 우리는 우선 자동차의 브랜드를 없애야 한다. 왜냐하면 모든 브랜드는 독특한 차종 명칭을 가지고 있기 때문이다.나는 모델을 구축하는 과정을 상세하게 소개하지는 않겠지만, 나는 당신이 이 위대한 문장을 읽는 것을 건의합니다. predict car prices with ML우리는 마침내 회귀 계수가 0.85인 결정 트리 회귀 모델을 얻었다.
    가능한 값은 다음과 같습니다.(-infinity:1>그중 1이 가장 좋은 점수다.
    우리는 모델이 있기 때문에, 우리는 제공된 매개 변수에 따라 자동차의 적당한 가격을 더욱 정확하게 예측할 수 있다.Dell 제품 팀은 솔루션을 검토하고 또 다른 문제를 제기했습니다.
    기왕 우리가 정확한 가격을 예측할 수 있다면, 우리 한 걸음 더 앞으로 나아가는 것이 어떻습니까?실제로 우리는 고객이 더 공평한 가격으로 자동차 출시를 발표하도록 격려하기 위해 가격을 조종하는 것을 도울 수 있다.이것은 그들이 더 많은 조회수를 얻고 더 빨리 판매하는 것을 도울 수 있다.

    Elasticsearch 고급 기능으로 데이터 이해 향상


    ElasticsearchLucene를 바탕으로 하는 세계에서 가장 강력한 검색엔진 중의 하나이다.그것은 전문 검색에 매우 적합하고 사이트의 검색 결과 범위를 좁히기에 매우 적합하다.
    그러나 우리에게 이 모든 것은 다음과 같다.
    Publi24에서 판매하려는 자동차의 최적 가격을 선택하는 데 도움을 주는 방법입니다.반침투 플랫폼?
    이 질문에 대답하기 위해서 우리는 반드시 Elasticsearch의 기능을 깊이 연구해야 한다.색인 문서를 다른 유형의 검색에 사용할 수 있도록 하는 것 외에 많은 데이터aggregation features를 제공한다.우리 제품팀이 요구하는 것은 단지 한 자릿수 가격 건의만이 아니다.그들은 우리가 사용자에게 가격 구간을 정의하여 자동차를 더 빨리 판매할 가능성을 높일 수 있도록 가격 구간을 제공할 것을 요구한다.
    우리는 통계 데이터를 종합하여 특정 차종 그룹의 가격에 대한 많은 통계 데이터를 보여 주었지만 우리가 예상한 기능에 부합되는 것은 percentiles aggregation라는 것을 발견했다.
    백분율 자릿수는 일정 비율의 관찰치가 나타나는 점을 나타낸다.
    미리 정의된 숫자를 제외하고 Elasticsearch를 통해 우리는 이러한 조회를 통해 자신의'점'을 정의할 수 있다.
    aggs: {
      price_percentiles: {
        percentiles: {
          field: "price",
          percents: [20.0, 40.0, 60.0, 80.0],
          keyed: false
        }
      }
    }
    
    이러한 접근 방식을 통해 우리는 가격을 다섯 가지 다른 범위로 나눌 수 있습니다.
  • 매우 저렴
  • 저렴
  • 평균
  • 비싸다
  • 매우 비싸고,
    제공된 데이터에 근거하다.
  • 고객 만족도 1위-우리가 선택한 방법


    우리는 두 가지 방법으로 이미 우리에게 흥미로운 결과를 제공했기 때문에, 우리는 이 문제에 대답해야 한다.
    어떤 방법이 우리 고객에게 가장 도움이 됩니까?단일 추천치입니까, 아니면 가격 범위입니까?
    우리 제품팀은 사용자의 가격을 통에 넣고 목록을 발표하는 동시에 사이트에서 가격을 올리거나 내리는 것을 허용하는 연구를 진행하여 더욱 좋은 사용자 체험을 가져올 수 있음을 증명하였다.
    이러한 점을 고려하여 우리 사용자 체험팀은 다음과 같은 사용자 인터페이스를 설계했다.

    우리의 사용자들은 현재 가격을 조종하여 그들의 자동차 출시를 위해 적당한 가격 구간을 선택할 수 있다.이것은 광고 조회량을 결정하고, 우리 사용자들이 자동차를 판매하는 속도에 영향을 미친다.

    실패를 위한 설계


    기술 Best Practice는 고가용성과 고객 간섭 없이 모든 사이트를 운영하는 데 항상 중요합니다.우리는 가격 추천 기능을 위해 고장 설계 방법을 도입하여 우리의 추천 마이크로 서비스에 어떠한 문제가 발생할 때 우리의 사용자가 영향을 받지 않도록 하였다.우리 팀은 이러한 방식을 설계했다. 만약에 마이크로 서비스가 응답하지 않거나 특정한 기능 조합의 데이터가 없다면 발표 과정은 가격 제안을 표시하지 않고 정상적으로 작동할 수 있다.

    요약


    우리의 사용자가 좋은 거래를 달성하도록 돕는 것은 우리에게 매우 중요하다.우리는 우리 자신의 기계 학습 모델을 구축하고 Elasticsearch 기능을 깊이 연구하는 등 시장에서 가장 좋은 방법을 연구하는 데 많은 시간을 들였다.우리는 두 가지 해결 방안을 간단하게 비교할 수 없다. 왜냐하면 그들은 서로 다른 기능을 가지고 있기 때문이다. 기계 학습 모델은 최상의 가격을 예측하고, Elasticsearch는 가격을 백분율로 나누어 우리의 고객이 더욱 현명한 결정을 내릴 수 있도록 돕기 때문이다.구현을 통해 이 솔루션이 플랫폼에 더 많은 가치를 제공하고 더 많은 사용자를 유치할 수 있음을 알 수 있습니다Publi24.
    언제든지 저희에게 연락하여 피드백이나 건의를 해 주십시오. 저희는 기꺼이 당신의 의견을 듣겠습니다.
    또한 Publi24에서 가격 추천 기능을 시도하거나 Russmedia Equity Partners 웹 사이트를 방문하실 수 있습니다.
    러시아 미디어 그룹도 오픈소스 공유 프로젝트를 통해 오픈소스 목록을 방문해 주십시오.
    감사를 드리다
  • 로미나 포파(Russmedia Digital Romania 제품 담당자, 공동 저자)
  • 라두 몰도바(러시아 디지털 루마니아사 최고기술책임자)
  • Claudiu Silaghi(Russmedia Digital Romania의 DevOps/네트워크 개발자)
  • 좋은 웹페이지 즐겨찾기