기계 학습 작업 흐름을 실행하여 데이터를 변환하고 txtai로 인공지능 지원 텍스트 인덱스 구축


txtai 기계 학습 작업 흐름을 실행하여 데이터를 변환하고 인공지능이 지원하는 텍스트 인덱스를 구축하여 유사성 검색을 실시한다.txtai는 텍스트 세션, 문서, 오디오, 이미지 인덱스를 지원합니다.파이프와 작업 흐름은 기계 학습 모델을 사용하여 데이터를 변환하는 것을 지원한다.다음 글은 txtai를 소개했다.
2020년 8월 txtai가 처음 발표된 이래 txtai는 이미 장족의 발전을 이루었다.txtai는 내장된 인덱스를 구축하는 것 외에 파이프를 통해 인덱스 데이터의 변환을 준비하고 파이프를 연결하는 작업 흐름, 자바스크립트/자바/Rust/Go의 API 귀속, 처리 능력을 확장할 수 있습니다.본고는 벡터화 데이터의 방법, 기계 학습 파이프와 작업 흐름을 소개할 것이다.

벡터화 데이터


txtai는 텍스트 부분에 색인을 만드는 것을 최초로 지원합니다.txtai는 현재 문서, 오디오, 이미지를 지원합니다.파일과 오디오는 아래 파이프 부분에 표시됩니다.이 섹션에서는 이미지를 벡터화하고 유사성 검색을 실행하는 방법을 보여 줍니다.

sentence-transformers는 최근 OpenAI CLIP model에 대한 지원을 늘렸다.이 모델은 텍스트와 이미지를 같은 공간에 삽입하여 이미지 유사성 검색을 실현했다.txtai는 이 모델들을 직접 이용할 수 있다.

위의 code는 이미지 디렉터리의 유사성 인덱스를 구축하고 검색을 사용합니다.당신의 그림에 따라 그것을 실행하고 결과를 탐색하세요


파이프


txtai는 파이프 구조를 통해 점점 더 많은 모델을 제공합니다.파이프 포장기계 학습 모형 및 데이터 변환.현재 파이프는 포옹 안면 변형 금강 모형, 포옹 안면 변형 금강 파이프 또는 PyTorch 모형(TensorFlow의 지원 대기 사항 중)을 포장할 수 있습니다


다음은 현재 실시되고 있는 파이프 목록입니다


  • 문제 - 텍스트 상하문으로 질문에 대답

  • 라벨 - 제로 렌즈 분류 모델을 사용하여 라벨을 텍스트에 적용합니다.유사성 비교도 지원합니다

  • 요약 - 요약 텍스트 요약

  • Textractor - 문서에서 텍스트 추출

  • 녹음 - 오디오를 텍스트로 녹음

  • 번역 - 기계번역


파이프는 입력 데이터를 가져와 NLP 변환을 적용하고 결과를 되돌려줍니다.아래 수첩에서는 이러한 각 파이프의 예제에 대해 설명합니다


요약


요약은 자연 언어 처리(NLP) 모델을 사용하여 텍스트의 변환 요약을 구성합니다.이것은 한 사람에게 문장을 읽게 하고 그것에 관해 묻는 것과 유사하다.인류는 텍스트를 지루하게 읽지 않는다.한 가지 예를 살펴보겠습니다





위 부분 인쇄:



Search is the foundation of the internet

완전한 예는 아래 링크된 노트에서 찾을 수 있습니다


Build abstractive text summaries


Text Extraction


이 섹션에서는 문서의 텍스트를 추출하여 유사성 검색을 가장 잘 지원하는 방법을 소개합니다





위 부분 인쇄:



Introducing txtai, an AI-powered search engine built on Transformers Add Natural Language Understanding to any application Search is the base of many applications. Once data starts to pile up, users want to be able to find it. It’s the foundation.....

의 완전한 예는 아래 링크된 노트에서 찾을 수 있습니다.이 예제에서는 색인할 텍스트 섹션을 구성하는 데 도움이 되는 텍스트를 분할/분할하는 방법을 보여 줍니다


Extract text from documents


Audio Transcription


Hugging Face Transformers는 오디오 녹음(오디오에서 텍스트까지)을 실행할 수 있는 많은 모델을 제공합니다





위 부분 인쇄:



Make huge profits without working make up to one hundred thousand dollars a day

완전한 예는 아래 링크된 노트에서 찾을 수 있습니다


Transcribe audio to text


Translate text between languages


이 섹션은 포옹자 얼굴 변환 모델이 지원하는 기계 번역을 소개합니다.클라우드 서비스를 통해 기계 번역을 하는 품질은 이미 장족의 발전을 거두었고 높은 품질의 결과를 얻었다.다음은 로컬 모델이 개발자에게 합리적인 대체 방안을 제공하는 방법을 보여 줍니다





위 부분 인쇄:



Esta es una traducción de prueba al español

완전한 예는 아래 링크된 노트에서 찾을 수 있습니다


Transcribe text between languages


Workflows


파이프가 매우 좋아서 각종 기계 학습 모형을 사용하는 것이 더욱 쉽다.그런데 우리가 서로 다른 파이프의 결과를 한데 붙이고 싶다면?예를 들어 텍스트를 추출하여 정리하고 영어로 번역하여 삽입된 색인에 불러옵니다.이 작업을 효율적으로 연결하는 코드가 필요합니다


입력 작업 흐름입니다.작업 흐름은 간단하지만 기능이 강한 구조로 호출 가능한 요소를 받아들이고 요소로 되돌아간다.워크플로우는 파이프를 사용하고 있는지 모르지만 파이프 데이터를 효율적으로 처리할 수 있습니다.워크플로우는 본질적으로 스트리밍되므로 데이터를 대량으로 처리하여 대량의 데이터를 효율적으로 처리할 수 있습니다





위의 예는 오디오를 텍스트로 녹음한 다음 텍스트를 프랑스어로 번역합니다



["Les cas de virus U sont en tête d'un million",
 "La dernière plate-forme de glace entièrement intacte du Canada s'est soudainement effondrée en formant un berge de glace de taille manhatten",
 "Bagage mobilise les embarcations d'invasion le long des côtes à mesure que les tensions tiwaniennes s'intensifient",
 "Le service des parcs nationaux met en garde contre le sacrifice d'amis plus lents dans une attaque nue",
 "L'homme principal gagne du billet de loterie",
 "Faire d'énormes profits sans travailler faire jusqu'à cent mille dollars par jour"]

다음 노트에서 이 예와 다른 예를 찾을 수 있습니다. 복잡한 작업 절차를 포함하여 이 작업 절차는 텍스트를 정리하고 텍스트를 프랑스어로 번역한 다음에 색인을 삽입합니다


Run pipeline workflows


Wrapping up


모든 논의 기능은 GitHub의 주 지점에서 얻을 수 있으며, 곧 다가올 v3에서 제공될 것입니다.버전 0입니다.txtai는 계속 신속하게 발전할 것이며, 새로운 파이프라인을 계속 주목할 것이다.파이프라인과 작업 흐름 레벨의 횡적 확장 능력도 지속적인 분야이다


txtai의 목표는 노트북에서 일할 수 있을 정도로 간단하지만 집단/클라우드 시스템으로 확장할 수 있는 것이다

좋은 웹페이지 즐겨찾기