Google Colab에 파일을 업로드하는 방법.

4559 단어 beginners cloud tooling tutorial

친애하는 독자 여러분, 오늘 Google Colab을 알게 되었습니다. 이 도구는 예를 들어 거대한 데이터세트로 작업하는 데 매우 편리합니다. 제 경우에는 10GB보다 큰 데이터세트가 방대하고 컴퓨터 팬이 과로하는 것을 원하지 않습니다. 이 기사에 대한 필수 전제 조건은 없으며 컴퓨터 및 인터넷 작업에 대한 기본 지식만 있으면 됩니다.

구글 코랩이 무엇인가요?

Google Colab은 무료로 GPU에 액세스하는 데 필요한 구성 없이 브라우저에서 Python을 작성하고 실행할 수 있는 도구이며 코드를 쉽게 공유할 수 있습니다.
Colab은 기본적으로 Jupyter Notebook의 Google Suite 버전입니다.

Google Colab은 학생, 인공 지능 연구원, 기계 학습 엔지니어, 데이터 과학자, 데이터 엔지니어가 사용할 수 있습니다.

좋은 인터넷에 접속하고 좋아하는 브라우저로 이동하세요. (Brave는 제가 가장 좋아하는 브라우저입니다) google colab을 입력하고 첫 번째 링크를 클릭하세요.

Google Colab은 사용하기 쉽고 Python 코드를 작성하고 실행하고 다른 사람과 공유하고 패키지를 더 쉽게 설치하고 문서를 공유할 수 있습니다. 하지만 파일이나 폴더를 구글 코랩에 업로드하고 싶을 때 상당히 번거롭습니다.

파일 또는 폴더를 Google Colab에 업로드하려면

대부분의 사람들은 CSV 파일을 다운로드하고, Google Colab에 업로드하고, 데이터 프레임을 읽고 로드합니다. 잠시 후 데이터가 더 이상 저장되지 않았기 때문에 모든 것을 다시 반복해야 합니다. 이 문서는 이 문제를 해결합니다.

이 기사에서는 PyDrive를 사용하여 Google Colab 환경에서 Python3을 사용하여 Google 드라이브에서 직접 CSV 형식의 파일을 읽는 방법을 보여줍니다.

첫 번째 단계: PyDrive 설치

첫 번째 단계는 Colab에 PyDrive를 설치하는 것입니다.

!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

우리는 colab 환경에 있기 때문에 pip가 설정된 표준이므로 시작 부분에 느낌표(!)가 표시됩니다.

2단계: 인증 및 권한 부여.

PyDrive 클라이언트를 인증하고 생성해야 합니다.

auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

위의 코드를 배우면 Google Colab이 드라이브에 액세스할 수 있도록 허용하라는 메시지가 표시됩니다. 허용을 클릭하고 Google Colab이 드라이브에 액세스하도록 허용합니다.

3단계: 공유 가능한 링크 생성

확인이 완료되면 Google 드라이브로 이동합니다.

파일을 찾아 클릭하십시오.

"공유"버튼을 클릭하십시오.

공유 가능한 링크 생성 "링크 가져오기"

링크가 클립보드에 복사되고 이 링크를 Colab의 문자열 변수에 붙여넣습니다.

4단계: 파일 ID 얻기

승인되지 않은 사용자가 파일에 액세스하지 못하도록 다른 사람과 링크를 공유하지 마십시오. 아래 링크는 필요한 파일 ID를 이해하는 데 도움이 되는 데모용입니다.

##https://drive.google.com/file/d/25XVhnRJvieQMAEC9TfrWBNG6ERmtU7X/view?usp=sharing


your_file = drive.CreateFile({'id':'25XVhnRJvieQMAEC9TfrWBNG6ERmtU7X'})

변수 your_file에 id를 할당하고 drive.CreateFile({'id' : 'id_value'})을 사용합니다.

5단계: 파일을 로드하고 결과를 표시합니다.

csv 파일을 업로드하고 있었으니 csv 파일을 불러와 출력을 하여 프로세스가 성공했는지 확인해 봅시다.

메모리에 로드하려는 CSV 파일의 이름을 나타냅니다.

your_file.GetContentFile('matches.csv')

Pandas를 사용하여 이것을 데이터 프레임으로 바꾸고 헤더를 표시합니다. 나는 팬더를 포함하여 많은 파이썬 패키지를 제공하는 패키지인 import pyforest를 사용합니다.

import pyforest 

df = pd.read_csv('matches.csv', delimiter=';' )

df.head()

위의 사진에서 볼 수 있듯이 csv 파일이 성공적으로 업로드되었고 pandas를 사용하여 데이터를 조작할 수 있었습니다.

이제 파일, 폴더를 Google colab에 업로드하는 방법을 알았습니다. 이렇게 하면 컴퓨터에서 로컬로 모든 작업을 수행할 필요가 없으며 방대한 데이터 세트로 편안하게 작업할 수 있습니다.

우리는 여전히 함께 데이터 엔지니어링을 배우고 있습니다. Ubuntu에 Apache PySpark 설치에 대한 기사 읽기, . 로컬 환경에 PySpark를 설치하는 것은 실제로 관련이 있었습니다.

Google Colab에서 PySpark 및 py4j 라이브러리를 설치하려면 다음 명령만 실행하면 됩니다.

!pip install pyspark==3.3.0 py4j==0.10.9.5

그런 다음 내 작업에서 Apache PySpark 사용으로 이동합니다. Apache pySpark에 대해 알아보려면

이것은 내가 직면하고 해결한 과제를 해결하기 위한 짧은 종합 기사였습니다. 의견과 제안을 자유롭게 남겨주세요.

Reference

이 문제에 관하여(Google Colab에 파일을 업로드하는 방법.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/kinyungu_denis/how-to-upload-a-file-to-google-colab-2119

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

이진 삽입 정렬

Cloudflare 작업자의 Firebase 인증

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다