Google Colab에 파일을 업로드하는 방법.

친애하는 독자 여러분, 오늘 Google Colab을 알게 되었습니다. 이 도구는 예를 들어 거대한 데이터세트로 작업하는 데 매우 편리합니다. 제 경우에는 10GB보다 큰 데이터세트가 방대하고 컴퓨터 팬이 과로하는 것을 원하지 않습니다. 이 기사에 대한 필수 전제 조건은 없으며 컴퓨터 및 인터넷 작업에 대한 기본 지식만 있으면 됩니다.

구글 코랩이 무엇인가요?



Google Colab은 무료로 GPU에 액세스하는 데 필요한 구성 없이 브라우저에서 Python을 작성하고 실행할 수 있는 도구이며 코드를 쉽게 공유할 수 있습니다.
Colab은 기본적으로 Jupyter Notebook의 Google Suite 버전입니다.

Google Colab은 학생, 인공 지능 연구원, 기계 학습 엔지니어, 데이터 과학자, 데이터 엔지니어가 사용할 수 있습니다.

좋은 인터넷에 접속하고 좋아하는 브라우저로 이동하세요. (Brave는 제가 가장 좋아하는 브라우저입니다) google colab을 입력하고 첫 번째 링크를 클릭하세요.



Google Colab은 사용하기 쉽고 Python 코드를 작성하고 실행하고 다른 사람과 공유하고 패키지를 더 쉽게 설치하고 문서를 공유할 수 있습니다. 하지만 파일이나 폴더를 구글 코랩에 업로드하고 싶을 때 상당히 번거롭습니다.

파일 또는 폴더를 Google Colab에 업로드하려면



대부분의 사람들은 CSV 파일을 다운로드하고, Google Colab에 업로드하고, 데이터 프레임을 읽고 로드합니다. 잠시 후 데이터가 더 이상 저장되지 않았기 때문에 모든 것을 다시 반복해야 합니다. 이 문서는 이 문제를 해결합니다.

이 기사에서는 PyDrive를 사용하여 Google Colab 환경에서 Python3을 사용하여 Google 드라이브에서 직접 CSV 형식의 파일을 읽는 방법을 보여줍니다.

첫 번째 단계: PyDrive 설치



첫 번째 단계는 Colab에 PyDrive를 설치하는 것입니다.

!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials


우리는 colab 환경에 있기 때문에 pip가 설정된 표준이므로 시작 부분에 느낌표(!)가 표시됩니다.



2단계: 인증 및 권한 부여.



PyDrive 클라이언트를 인증하고 생성해야 합니다.

auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)





위의 코드를 배우면 Google Colab이 드라이브에 액세스할 수 있도록 허용하라는 메시지가 표시됩니다. 허용을 클릭하고 Google Colab이 드라이브에 액세스하도록 허용합니다.



3단계: 공유 가능한 링크 생성



확인이 완료되면 Google 드라이브로 이동합니다.
  • 파일을 찾아 클릭하십시오.
  • "공유"버튼을 클릭하십시오.
  • 공유 가능한 링크 생성 "링크 가져오기"

  • 링크가 클립보드에 복사되고 이 링크를 Colab의 문자열 변수에 붙여넣습니다.

    4단계: 파일 ID 얻기



    승인되지 않은 사용자가 파일에 액세스하지 못하도록 다른 사람과 링크를 공유하지 마십시오. 아래 링크는 필요한 파일 ID를 이해하는 데 도움이 되는 데모용입니다.

    ##https://drive.google.com/file/d/25XVhnRJvieQMAEC9TfrWBNG6ERmtU7X/view?usp=sharing
    
    
    your_file = drive.CreateFile({'id':'25XVhnRJvieQMAEC9TfrWBNG6ERmtU7X'})
    
    


    변수 your_file에 id를 할당하고 drive.CreateFile({'id' : 'id_value'})을 사용합니다.

    5단계: 파일을 로드하고 결과를 표시합니다.



    csv 파일을 업로드하고 있었으니 csv 파일을 불러와 출력을 하여 프로세스가 성공했는지 확인해 봅시다.

    메모리에 로드하려는 CSV 파일의 이름을 나타냅니다.

    your_file.GetContentFile('matches.csv')
    
    


    Pandas를 사용하여 이것을 데이터 프레임으로 바꾸고 헤더를 표시합니다. 나는 팬더를 포함하여 많은 파이썬 패키지를 제공하는 패키지인 import pyforest를 사용합니다.

    import pyforest 
    
    df = pd.read_csv('matches.csv', delimiter=';' )
    
    df.head()
    
    




    위의 사진에서 볼 수 있듯이 csv 파일이 성공적으로 업로드되었고 pandas를 사용하여 데이터를 조작할 수 있었습니다.

    이제 파일, 폴더를 Google colab에 업로드하는 방법을 알았습니다. 이렇게 하면 컴퓨터에서 로컬로 모든 작업을 수행할 필요가 없으며 방대한 데이터 세트로 편안하게 작업할 수 있습니다.

    우리는 여전히 함께 데이터 엔지니어링을 배우고 있습니다. Ubuntu에 Apache PySpark 설치에 대한 기사 읽기, . 로컬 환경에 PySpark를 설치하는 것은 실제로 관련이 있었습니다.

    Google Colab에서 PySpark 및 py4j 라이브러리를 설치하려면 다음 명령만 실행하면 됩니다.

    !pip install pyspark==3.3.0 py4j==0.10.9.5
    
    


    그런 다음 내 작업에서 Apache PySpark 사용으로 이동합니다. Apache pySpark에 대해 알아보려면

    이것은 내가 직면하고 해결한 과제를 해결하기 위한 짧은 종합 기사였습니다. 의견과 제안을 자유롭게 남겨주세요.

    좋은 웹페이지 즐겨찾기