Reddit에서 이미지를 다운로드하기 위한 CLI 도구인 Reddit Junkie!

2892 단어 webscrappingruby
Reddit에서 다운로드를 훨씬 쉽게 해주는 Ubuntu 시스템에 도구가 설치되어 있다고 말하면 어떻게 될까요?

지난 며칠 동안 저는 기계 학습 프로젝트를 작성하느라 바빴습니다. 나는 수많은 이미지가 필요했고 필요한 사진을 크롤링하고 다운로드하기 위한 인터넷의 첫 페이지인 reddit보다 더 나은 곳을 찾지 못했습니다. 사진은 사람이 제공한 것으로 대부분은 고급 레스토랑의 화려한 광고가 아닌 실제 사진입니다.

따라서 BeautifulSoup 또는 Nokogiri 를 사용하여 reddit을 크롤링할 수 없습니다. 하지만 저는 깨달은 것이 있습니다. 프로젝트의 경우 JSON API를 사용하여 많은 사진을 얻었습니다. 그래서 저는 다운로드를 위한 자동화를 원했습니다! VS Code를 열고 커피 한 잔을 들고 Spotify의 블랙 메탈 재생 목록으로 이동하여 코딩을 시작했습니다.

이제 AI용 데이터세트를 생성하는 데 도움이 되는 정말 멋진 도구가 생겼습니다. 프로젝트!

CLI 도구



reddit_junkie 도구 설치



Linux, BSD, macOS 또는 WSL 시스템에서는 먼저 ruby를 설치해야 합니다. 내 개인적인 취향은 항상 RVM 이지만 설치한 것이 httparty gem을 처리할 수 있는 한 괜찮습니다.

설치하려면 다음 명령을 실행하십시오.

gem install reddit_junkie

명령줄 도구로 사용할 수 있습니다.

기본 "이미지" 디렉토리에서 25개의 이미지 다운로드



reddit_junkie --subreddit SUB

예를 들어 r/skyporn의 최신 정보를 원하면 다음을 실행합니다.

reddit_junkie --subreddit skyporn

사용자 정의 디렉토리에서 25개의 이미지 다운로드


reddit_junkie --subreddit SUB --directory DIR

예를 들어, sky라는 폴더를 만들고 거기에 사진을 저장하려고 합니다. 또한 폴더를 생성하지 않은 경우 reddit_junkie에서 생성합니다.

reddit_junkie --subreddit skyporn --directory sky

기본 "이미지" 디렉토리에 25개 이상의 이미지 다운로드


reddit_junkie --subreddit SUB --count COUNT

예를 들어 하늘 사진 300장을 다운로드하려고 합니다.

reddit_junkie --subreddit skyporn --count 300

사용자 정의 디렉토리에서 25개 이상의 이미지 다운로드


reddit_junkie --subreddit SUB --count COUNT --directory DIR

예를 들어, sky 디렉토리에서 300장의 하늘 사진을 다운로드하려고 합니다.

reddit_junkie --subreddit skyporn --count 300 --directory sky

알려진 문제/테스트되지 않음


  • CLI 도구는 아직 --endpoint 플래그로 테스트되지 않았습니다. 그래도 괜찮아 보입니다.
  • 이미지가 100개 이상인 경우 100으로 나누어지는 숫자만 다운로드할 수 있습니다. 예를 들어 300, 1000, 25000입니다. 데이터셋을 만드는 데 도움이 되도록 이 도구를 만들면서 많은 시간을 할애하지 않았습니다. 이 문제를 해결합니다.
  • CLI 플래그/매개변수 읽기가 좋지 않습니다. 그것은 잘 작동하지만 절대적으로 POSIX 방식은 아닙니다.

  • 연결


  • Github
  • Ruby Gems
  • 좋은 웹페이지 즐겨찾기