Reddit에서 이미지를 다운로드하기 위한 CLI 도구인 Reddit Junkie!
2892 단어 webscrappingruby
지난 며칠 동안 저는 기계 학습 프로젝트를 작성하느라 바빴습니다. 나는 수많은 이미지가 필요했고 필요한 사진을 크롤링하고 다운로드하기 위한 인터넷의 첫 페이지인 reddit보다 더 나은 곳을 찾지 못했습니다. 사진은 사람이 제공한 것으로 대부분은 고급 레스토랑의 화려한 광고가 아닌 실제 사진입니다.
따라서
BeautifulSoup
또는 Nokogiri
를 사용하여 reddit을 크롤링할 수 없습니다. 하지만 저는 깨달은 것이 있습니다. 프로젝트의 경우 JSON API를 사용하여 많은 사진을 얻었습니다. 그래서 저는 다운로드를 위한 자동화를 원했습니다! VS Code를 열고 커피 한 잔을 들고 Spotify의 블랙 메탈 재생 목록으로 이동하여 코딩을 시작했습니다.이제 AI용 데이터세트를 생성하는 데 도움이 되는 정말 멋진 도구가 생겼습니다. 프로젝트!
CLI 도구
reddit_junkie 도구 설치
Linux, BSD, macOS 또는 WSL 시스템에서는 먼저 ruby를 설치해야 합니다. 내 개인적인 취향은 항상 RVM 이지만 설치한 것이
httparty
gem을 처리할 수 있는 한 괜찮습니다.설치하려면 다음 명령을 실행하십시오.
gem install reddit_junkie
명령줄 도구로 사용할 수 있습니다.
기본 "이미지" 디렉토리에서 25개의 이미지 다운로드
reddit_junkie --subreddit SUB
예를 들어 r/skyporn의 최신 정보를 원하면 다음을 실행합니다.
reddit_junkie --subreddit skyporn
사용자 정의 디렉토리에서 25개의 이미지 다운로드
reddit_junkie --subreddit SUB --directory DIR
예를 들어,
sky
라는 폴더를 만들고 거기에 사진을 저장하려고 합니다. 또한 폴더를 생성하지 않은 경우 reddit_junkie
에서 생성합니다.reddit_junkie --subreddit skyporn --directory sky
기본 "이미지" 디렉토리에 25개 이상의 이미지 다운로드
reddit_junkie --subreddit SUB --count COUNT
예를 들어 하늘 사진 300장을 다운로드하려고 합니다.
reddit_junkie --subreddit skyporn --count 300
사용자 정의 디렉토리에서 25개 이상의 이미지 다운로드
reddit_junkie --subreddit SUB --count COUNT --directory DIR
예를 들어,
sky
디렉토리에서 300장의 하늘 사진을 다운로드하려고 합니다.reddit_junkie --subreddit skyporn --count 300 --directory sky
알려진 문제/테스트되지 않음
--endpoint
플래그로 테스트되지 않았습니다. 그래도 괜찮아 보입니다. 연결
Reference
이 문제에 관하여(Reddit에서 이미지를 다운로드하기 위한 CLI 도구인 Reddit Junkie!), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/prpe/reddit-junkie-a-cli-tool-for-downloading-images-from-reddit-5b1o텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)