Envie de contribuer à des projets open source sur Github ? (1/2)

5638 단어 githubpython

웹 스크래핑 통계 BeautifulSoup



Récemment j'ai cherché des projets 오픈 소스 보조 기여자. L'idéal pour beginr à contribuer est de trouver une issue avec le labelgood first issue . L'ennui c'est qu'il faut parcourir chaque repo et aller voir dans les issues s'il y en a une avec ce label ou alors aller 방문자 방향 l'urlhttps://github.com/{username}/{repo_name}/contribute
Peut être que j'ai tout simplement mal cherché mais je n'ai pas trouvé de moyens dans github de lister tous les repos ayant ce 장르 d'issues en fonction d'un filtre detopic . Je me suis donc servi de la deuxième méthode expliquée ci dessus et de la librairie BeautifulSoup pour parcourir automatiquement les repos filtrés par topic et lister les issues avec le label good first issue s'il y en a.

참조 트윗👇

















아빠


@_pacdev






기여할 «좋은 첫 번째 문제»를 찾았지만 나열할 방법을 찾지 못했습니다. 나는 그것들을 나열하기 위해 매우 간단한 웹 앱을 만들었습니다. …t-issues-main-eqb5sc.streamlitapp.com 도움이 되길 바랍니다. 부담없이 기부하세요github.com/p-acDev/find-g… 🙏


오후 21:48 - 2022년 8월 25일









Ci dessous les quelques étapes qui permettent d'extraire les contenus des pages html:

On créé un objet instance de la classe

soup = BeautifulSoup(html_content, 'html.parser')

html_content est le contenu html de la page obtenu avec un requests.get(url) par exemple



아플리케 les méthodes de la librairie에 Sur cet objetsoup. 페이지 html 통계, quelle est notre cible(F12 par exemple pour obtenir le code source de la page)를 참조할 수 있습니다.



Le resultat est une liste de dictnaires qui contiennent les infos de cette balise en particulier. Pour obtenir le lien hypertext il suffit d'aller chercher le contenu href de chaque dictionnaire.

👉 플러스디테일댄스 le répo

👉 N'hésitez pas à contribuer

웹 스크래핑 역동성



I y un ennui. Cette librairie est un outil pour les pages statiques. On ne peut pas interagir avec le site. Quand on applique un filter par topic dans github explore, on ne récupère qu'une liste de quelques repos avec un bouton load more à la fin



C'est un utilisateur github AlexMihalache99 qui m'a orienté vers la solution

에 대한 댓글 #2







AlexMihalache99
에 댓글을 달았습니다.



BeautifulSoup은 HTML 및 XML 파일에서 데이터를 가져옵니다.
즉, 데이터를 추출하는 정적인 방법입니다.
정적이기 때문에 결과를 동적으로 로드하는 웹페이지(예: 페이지 번호 막대 대신 추가 로드 버튼이 있는 웹페이지)에서는 작동하지 않습니다.
이에 대한 해결책은 데이터를 동적으로 스크랩하는 라이브러리를 사용하는 것입니다.
Selenium은 사용자의 요구를 충족시킬 수 있는 라이브러리입니다.


View on GitHub



MAJ avec 셀레늄



La suite dans une prochaine update

좋은 웹페이지 즐겨찾기