【python】정규 표현으로 데이트를 구축

3240 단어 트위터파이썬

일의 발단



Twitter의 데이터 수집은 하고 있었습니다만, 그 후는 따뜻하게 하고 있었습니다.
그리고, 오랜만에 데이터를 보면 fav0의 데이트계의 수수께끼의 시읍면 트윗이 와사카 완사인가…
실제로 Twitter 검색을 걸어도 많이 발견되었습니다.



유저명은 과연 비추 너무 숨겼습니다…
뭐야 이 수수께끼의 단어는… … 전까지 이미 조금 문장이었어…
그리고 이전까지 특정 단어를 지정하고, 그것이 히트하면 사요나라로 했는데, 이 문자수라고 지정할 수 있는 공통 단어도 없습니다.

그래서 정규식으로 어딘가 삭제합니다.

출처



동작 확인 샘플 당 도칸. 토관.

얼핏 보면 중얼거리는 패턴으로는
①「히라가나 1문자」「히라가나 혹은 구독점」「시정촌명」
②「히라가나 3문자」「기호」「시정촌명」
이 두 가지이므로 해당 항목을 공백으로 바꾼 다음 빈 행을 삭제합니다.

데이터는 데이터 프레임에 들어 있기 때문에 거기서 어떻게든, 엔야코라합니다.
수수한 오랜만의 파이썬 타임. 곧 끝났지만.
import pandas as pd
import re
DF_samp=pd.DataFrame({'col_0': {'row_0': "おー大阪市", 'row_1': "おっ、大阪市aaa", 'row_2': "おっ、大阪市"},'col_1': {'row_0': 3, 'row_2': 4, 'row_3': 5},})
cols=DF_samp.col_0
cols0=cols.str.replace("[ぁ-ゟ][ぁ-ゟ][!-/:-@?[-`{-~。、~ー…\].+[町|村|市]$|[ぁ-ゟ][ぁ-ゟ!-/:-@?[-`{-~。、~ー…\].+[町|村|市]$", '')
DF_samp.col_0=cols0
DF_samp.dropna(subset=['col_0'])

이것으로 해당하는 수수께끼 문장만 구축할 수 있었습니다.
야타네.
거기의 대입 있나요라고 목소리가 들리는 생각이 듭니다만 긴 싫기 때문에…

그리고 지금



이것 BOT 담당자에게 보여지면 새로운 패턴이 올지도 모른다는 것을 알아차렸다…
그 때는 그 때입니다.

어쨌든 효율적으로 차단할 수있는 세상이되었다 ~ 있어!
뭐 트윗 수집하고 있는 것은 API이므로 이번의 이것은 블록 관계 없습니다만 네.

좋은 웹페이지 즐겨찾기