【python】정규 표현으로 데이트를 구축
일의 발단
Twitter의 데이터 수집은 하고 있었습니다만, 그 후는 따뜻하게 하고 있었습니다.
그리고, 오랜만에 데이터를 보면 fav0의 데이트계의 수수께끼의 시읍면 트윗이 와사카 완사인가…
실제로 Twitter 검색을 걸어도 많이 발견되었습니다.
유저명은 과연 비추 너무 숨겼습니다…
뭐야 이 수수께끼의 단어는… … 전까지 이미 조금 문장이었어…
그리고 이전까지 특정 단어를 지정하고, 그것이 히트하면 사요나라로 했는데, 이 문자수라고 지정할 수 있는 공통 단어도 없습니다.
그래서 정규식으로 어딘가 삭제합니다.
출처
동작 확인 샘플 당 도칸. 토관.
얼핏 보면 중얼거리는 패턴으로는
①「히라가나 1문자」「히라가나 혹은 구독점」「시정촌명」
②「히라가나 3문자」「기호」「시정촌명」
이 두 가지이므로 해당 항목을 공백으로 바꾼 다음 빈 행을 삭제합니다.
데이터는 데이터 프레임에 들어 있기 때문에 거기서 어떻게든, 엔야코라합니다.
수수한 오랜만의 파이썬 타임. 곧 끝났지만.
import pandas as pd
import re
DF_samp=pd.DataFrame({'col_0': {'row_0': "おー大阪市", 'row_1': "おっ、大阪市aaa", 'row_2': "おっ、大阪市"},'col_1': {'row_0': 3, 'row_2': 4, 'row_3': 5},})
cols=DF_samp.col_0
cols0=cols.str.replace("[ぁ-ゟ][ぁ-ゟ][!-/:-@?[-`{-~。、~ー…\].+[町|村|市]$|[ぁ-ゟ][ぁ-ゟ!-/:-@?[-`{-~。、~ー…\].+[町|村|市]$", '')
DF_samp.col_0=cols0
DF_samp.dropna(subset=['col_0'])
이것으로 해당하는 수수께끼 문장만 구축할 수 있었습니다.
야타네.
거기의 대입 있나요라고 목소리가 들리는 생각이 듭니다만 긴 싫기 때문에…
그리고 지금
이것 BOT 담당자에게 보여지면 새로운 패턴이 올지도 모른다는 것을 알아차렸다…
그 때는 그 때입니다.
어쨌든 효율적으로 차단할 수있는 세상이되었다 ~ 있어!
뭐 트윗 수집하고 있는 것은 API이므로 이번의 이것은 블록 관계 없습니다만 네.
Reference
이 문제에 관하여(【python】정규 표현으로 데이트를 구축), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/wagahaiCAT/items/7c5bd3b9c4452579282b
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
동작 확인 샘플 당 도칸. 토관.
얼핏 보면 중얼거리는 패턴으로는
①「히라가나 1문자」「히라가나 혹은 구독점」「시정촌명」
②「히라가나 3문자」「기호」「시정촌명」
이 두 가지이므로 해당 항목을 공백으로 바꾼 다음 빈 행을 삭제합니다.
데이터는 데이터 프레임에 들어 있기 때문에 거기서 어떻게든, 엔야코라합니다.
수수한 오랜만의 파이썬 타임. 곧 끝났지만.
import pandas as pd
import re
DF_samp=pd.DataFrame({'col_0': {'row_0': "おー大阪市", 'row_1': "おっ、大阪市aaa", 'row_2': "おっ、大阪市"},'col_1': {'row_0': 3, 'row_2': 4, 'row_3': 5},})
cols=DF_samp.col_0
cols0=cols.str.replace("[ぁ-ゟ][ぁ-ゟ][!-/:-@?[-`{-~。、~ー…\].+[町|村|市]$|[ぁ-ゟ][ぁ-ゟ!-/:-@?[-`{-~。、~ー…\].+[町|村|市]$", '')
DF_samp.col_0=cols0
DF_samp.dropna(subset=['col_0'])
이것으로 해당하는 수수께끼 문장만 구축할 수 있었습니다.
야타네.
거기의 대입 있나요라고 목소리가 들리는 생각이 듭니다만 긴 싫기 때문에…
그리고 지금
이것 BOT 담당자에게 보여지면 새로운 패턴이 올지도 모른다는 것을 알아차렸다…
그 때는 그 때입니다.
어쨌든 효율적으로 차단할 수있는 세상이되었다 ~ 있어!
뭐 트윗 수집하고 있는 것은 API이므로 이번의 이것은 블록 관계 없습니다만 네.
Reference
이 문제에 관하여(【python】정규 표현으로 데이트를 구축), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/wagahaiCAT/items/7c5bd3b9c4452579282b
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(【python】정규 표현으로 데이트를 구축), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/wagahaiCAT/items/7c5bd3b9c4452579282b텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)