Python 이 어떤 짧 은 동 영상 을 얻 었 습 니 다.

1.목표 잡기
대상 사이트:영상 을 찍다
在这里插入图片描述
2.도구 사용
개발 환경:win 10,python 3.7
개발 도구:pycharm,Chrome
공구 꾸러미:requests,xpath,base 64
3.중점 학습 내용
파충류 채집 데이터 분석 과정
js 코드 디 버 깅 기술
js 역방향 분석 코드
Python 코드 변환
4.프로젝트 사고 분석
홈 페이지
관심 있 는 분 류 를 고 르 세 요.
홈 페이지 주소 에 따라 자세 한 페이지 에 들 어 가 는 하이퍼링크 의 점프 주 소 를 가 져 옵 니 다.
在这里插入图片描述
암호 화 된 비디오 재생 주소 데 이 터 를 찾 습 니 다.
在这里插入图片描述
이 데 이 터 는 정적 웹 데이터 로 js 코드 를 통 해 디 코딩 되 었 습 니 다.
대응 하 는 분석 코드 찾기
동 영상 재생 주 소 를 먼저 찾 으 세 요.
비디오 주 소 를 분석 하 는 암호 화 js 파일 찾기
재생 을 누 르 면 파일 이 실 행 됩 니 다.
在这里插入图片描述
대충 알 수 있 듯 이 base 64 암호 화 된 데이터 입 니 다.
대응 하 는 js 파일 에서 키 워드 를 검색 합 니 다.
js 암호 화 방식 찾기
在这里插入图片描述
js 함수 의 일부 함수 용법

# eplace()                     
    # parseInt           
    # base64.atob    base64           
    # substring             start             

在这里插入图片描述
js 코드 를 Python 코드 로 변환

import base64

def decode(data):
    def getHex(a):
        return {
            'str': a[4:],
            'hex': ''.join(list(a[:4])[::-1]),
        }

    def getDec(a):
        b = str(int(a, 16))
        return {
            'pre': list(b[:2]),
            'tail': list(b[2:]),
        }

    def substr(a, b):
        c = a[0: int(b[0])]
        d = a[int(b[0]): int(b[0]) + int(b[1])]
        return c + a[int(b[0]):].replace(d, "")

    def getPos(a, b):
        b[0] = len(a) - int(b[0]) - int(b[1])
        return b

    b = getHex(data)
    c = getDec(b['hex'])
    d = substr(b['str'], c['pre'])
    return base64.b64decode(substr(d, getPos(d, c['tail'])))

print(decode("e121Ly9tBrI84RdnZpZGVvMTAubWVpdHVkYXRhLmNvbS82MGJjZDcwNTE3NGZieXBueG5udnRwMTA5N19IMjY0XzFfNWY3YThmM2U0MTEwNy5tc2JVjAu3EDQ="))

최종 영상 재생 주소 나 오기
在这里插入图片描述
在这里插入图片描述
5.간단 한 소스 코드 공유

import requests
from lxml import etree
import base64

def decode_mp4(data):
    def getHex(a):
        return {
            'str': a[4:],
            'hex': ''.join(list(a[:4])[::-1]),
        }

    def getDec(a):
        b = str(int(a, 16))
        return {
            'pre': list(b[:2]),
            'tail': list(b[2:]),
        }

    def substr(a, b):
        c = a[0: int(b[0])]
        d = a[int(b[0]): int(b[0]) + int(b[1])]
        return c + a[int(b[0]):].replace(d, "")

    def getPos(a, b):
        b[0] = len(a) - int(b[0]) - int(b[1])
        return b

    b = getHex(data)
    c = getDec(b['hex'])
    d = substr(b['str'], c['pre'])
    return base64.b64decode(substr(d, getPos(d, c['tail'])))
#      
def main():
    url = 'https://www.meipai.com'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',
    }
    response = requests.get(url=url, headers=headers)
    html_data = etree.HTML(response.text)
    href_list = html_data.xpath('//div/a/@href')
    # print(href_list)
    for href in href_list:
        res = requests.get('https://www.meipai.com' + href, headers=headers)
        html = etree.HTML(res.text)
        name = html.xpath('//div[@id="detailVideo"]/img/@alt')[0]
        mp4_data = html.xpath('//div[@id="detailVideo"]/@data-video')[0]
        # print(name, mp4_data)
        mp4_url = decode_mp4(mp4_data).decode('utf-8')
        print(mp4_url)
        result = requests.get("http:" + mp4_url)
        with open(name + ".mp4", 'wb') as f:
            f.write(result.content)
            f.close()


if __name__ == '__main__':
    main()
파 이 썬 이 어떤 짧 은 동 영상 을 얻 었 는 지 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.더 많은 파 이 썬 이 동 영상 을 얻 었 는 지 에 관 한 내용 은 예전 의 글 을 검색 하거나 아래 의 관련 글 을 계속 읽 어 보 세 요.앞으로 많은 응원 부 탁 드 리 겠 습 니 다!

좋은 웹페이지 즐겨찾기