Python爬虫实战丨高能预警,抖音小姐姐视频集来了!

长情且温柔 · · 3459 次点击 · · 开始浏览    
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

前言

前方高能预警!抖音小姐姐视频集来了!

总感觉抖音小姐姐连一个手势都能擦出不一样的火花,她们有一千种模样,我就有一万种喜欢,没有看够怎么办?!

如果你感觉学不会?莫慌,小编推荐大家加入群,

前面960中间410后面445,群里有志同道合的小伙伴,

互帮互助,还可以拿到许多视频教程!

双十二福利来了!这次Python爬虫实战篇,爬的就是当下大火的抖音小姐姐视频。问我pick哪位小姐姐,当然是唱歌老跑调,跳舞数拍子的杨超越了。

本文主要讲解:

抖音视频爬虫

视频下载

抖音视频爬虫

抖音使用的智能推荐机制。我们这里依旧是通过fiddler抓包(Fiddler是一款常见的抓包分析工具,对数据进行截获、重发、编辑、转存的过程叫做抓包)。现在的抖音有加密算法,之前网上的大部分代码都不能用了,我们先看看有哪些加密字段。

https:

//aweme.snssdk.com/aweme/v1/aweme/post/?iid=40337863888&device_id=35102252294&os_api=18&app_name=aweme&channel=App%20Store&idfa=11926ED5-C282-4BBC-AF01-0E8C18120647&device_platform=iphone&build_number=23101&vid=177A5A79-D6F6-4A03-9352-57C0681CDDDC&openudid=1ee725d39e05794bcdc14537f8c1f4220c7d6fd5&device_type=iPhone8,1&app_version=2.3.1&version_code=2.3.1&os_version=11.4.1&screen_width=750&aid=1128&ac=WIFI&count=21&max_cursor=0&min_cursor=0&user_id=58554069260&mas=01bf537030d65155897d6fd1d7c97862dbca9722fea8c96d2b68de&as=a1858817de104b87435065&ts=1534297870

这里主要是mas和as参数不知道咋构造,这里因为只是爬一个用户的数据,所以把整个url都copy到txt中,然后请求获取数据。

视频下载

在网上看说,这个链接只有10多分钟的有效期(没有验证),所以爬虫先把视频链接先保存下来,然后再统一下载。

哈哈哈,当爬虫撞见小姐姐,你的样子我都有啦!

爬虫基础知识

那么一般学习爬虫要学习到哪种程度呢?

(必要部分)

语言选择:一般是了解Python、Java、Golang之一

熟悉多线程编程、网络编程、HTTP协议相关

开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到)

反爬相关,cookie、ip池、验证码等等

熟练使用分布式

(非必要,建议)

了解消息队列,如RabbitMQ、Kafka、Redis等

具有数据挖掘、自然语言处理、信息检索、机器学习经验

熟悉APP数据采集、中间人代理

大数据处理(Hive/MR/Spark/Storm)

数据库Mysql,redis,mongdb

熟悉Git操作、linux环境开发

读懂js代码,这个真的很重要


有疑问加站长微信联系(非本文作者)

本文来自:简书

感谢作者:长情且温柔

查看原文:Python爬虫实战丨高能预警,抖音小姐姐视频集来了!

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

3459 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传