拉勾网职位爬取及可视化

aside section._1OhGeD · · 1319 次点击 · · 开始浏览    
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

Github地址:https://github.com/JasonJe/memos/tree/master/jobs_data_analysis

爬取

爬取程序为crawl.py

直接运行即可进行爬取,python3 ./crawl.py

  • 说明:爬取的招聘网站为拉勾网,其职位详情页有反爬策略,即单个cookies不可连续获取2次详情页内容,这里使用代理请求首页来更新cookies,保证正常的详情页爬取。

数据可视化

可视化文档为data_analysis.ipynb

数据分析 & 可视化:

  • 职位关键词Top 10
职位关键词Top 10
  • HR活跃时间分布
HR活跃时间分布

通过分析HR的活跃时间,可以知道在大概早上09:00 ~ 11:00 和下午14:00 ~ 18:00这两个时间段进行简历投递会比较好。

  • 工作年限要求比例
工作年限要求比例

大部分企业需要的是工作经验为1 ~ 3年或者3 ~ 5年的求职者,其中需要工作经验3 ~ 5年的需求最大。

    • 平均月薪
平均月薪_工作年限

在工作年限要求的角度下,这里统计得到的平均最低薪酬:15978.65,平均最高薪酬:28998.44

可以看出,薪酬随着工作经验的增加也是水涨船高。

  1. 1 ~ 3年经验的求职者平均最低月薪为12k以上,最低平均最高月薪为20k以上;

  2. 3 ~ 5年经验的求职者平均最低月薪为16k以上,最低平均最高月薪为28k以上。

  • 学历要求比例
学历要求比例
    • 平均月薪
平均月薪_学历要求

在学历要求要求的角度下,这里统计得到的平均最低薪酬:16114.64,平均最高薪酬:29445.84

  • 公司规模比例
公司规模比例
  • 融资情况比例
公司规模比例
    • 融资情况与公司规模
融资情况与公司规模

这张图展现了不同融资阶段的公司规模。

  • 招聘地区分布
招聘地区分布

可以看出,主要的公司位置集中在南山福田宝安这三个区。

  • 技能词云
技能词云
  • 职位详情

这里对爬取到的职位描述进行了分词,提取其中出现的关键词,并做相关的统计。

    • 中文关键字Top 20
中文关键字Top 20

从上面的关键词Top20可以看出,所招聘的职位更加强调的是技能的把握、熟悉程度,以及工作经验、能力等。

    • 英文关键字Top 50
英文关键字Top 50

这张图大致展示了职位需要大概掌握的技能,职位更加强调数据库、缓存、Linux、网络TCPWeb等的掌握程度。

而就Python后端而言,有些职位可能不仅仅要求掌握Python这门语言,还会要求掌握JavaGolangC/C++等多门语言。


有疑问加站长微信联系(非本文作者)

本文来自:简书

感谢作者:aside section._1OhGeD

查看原文:拉勾网职位爬取及可视化

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

1319 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传