Python爬虫与Web开发常用库汇总 学python培训

lnh2017 · · 547 次点击 · 开始浏览    置顶
这是一个创建于 的主题,其中的信息可能已经有所发展或是发生改变。
Python爬虫和Web开发均是与网页相关的知识技能,无论是自己搭建的网站还是爬虫爬去别人的网站,都离不开相应的Python库,以下是常用的Python爬虫与Web开发库。 **1.爬虫库** beautifulsoup4、urllib2、lxml和requests是学习Python爬虫必备的库,必须要掌握,当然有的同学说爬网页不是也可以用正则表达式吗,确实可以但是会很不方便,因为bs4和lxml都有便捷的接口,一般我们都是和正则结合使用,如果对速度有要求的话,建议用lmxp,它比bs4 速度要快很多。 **2.Scrapy** 爬虫的世界里面有没有懒人专用的框架,当然有啦,scrapy就是其中比较有名的,可以快速,高层次的web抓取网页,并从web站点的页面中提取结构化的数据 Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。最爽的就是它是一个框架,任何人都可以根据需求方便的修改,里面有很多类型爬虫的基类,如BaseSpider、sitemap爬虫等 **3.Web框架** Django算是Python web框架里重量级的选手,主要是因为它提供了一站式的解决方案,包括缓存、ORM、后台管理、验证和表单等,使得开发复杂的数据库驱动的网站变的很简单,而且有非常齐备的官方文档。 Flask设计的理念跟Django完全相反,它是轻量级Web应用框架的代表。它只保留核心的功能,其他的功能都是可以变动,可以扩展的,你可以更加直接的需求灵活搭配。 Tornado全称叫Tornado Web Server,目前是Facebook开源的一个版本,它和其他主流的框架有一个非常明显的区别:就是非阻塞式服务器,速度非常快。特别对于长轮询,WebSocket等实时要求高的web服务来说是一个福音,基本可以和Node.js一决高下。 以上是常用的Python爬虫与Web开发库,想要深入了解,请与老男孩教育联系,老男孩教育Python全栈开发课程体系健全,内容完善,思路清晰,能够让学员轻松学到高深Python技能。 【老男孩Python培训www.oldboyedu.com 18500150262】

入群交流(和以上内容无关):Go中文网 QQ 交流群:798786647 或加微信入微信群:274768166 备注:入群;关注公众号:Go语言中文网

547 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传