你正在学习编程,那么“爬虫”绝对是你不可忽视的。那么,学习python爬虫之前需要哪些准备?
一颗热爱学习,不屈不挠的心
一台有键盘的电脑(什么系统都行。我用的os x,所以例子会以这个为准)
html相关的一些知识。不需要精通,能懂一点就行
python的基础语法知识 。
当这些你都具备了,这个时候你需要学习:
0.基本的爬虫工作原理
1.基本的http抓取工具:scrapy
2.bloom filter: bloom filters by example
3.如果需要大规模网页抓取,你需要学习分布式爬虫的概念。简单来说,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq
4.rq和scrapy的结合:darkrho/scrapy-redis · github
5.后续处理:网页析取(grangier/python-goose · github),存储(mongodb)
python的火,很大原因就是各种好用的模块,这些模块是居家旅行爬网站常备的——
no.1 f12 开发者工具
看源代码:快速定位元素
分析xpath:1、此处建议谷歌系浏览器,可以在源码界面直接右键看
no.2 抓包工具
推荐httpfox,火狐浏览器下的插件,比谷歌火狐系自带的f12工具都要好,可以方便查看网站收包发包的信息
no.3 xpath checker (火狐插件)
非常不错的xpath测试工具,不过也有几个小缺点,:
xpath checker生成的是绝对路径,遇到一些动态生成的图标(常见的有列表翻页按钮等),飘忽不定的绝对路径很有可能造成错误,所以这里建议在真正分析的时候,只是作为参考
记得把如下图xpath框里的“x:”去掉,貌似这个是早期版本xpath的语法,目前已经和一些模块不兼容(比如scrapy),还是删去避免报错。
no.4 正则表达测试工具
在线正则表达式测试 ,拿来多练练手,也辅助分析!里面有很多现成的正则表达式可以用,也可以进行参考!
iGameRTX2070SUPERVulcanXOC显卡评测 在预超频的模式下甚至部分游戏的性能超过RTX2080
搭载高通骁龙855旗舰平台的红米旗舰即将登场
巍泰技术轨道交通列车测速雷达解决方案
四花样彩灯控制器
5G时代中兴能回归主流手机品牌的队列吗?
初学者写Python爬虫的四大工具
5v电压转化为220v逆变器设计方法
莱特币分叉的数字货币“莱特易LTE”介绍
Fairchild FLS3247 10W离线LED驱动解决方案
2020年全国行业职业技能大赛人工智能应用技术技能大赛 天津大有收获
检测非洲猪瘟的仪器设备都有哪些
浅谈EMC的共模干扰与差模干扰
什么是FID/FIFO/FFT
小米6和荣耀9哪个好?小米6和荣耀9,性能派谁最快?
NB-IoT下的消防栓压力监测系统的特点和优势
看了这个,我的电源选择困难症好了!
二极管双t型电路特点
Fluke 50Ⅱ系列新型测温表的特点及性能分析
关于智能座舱中RTC应用介绍
为什么会突然出现IP冲突呢?