这个。。是我最近想找实习单位。。结果发现boss上很多实习单位名字就叫‘实习生’。。。。。。。太不讲究了 == 难怪一直搜不到。。咳,其实是我自己水平有限,有些简历根本就投不出去 ==
所以就想爬下boss杭州地区有实习生关键词的所有职位,然后在职位详情里面搜索‘python’或者‘爬虫’。。。。
然后小白开始动手了。。。
首先写item 名字。。公司。。内容。。url
再接着去写爬虫 通过xpath 分析列表页的详情页url 再通过url进入详情页分析数据 (泪流满面。这过程居然没动态加载的数据。。。)
下一页的url我是通过获取最后一个a标签拿到的 再如果有下一页,就继续爬
至于这个反爬机制 我不仅在settings里设置了下载器延迟 爬虫里面也弄了time.sleep 。。。穷学生买不起代理啊。。。。。好了。。就是慢慢爬。。。。
数据直接导入了mysql mysql代码是早写好的异步代码,当然对于这个龟速爬取(安全),异步同步没区别。。
然后就没然后了 。。。。 小白思路描述完毕
爬完以后发现也只有10页。。。。。懵逼 = =
内容来源于网络如有侵权请私信删除
- 还没有人评论,欢迎说说您的想法!