python爬虫爬取大众点评店铺简介信息

712 0 0

作者:鬼骨子

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！
QQ群：961562169

写作目的：

今天帮朋友一个忙，要爬取一些大众点评上的数据。结果发现大众点评的防爬机制还挺多的，记录一下自己踩的坑。

爬取目标

主要是通过分类和地区爬取店铺简介中的名称，地址，人均价格，各种评价分数和评价数

大众点评的保护机制

主要有两点
1.源码里加入了css反爬机制，主要是字体加密
2.对IP地址的限制，程序自动爬取大概十几页会断一下，目测应该是大众限制了一段时间内单IP访问量不能突破某一阈值。不过因为是爬取简介页面，所以手动验证一下也可以，没有像爬具体页面那样的封IP，有条件的也可以用IP池换IP访问。

应对方法

破解css加密机制参考了 Python爬虫如何破解css加密
根据这篇文章建立字典后，对源码中的加密字符进行替换，然后通过正则匹配得到自己想要的部分



	tree=etree.HTML(rep)
    li_list=tree.xpath('//div[@class="content"]/div/ul/li')
    for li in li_list:
        title = li.xpath('.//div[@class="tit"]/a/h4/text()')[0]
        tag = li.xpath('string(.//div[@class="tag-addr"]/a/span)')
        score = li.xpath(
            'string(.//div[@class="star_score score_50  star_score_sml"]/text()|.//div[@class="star_score score_40  star_score_sml"]/text()|.//div[@class="star_score score_45  star_score_sml"]/text())')
        comments = li.xpath('string(.//div[@class="comment"]/a[@class="review-num"]/b)')
        prize = li.xpath('string(.//div[@class="comment"]/a[@class="mean-price"]/b)')
        address = li.xpath('string(.//div[@class="tag-addr"]/a[@data-click-name="shop_tag_region_click"]/span)')
        localaddress = li.xpath('string(.//div[@class="tag-addr"]/span)')
        flavor = li.xpath('string(.//div[@class="txt"]/span[@class="comment-list"]/span[position()=1])')
        environment = li.xpath('string(.//div[@class="txt"]/span[@class="comment-list"]/span[position()=2])')
        service = li.xpath('string(.//div[@class="txt"]/span[@class="comment-list"]/span[position()=3])')
        print(title, tag, score, comments, prize, address, localaddress, flavor, environment, service)
        with open('大众广州日料.csv', 'a', encoding='utf-8-sig', newline='') as f:
            writer = csv.writer(f, dialect='excel')
            writer.writerow([title, tag, score, comments, prize, address, localaddress, flavor, environment, service])

得到的结果

还存在的问题

woff 文件里有的文字数据和顺序都一样，但每个字对应的unicode 码不一样，所以用直接建立的字典会有些错误，想办法完善一下再放出完整代码。

内容来源于网络如有侵权请私信删除

文章来源: 博客园

原文链接: https://www.cnblogs.com/41280a/p/13730018.html

标签： Python Python开发 Python语言

你还没有登录，请先登录或注册！

还没有人评论，欢迎说说您的想法！

python爬虫爬取大众点评店铺简介信息

python爬虫爬取大众点评店铺简介信息

写作目的：

爬取目标

大众点评的保护机制

应对方法

还存在的问题

相关课程

热门标签

python爬虫爬取大众点评店铺简介信息

python爬虫爬取大众点评店铺简介信息

写作目的：

爬取目标

大众点评的保护机制

应对方法

还存在的问题

相关课程

热门标签

推荐文章