python 爬取豆瓣电影评论，并进行词云展示

315 0 0

作者:fengxi177

python 爬取豆瓣电影评论，并进行词云展示

本文旨在提供爬取豆瓣电影《我不是药神》评论和词云展示的代码样例

1、分析URL
2、爬取前10页评论
3、进行词云展示

1、分析URL

我不是药神短评
第一页url
https://movie.douban.com/subject/26752088/comments?start=0&limit=20&sort=new_score&status=P
第二页url
https://movie.douban.com/subject/26752088/comments?start=20&limit=20&sort=new_score&status=P
…
…
…
第十页url
https://movie.douban.com/subject/26752088/comments?start=180&limit=20&sort=new_score&status=P
分析发现每次变化的只是…strat=后面的数字，其他内容不变，可以以此遍历每一页的评论。

2、爬取前10页评论

# -*-coding:utf-8-*-
import urllib.request
from bs4 import BeautifulSoup


def getHtml(url):
    """获取url页面"""
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
    req = urllib.request.Request(url,headers=headers)
    req = urllib.request.urlopen(req)
    content = req.read().decode('utf-8')

    return content


def getComment(url):
    """解析HTML页面"""
    html = getHtml(url)
    soupComment = BeautifulSoup(html, 'html.parser')

    comments = soupComment.findAll('span', 'short')
    onePageComments = []
    for comment in comments:
        # print(comment.getText()+'n')
        onePageComments.append(comment.getText()+'n')

    return onePageComments


if __name__ == '__main__':
    f = open('我不是药神page10.txt', 'w', encoding='utf-8') 
    for page in range(10):  # 豆瓣爬取多页评论需要验证。
        url = 'https://movie.douban.com/subject/26752088/comments?start=' + str(20*page) + '&limit=20&sort=new_score&status=P'
        print('第%s页的评论:' % (page+1))
        print(url + 'n')

        for i in getComment(url):
            f.write(i)
            print(i)
        print('n')

特别的，爬取更多评论需要模拟登陆。

3、进行词云展示

#-*-coding:utf-8-*-

import matplotlib.pyplot as plt
from wordcloud import WordCloud
from scipy.misc import imread
import jieba

text = open("我不是药神page10.txt","rb").read()
#结巴分词
wordlist = jieba.cut(text,cut_all=True)
wl = " ".join(wordlist)
#print(wl)#输出分词之后的txt


#把分词后的txt写入文本文件
#fenciTxt  = open("fenciHou.txt","w+")
#fenciTxt.writelines(wl)
#fenciTxt.close()


#设置词云
wc = WordCloud(background_color = "white", #设置背景颜色
               mask = imread('shen.jpg'),  #设置背景图片
               max_words = 2000, #设置最大显示的字数
               stopwords = ["的", "这种", "这样", "还是", "就是", "这个"], #设置停用词
               font_path = "C:WindowsFontssimkai.ttf",  # 设置为楷体 常规
        #设置中文字体，使得词云可以显示（词云默认字体是“DroidSansMono.ttf字体库”，不支持中文）
               max_font_size = 60,  #设置字体最大值
               random_state = 30, #设置有多少种随机生成状态，即有多少种配色方案
    )
myword = wc.generate(wl)#生成词云
wc.to_file('result.jpg')

#展示词云图
plt.imshow(myword)
plt.axis("off")
plt.show()

词云图如下

这里写图片描述

内容来源于网络如有侵权请私信删除

文章来源: 博客园

原文链接: https://www.cnblogs.com/fengxi177/p/16939376.html

标签： AI 人工智能

你还没有登录，请先登录或注册！

还没有人评论，欢迎说说您的想法！

python 爬取豆瓣电影评论，并进行词云展示

python 爬取豆瓣电影评论，并进行词云展示

python 爬取豆瓣电影评论，并进行词云展示

本文旨在提供爬取豆瓣电影《我不是药神》评论和词云展示的代码样例

1、分析URL

2、爬取前10页评论

特别的，爬取更多评论需要模拟登陆。

3、进行词云展示

词云图如下

相关课程

热门标签

python 爬取豆瓣电影评论，并进行词云展示

python 爬取豆瓣电影评论，并进行词云展示

python 爬取豆瓣电影评论，并进行词云展示

本文旨在提供爬取豆瓣电影《我不是药神》评论和词云展示的代码样例

1、分析URL

2、爬取前10页评论

特别的，爬取更多评论需要模拟登陆。

3、进行词云展示

词云图如下

相关课程

热门标签

推荐文章