【根据北京理工大学嵩天老师“Python网络爬虫与信息提取”慕课课程编写 文章中部分图片来自老师PPT
慕课链接:https://www.icourse163.org/learn/BIT-1001870001?tid=1002236011#/learn/announce】
一、
Python 通过 xlwings 读取 Excel 数据
去年底公司让我做设备管理,多次委婉拒绝,最终还是做了。其实我比较喜欢技术。做管理后发现现场没有停机率统计,而原始数据有,每次要自己在Excel中填写数据,感觉特麻烦了,就写了这个自动化操作Excel的程序,以前要半天的工作量,用Python
python基础一
一,Python介绍
1,python的出生与应用
python的创始人为吉多·范罗苏姆(Guido van Rossum)。1989年的圣诞节期间,吉多·范罗苏姆(中文名字:龟叔)为了在阿姆斯特丹打发时间,决心开发一个新的脚本解释程序,作为ABC语言的一种继承。
天行健,君子以自强不息;地势坤,君子以厚德载物!
好了废话不多说,正式进入主题,前段时间应朋友的请求,爬取了某铝业网站上的数据。刚开始呢,还是挺不愿意的(主要是自己没有完整的爬取过网上的数据哎,即是不自信),但是在兄弟伙的面前不能丢脸卅,硬起头皮都要上,于是乎答应了他,好吧~~~~
我们的爬取目标
一,.接口类
1. 继承有两种用途
1>:继承基类的方法,并且做出自己的改变或者扩展(代码重用)
2>:声明某个子类兼容于某基类,定义一个接口类Interface,接口类中定义了一些接口
名(就是函数名)且并未实现接口的功能,子类继承接口类,并且实现接口中
变量
变量是为了存储和程序运算过程中的一些中间结果 方便以后调用
(变量命名规则)
1. 要具有描述性2.变量名只能_和数字,字母组成3.不以中文 为命名4.不能以数字开头5.保留字符不能被使用
常量 常量名全部大写代表是常量
实验作业#print("hello,world")
#x=41#y=
1、朴素贝叶斯实现新闻分类的步骤
(1)提供文本文件,即数据集下载
(2)准备数据
将数据集划分为训练集和测试集;使用jieba模块进行分词,词频统计,停用词过滤,文本特征提取,将文本数据向量化
停用词文本stopwords_cn.txt下载
j
基于 http://www.cnblogs.com/ctztake/p/8419059.html
当用发出请求时 首先执行dispatch函数,当执行当第二部时:
#2.处理版本信息 处理认证信息 处理权限信息 对用户的访问频率进行限制
self.initi
Random 在 Python 中的使用方法:
1.random.random():
会随机生成0-1之间的小数
例如:
2.random.uniform(min,max):
会随机生成 min - max 之间的小数,其中min 和 max 的位置可以互换而不会报错:
3.random
Selenium是一个用于测试网站的自动化测试工具,爬虫中也经常用到,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。
自WebDriver 3.0 之后,Selenium不再提供默认的浏览器支持。换言之,不再默认地支持
math模块
math模块用于数学意义上的一些计算,常用的方法有:
math.pi:PI的值(3.141592653589793)。
math.floor(x):返回一个小于等于x的最大整数(浮点类型),x可以是整数,也可以是小数,比如math.floor(1.001)返回1.0。
math.c
报数序列是指一个整数序列,按照其中的整数的顺序进行报数,得到下一个数。其前五项如下:
1. 1
2. 11
3. 21
4. 1211
5. 111221
1 被读作 "one 1" ("一个一") , 即 11。11 被读作 "two 1s" ("两
项目:爬取房天下网站全国所有城市的新房和二手房信息
网站url分析
1.获取所有城市url
http://www.fang.com/SoufunFamily.htm
例如:http://cq.fang.com/
Celery
什么是Celery?
Celery是一种简单/高效/灵活的即插即用的分布式任务队列.
Celery应用场景?
需要异步处理的任务,发邮件/发短信/上传等耗时的操作.最终到达提升用户体验的目的.
Celery的模式
Celery主要是由Broker(中间人)和Worker(任务处理者)组
Demo: hello_pycharm
根目录文件:hello_pycharm [__init__.py __pycache__ settings.py urls.py wsgi.py]
App:hello [admin.py apps.py __init__.py migratio
GIL应该是面试的一个常考题,什么是GIL?
GIL的全程是Global Interpre Lock(全局解释器锁)。
不是Python中有GIL,而是CPython中有全局解释器锁。(JPython中没有GIL)
GIL是一个互斥锁,CPython在执行多线程的时候并不是线安全的,为了程序的安
计算机技术的演进过程
1946-1981年 计算机系统结构时代(35年) 解决计算机能力的问题
1981-2008年 网络和视窗时代(27年) 解决交互问题
2008-2016年 复杂信息系统时代(8年) 解决数据问题
2016- 人工智能时代 解决人
冒泡排序和选择排序
首先引用一下百度百科对于冒泡算法的定义:
冒泡排序算法的原理如下:
比较相邻的元素。如果第一个比第二个大,就交换他们两个。
对每一对相邻元素做同样的工作,从开始第一对到结尾的最后一对。在这一点,最后的元素应该会是最大的数。
针对所有的元素重复以上的步骤,除了最后
1. 终端打开.bash_profile文件
终端输入:open ~/.bash_profile
2. 打开.bash_profile文件后在内容最后添加
alias python="/Library/Frameworks/Python.framework/Versions/3.6/bin/p