Python基础:print & input & 变量 & 运算符 & Python数据类型 & 运算符与表达式
Python 基础 1
注释
单行注释
#我注释了一行
多行注释
字符串操作
一、输出重复字符串
print('smile'*6)
#输出6个smile
二、通过引索输出部分字符串
print('smile'[1:])
print('smile'[1:3])
#输出
#mile
#mi
#ims
此处与之前的列表切片规则相同。
三、用in检查
1 Python迭代器
迭代器是一个可以记住遍历的位置的对象。
迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。
迭代器只能往前不会后退。
迭代器有两个基本的方法:iter() 和 next(),且字符串、列表或元组对象都可用于创建迭代器,迭代器对象可以使用常规 for 语句进行遍
Chapter2 WHICH DNA PATTERNS PLAY THE ROLE OF MOLECULAR CLOCKS
寻找模序
一、
转录因子会结合基因上游的特定序列,调控基因的转录表达,但是在不同个体中,这个序列会有一些差别。本章讲述用贪婪、随机算法来寻找这个序列:寻找模序。
作用:
解耦:使程序直接实现松耦合,修改一个函数,不会有串联关系。
提高处理效率:FIFO = 现进先出,LIFO = 后入先出。
队列:
队列可以并发的派多个线程,对排列的线程处理,并切每个需要处理线程只需要将请求的数据放入队列容器的内存中,线程不需要等待,当排列完毕处理
本篇详细介绍 scrapy shell 的使用,也介绍了使用 xpath 进行精确查找
Python爬虫教程-33-scrapy shell 的使用
scrapy shell 的使用
条件:我们需要先在环境中,安装 scrapy 包,如果还没有安装,请参照:Python爬虫教程-30-Scrapy
本篇介绍项目开发的过程中,对 Setting 文件的配置和使用
Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍
settings.py 文件的使用
想要详细查看 settings.py文件的更多内容,可查看中文文档:
https://scrapy-chs.rea
本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细
Python爬虫教程-31-创建 Scrapy 爬虫框架项目
首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装
Anaconda 下载地址:https
从本篇开始学习 Scrapy 爬虫框架
Python爬虫教程-30-Scrapy 爬虫框架介绍
框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了
常见爬虫框架:
scrapy
pyspider
crawley
Scrapy 是一个为了爬取网站数据,提取结
本篇是关于验证码识别问题,也是Python爬虫笔记的一个结尾,使用 Tesseract
Python爬虫教程-29-验证码识别-Tesseract-OCR
常见反爬虫手段:
验证码
1.简单图片,扭曲数字验证码
2.中文顺序点击
3.动态验证码
4.滑动验证:滑动小方块到缺口
5.语音验证
6.极验
我觉得本篇是很有意思的,闲着没事来看看!
Python爬虫教程-28-Selenium 操纵 Chrome
PhantomJS 幽灵浏览器,无界面浏览器,不渲染页面。Selenium + PhantomJS 在之前是很完美的搭配。后来在 2017 年 Google 宣布 Chrome 也宣布支持不渲
我们使用Selenium+Chrome时,版本不一样, 会导致 chromedriver 停止运行chromedriver 所有版本下载链接:http://npm.taobao.org/mirrors/chromedriver/
请根据下面表格下载支持自己 Chrome 的版本
Selenium C
Python爬虫教程-26-Selenium + PhantomJS
动态前端页面 :
JavaScript:
JavaScript一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型。它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在
Python爬虫教程-25-数据提取-BeautifulSoup4(三)
本篇介绍 BeautifulSoup 中的 css 选择器
css 选择器
使用 soup.select 返回一个列表
通过标签名称:soup.select("title")
通过类名:soup.select(".centen
Python爬虫教程-24-数据提取-BeautifulSoup4(二)
本篇介绍 bs 如何遍历一个文档对象
遍历文档对象
contents:tag 的子节点以列表的方式输出
children:子节点以迭代器形式返回
descendants:所有子孙节点
string:用string打印出标签的具
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据,查看文档https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
Python爬虫教程-23-数据提取-BeautifulSoup4(一)
Beautiful
Python爬虫教程-22-lxml-etree和xpath配合使用
lxml:python 的HTML/XML的解析器
官网文档:https://lxml.de/
使用前,需要安装安 lxml 包
功能:
1.解析HTML:使用 etree.HTML(text) 将字符串格式的 html 片段解析
本篇简单介绍 xpath 在python爬虫方面的使用,想要具体学习 xpath 可以到 w3school 查看 xpath 文档
xpath文档:http://www.w3school.com.cn/xpath/index.asp
Python爬虫教程-21-xpath
什么是 XPath?
XP
本篇简单介绍 xml 在python爬虫方面的使用,想要具体学习 xml 可以到 w3school 查看 xml 文档
xml 文档链接:http://www.w3school.com.cn/xmldom/xmldom_reference.asp
Python爬虫教程-20-xml简介
XML(Ex
本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式
Python爬虫教程-19-数据提取-正则表达式(re)
正则表达式:一套规则,可以在字符串文本中进行搜查替换等
正则使用步骤:
1.使用 compile 函数将正则表