本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding:utf-8from com.wenhy.crawler_baidu_baike import url_manager, html_downloader, html_parser, html_outputerprint "爬虫百度百科调度入口"# 创建爬虫类class SpiderMain(…
在python 中,主要的常用数据类型有列表,元组,字典,集合,字符串.对于这些基础知识,应该要能够足够熟练掌握. 如何创建列表: # 创建一个空列表:定义一个变量,然后在等号右边放一个中括号,就创建了一个空列表. a1=[] # 创建一个有元素的列表:定义一个变量,然后在中括号中放入元素. #元素是什么样的不规定,但如果是字符或则字符串等,需要加英文的引号,双引号也行,如果是数字,就不用引号. # 注意:所有的标点符号一定是英文状态下的. a2=['a','b','abc',1,2,'abc1…
# coding=utf-8 from selenium import webdriver driver = webdriver.Firefox() driver.maximize_window () driver.get("https://www.baidu.com") try: driver.find_element_by_id("kwf") print("id is find") except Exception as e: print(&…
字符串是python中使用频率很高的一种数据类型,内置方法也是超级多,对于常用的方法,还是要注意掌握的. #author: Administrator #date: 2018/10/20 # python3 '''字符串的内置方法''' '''字符串的这些方法很重要''' st='hello kitty {name} is {age}' #创建一个字符串. print(st.count('{')) #计数 print(st.capitalize()) #把字符串的第一个字母大写,整个字符串的首字…
集合内容简介: set 一: 集合简介 集合set集合是python的一个基本数据类型.一般不是很常用set.中的元素是不重复的.无序的.里里面的元素必须是可hash的tuple,bool),str,(int,我们可以这样来记set.就是dict类型的数据但是不保存value,只保存setkey.也用表示{}…
这里举个例子讲解,同步synchronized在什么地方加,以及同步的前提: * 1.必须要有两个以上的线程,才需要同步. * 2.必须是多个线程使用同一个锁. * 3.必须保证同步中只能有一个线程在运行,锁加在哪一块代码 那么我们要思考的地方有:1.知道我们写的哪些是多线程代码 2.明确共享数据 3.明确多线程运行的代码中哪些语句是操作共享数据的.. 4.要确保多个线程使用同一个锁. 下面的代码:需求:两个存户分别往银行存钱,每次村100块,分三次存完.  第一种写法:使用同步代码块的方式 c…
元组与列表的方法基本一样,只不过创建元组是用小括号()把元素括起来,两者的区别在于,元组的元素不可被修改. 元组被称为只读列表,即数据可以被查询,但不能被修改,列表的切片操作适用于元组. 元组写在小括号里,元素之间用逗号隔开. Tup1=();               空元组 Tup2=(12,);         元组只有一个元素时,后面最好加一个逗号. 当修改元素时: # 元组不能被修改,只能查询 a=(1,2,3,4,3) a[2]=5 # b=a.index(3) print(a)…
1.声明变量 # 声明一个变量name用来存储一个字符串'apollo' name = 'apollo' # 声明一个变量age用来存储一个数字20 age = 20 # 在控制台打印变量name中存储的字符串和变量age中存储的数字 # 打印结果:apollo 20 print(name,age) # 在控制台打印字符串"name"和"age" print('name','age') # 打印结果:name age 2.控制台交互 username = input…
一.字典 字典是一组键-值对的数据结构.每个键对应一个值.在字典中,键不能重复.根据键可以查询到值.字典是键和值的映射关系 字典的定义: 字典通过花括号中用逗号分隔的元素(键-值.键-值对使用冒号分隔),格式如下: {键1:值1,[键2:值2,...,键n:值n]} # 值可以为任意对象.字典中的键是唯一的,不能重复. 字典也可以通过创建dict对象来创建,格式如下: # 创建一个空字典 dict() # 使用关键字参数,创建一个新的字典 dict(**kwargs) # 从一个字典对象创建一个…
开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful Soup的过程,第一篇是Beautiful Soup基础知识,后两篇利用前边的Beautiful Soup知识完成一个简单的爬虫,抓取allitebook.com的书籍信息和ISBN码,再根据ISBN码去amazon.com抓取书籍对应的价格. 一.Beautiful Soup简介 网络数据挖掘指…