一.下载页面并处理 二.提取数据 观察该网站 html 结构 可知该页面下所有电影包含在 ol 标签下.每个 li 标签包含单个电影的内容. 使用 XPath 语句获取该 ol 标签 在 ol 标签中遍历每个 li 标签获取单个电影的信息. 以电影名字为例 其余部分详见源码 三.页面跳转 检查"后页"标签.跳转到下一页面 返回 None 则已获取所有页面. 四.导入 CSV 创建 CSV 文件 其余部分详见源码 五.导入数据库(以 mysql 为例) 先在 mysql 中创建数据库与…
from bs4 import BeautifulSoupimport urllib2import urllibimport lxmlimport os def get_imgs(): image_couter = 1 for i in range(1,20): url='http://www.tu11.com/xingganmeinvxiezhen/list_1_'+str(i)+".html" req=urllib2.Request(url) res=urllib2.urlopen…