目前使用Request+正则表达式,爬取猫眼电影top100的例子很多,就不再具体阐述过程! 完整代码github:https://github.com/connordb/Top-100 总结一下,容易出错的问题有:  1.没有加请求头,导致输出没有具体信息! headers={ "User-Agent": "Mozilla / 5.0(Windows NT 6.1) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 67..33…
#利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException import re import json from multiprocessing import Pool def get_one_page(url): try: #需要重置requests的headers,否则猫眼电影拒绝访问. headers = { "user-agent": 'Mozi…
今天是个值得纪念了日子,我终于在博客园上发表自己的第一篇博文了.作为一名刚刚开始学习python网络爬虫的爱好者,后期本人会定期发布自己学习过程中的经验与心得,希望各位技术大佬批评指正.以下是我自己做的一个小爬虫,用到了爬虫的基本知识requests库+正则表达式库,最后将爬取到的结果存入日志result.txt,推荐给刚刚开始学习的小白们,学不可以已,积土成山,风雨兴焉,希望我们共同进步! 1 #author: "xian" #date: 2018/5/2 import reques…
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构 可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.<dd>标签的结构(含有电影相关信息) 三.源代码 import requests import re import json from requests.exceptions import RequestException #获取页面源代码 def get_one_page(url,headers):…
""" 抓取猫眼电影TOP100 """ import re import time import requests from bs4 import BeautifulSoup class SpiderMaoyan(object): def __init__(self): # 通过分析URL可以发现, 猫眼电影TOP100页面是通过 offset + 10 来分页的 self.url = "http://maoyan.com/board…
使用request库和正则表达式爬取猫眼电影信息. 1.爬取目标 猫眼电影TOP100的电影名称,时间,评分,等信息,将结果以文件存储. 2.准备工作 安装request库. 3.代码实现 import json import requests from requests.exceptions import RequestException import re import time def get_one_page(url): try: headers = { 'User-Agent': 'M…
import requests import re import time def get_one_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0' # User-Agent可以在网上搜一下,很多 } response = requests.get(url, headers=headers) if response.stat…
抓取地址:http://maoyan.com/board/4 分析url分页规则:http://maoyan.com/board/4?offset=0 其中offset参数值为0到90 用到的库: PyQuery:html解析器,语法类似jquery fake_useragent;用于伪造头部浏览器信息,防爬虫屏蔽相关代码: import requests from requests.exceptions import RequestException from pyquery import P…
import requests import re import json import time from bs4 import BeautifulSoup from pyquery import PyQuery as pq from lxml import etree # 获取页面源码 def get_one_page(url): try: headers = { # 伪装请求头 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10…
最近复习功课,日常码农生活. import requests from requests.exceptions import RequestException import re import json from multiprocessing import Pool #requests.get()调用完记得抓异常 def get_one_page(url): try: response = requests.get(url) if response.status_code == 200: re…