Python爬虫学习笔记之爬取新浪微博

【Python爬虫学习笔记之爬取新浪微博】的更多相关文章

Python爬虫学习笔记之爬取新浪微博

import requests from urllib.parse import urlencode from pyquery import PyQuery as pq from pymongo import MongoClient base_url = 'https://m.weibo.cn/api/container/getIndex?' headers = { 'Host': 'm.weibo.cn', 'Referer': 'https://m.weibo.cn/u/2803301701…

python爬虫学习01--电子书爬取

python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': #主函数入口 target = 'https://www.xsbiquge.com/78_78513/108078.html'#要爬取的目标地址 req = requests.get(url=target) #进行get请求 req.encoding='utf-8' #设置编码 print(req.…

Python爬虫学习之正则表达式爬取个人博客

实例需求:运用python语言爬取http://www.eastmountyxz.com/个人博客的基本信息,包括网页标题,网页所有图片的url,网页文章的url.标题以及摘要. 实例环境:python3.7 requests库(内置的python库,无需手动安装) re库(内置的python库,无需手动安装) 实例网站: 第一步,点击网站地址http://www.eastmountyxz.com/,查看页面有哪些信息,网页标题.图片以及摘要等第二步,查看网页源代码,即可看到想要爬…

Python爬虫学习笔记之抓取猫眼的排行榜

代码: import json import requests from requests.exceptions import RequestException import re import time def get_one_page(url): try: headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrom…

Python爬虫学习笔记之爬今日头条的街拍图片

代码: import requests import os from hashlib import md5 from urllib.parse import urlencode from multiprocessing.pool import Pool GROUP_START = 1 GROUP_END = 5 def get_page(offset): params = { 'offset': offset, 'format': 'json', 'keyword': '街拍', 'autolo…