从某些网站看小说的时候经常出现垃圾广告,一气之下写个爬虫,把小说链接抓取下来保存到txt,用requests_html全部搞定,代码简单,容易上手. 中间遇到最大的问题就是编码问题,第一抓取下来的小说内容保持到txt时出现乱码,第二url编码问题,第三UnicodeEncodeError 先贴源代码,后边再把思路还有遇到的问题详细说明. from requests_html import HTMLSession as hs def get_story(url): global f session
1. from urllib.request import urlopen from urllib import request from bs4 import BeautifulSoup from urllib.request import urlretrieve from selenium import webdriver import socket import time,re from docx import Document from docx.oxml.ns import qn de