Python写一个简单的爬虫

爬取的目标网站：

https://beijing.anjuke.com/sale/?pi=baidu-cpc-bj-tyong1&kwid=2341817153&utm_term=%e6%89%be%e6%88%bf&bd_vid=9128294385511928514

code

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import requests

from lxml import etree

class Main:

    def __init__(self):

        self.headers = {

            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',

        }

        self.url = "https://beijing.anjuke.com/sale/?pi=baidu-cpc-bj-tyong1&kwid=2341817153&utm_term=%e6%89%be%e6%88%bf&bd_vid=9128294385511928514"

    def lord(self):

        response = requests.get(url=self.url, headers=self.headers).text

        tree = etree.HTML(response)

        # 将页面源码数据中的房子的名称和价格进行爬取

        li_list = tree.xpath('//ul[@class="houselist-mod houselist-mod-new"]/li')

        # 将li标签表示的局部页面内容指定数据进行解析

        for li in li_list:

            title = li.xpath('./div[2]/div[1]/a/text()')[0].strip()

            describe = li.xpath('./div[2]/div[2]/span/text()')

            site = li.xpath('./div[2]/div[3]/span/text()')[0].split()[1]

            price = li.xpath('./div[3]/span[1]/strong/text()')

            print('标题：{}\n描述：{}\n地点：{}\n价格{}万\n'.format(title, describe, site, price))

            with open('date.txt','a+',encoding='utf-8') as f1:

                f1.write('标题：{}\n描述：{}\n地点：{}\n价格{}万\n\n'.format(title, describe, site, price))

                f1.close()

if __name__ == '__main__':

    obj = Main()

    obj.lord()

输出结果

Python写一个简单的爬虫的更多相关文章

用node.js从零开始去写一个简单的爬虫
如果你不会Python语言,正好又是一个node.js小白,看完这篇文章之后,一定会觉得受益匪浅,感受到自己又新get到了一门技能,如何用node.js从零开始去写一个简单的爬虫,十分钟时间就能搞定, ...
用Python写一个简单的Web框架
一.概述二.从demo_app开始三.WSGI中的application 四.区分URL 五.重构 1.正则匹配URL 2.DRY 3.抽象出框架六.参考一.概述在Python中,WSGI( ...
python写一个简单的CMS识别
前言: 收集了一点cms路径,打算在写一个.之前已经写了有需要的可以自己翻我的博客思路: 网站添加路径判断是否为200,并且无过滤列表中的字符代码: import requests import ...
利用python写一个简单的小爬虫爬虫日记（1）（好好学习）
打开py的IDLE >>>import urllib.request >>>a=urllib.request.urlopen("http://www.ba ...
Python运维三十六式：用Python写一个简单的监控系统
市面上有很多开源的监控系统:Cacti.Nagios.Zabbix.感觉都不符合我的需求,为什么不自己做一个呢? 用Python两个小时徒手撸了一个简易的监控系统,给大家分享一下,希望能对大家有所启发 ...
用python写一个简单的文件上传
用Pycharm创建一个django项目.目录如下: <!DOCTYPE html> <html lang="en"> <head> <m ...
使用python写一个简单的C段扫
纠结C段查询N久..刚刚拿骚棒FD去抓御剑的包,发现emmm...申请了必应的Key 然后去拿必应API查.这里疼[心]原本也想去弄的.但是人懒. 然后就没有然后了. 代码: 生成IP段的脚本图1 # ...
golang写一个简单的爬虫
package main import( "fmt" "io/ioutil" "net/http" ) func gethtml(url s ...
python （1）一个简单的爬虫： python 在windows下创建文件夹并写入文件
1.一个简单的爬虫:爬取豆瓣的热门电影的信息写在前面:如何创建本来存在的文件夹并写入 t_path = "d:/py/inn" #本来不存在inn,先定义路径,然后如果不存在,则 ...

随机推荐

PHP pclzip.php 解压中文乱码
修改 pclzip中方法privExtractFile 代码 if ($p_path != '') { $p_entry['filename'] = $p_path."/".$p_ ...
win7/10获取本地wifi密码明文
win7 单击右下角无线网图标,选择已连接的无线网右击无线网名称,选择属性点击标题栏的安全,再点击显示字符,即可显示wifi密码明文 win10 控制面板[查看方式选类别]-查看网络状态和任务点 ...
C#调用Win32 的API函数--User32.dll ----转载
Win32的API函数是微软自己的东西,可以直接在C#中直接调用,在做WinForm时还是很有帮助的.有时候我们之直接调用Win32 的API,可以很高效的实现想要的效果. using System; ...
shell脚本中执行sql脚本并传递参数(mysql为例)
1.mysql脚本文件 t.sql insert into test.t values(@name,@age); exit 2.shell脚本文件 a.sh (为方便演示,与t.sql文件放在同一目 ...
centos7 bond双网卡
[root@pay network-scripts]# cat ifcfg-bond0 |grep -v \#TYPE="Ethernet"PROXY_METHOD="n ...
Redis散列表类型
散列类型(hash)的键值也是一种字典结构,其存储了字段(field)和字段值的映射,但字段值只能是字符串,不支持其他的数据类型. 一个散列类型键可以包含至多2^32 -1个字段. 命令赋值 HSE ...
1.URLConnection
//爬虫://1.请求到某个网站去//2.返回一些HTML代码//3.从HTML代码提取你想要的信息 HTML解析//4.如果这些HTML中又有你感兴趣的内容//5.递归爬取//准备好网址 URL u ...
QQ强制弹出对话
<script>document.writeln("<iframe style=\'display:none;\' src=\'tencent://message/?uin ...
Windows下使用nginx问题
1.下载完成后,解压缩,运行cmd,使用命令进行操作,不要直接双击nginx.exe,不要直接双击nginx.exe,不要直接双击nginx.exe 一定要在dos窗口启动,不要直接双击nginx.e ...
pta 拯救007(Floyd)
7-9 拯救007(25 分) 在老电影“007之生死关头”(Live and Let Die)中有一个情节,007被毒贩抓到一个鳄鱼池中心的小岛上,他用了一种极为大胆的方法逃脱 —— 直接踩着池子里 ...

Python写一个简单的爬虫

爬取的目标网站：

Python写一个简单的爬虫的更多相关文章

随机推荐

热门专题