多线程

参考:https://zhuanlan.zhihu.com/p/613630658

平台差异:Linux 与 Windows,跨平台方案

在Linux上,有pthread的使用,而C++ 11标准中使用了<thread>,是一个良好的跨平台方案。

thread和pthread在实际的使用中有一些显著的差别,典型例子如:

pthread_create用来创建线程,而std::thread可以直接被用来创建线程。

客观来说,thread是一个更为简洁的实现,而pthread难免有些粗暴,本文在C++的多线程编程中主要以thread风格来实现。

子线程退出与主线程退出的关系

引用:

  1. https://blog.csdn.net/a0408152/article/details/129093394
  2. https://blog.csdn.net/m0_56374992/article/details/119109979

    detach是将当前线程对象所代表的执行实例与该线程对象分离,使得线程的执行可以单独进行。

    然而,在这种情况下,即使子线程detach,主线程退出也会导致子线程退出。

    具体原因是主进程通过return或者exit方式退出,进程退出导致所有线程同步退出。

    这里和Linux的进程/线程模型有关,是posix(pthread)的具体实现,参见引用2

    为了防止这种情况,在不想要在主进程中回收子进程的情况时,使用pthread_exit(nullptr);

    如果仅为了测试,也可以在主进程中加循环。

所以,重新理解detach:把主进程和子线程分离,使二者能够独立的运行。

原子操作

备注:此节部分内容及代码来源于帝国理工学院COMP60017 - L05 - Multi-core and Parallelism, Lluís Vilanova

由于现代CPU使用乱序流水线(out-of-order)的方式进行指令的执行,因此对于某一条单独的a = b + 1指令来说,其在O2优化层级上可以被分解为以下三条汇编指令:

mov     eax, DWORD PTR [rbp-8]
add eax, 1
mov DWORD PTR [rbp-4], eax

模拟编译(以及编译优化):https://godbolt.org/

由此可见,在没有进行任何额外处理的情况下,有可能在add与mov操作之间出现进程的切换调度,因此就会出现伪递增现象,即为两个并行线程同时对一个变量自增10000次,最后结果通常要小于20000。

atomic关键字

atomic是C++中的一个关键字,作用是针对某一个具体变量,提供一组'原子的'操作。

在本质上是对单条指令的临界区保护。

具体使用例子如下:

// Use atomic operations on data shared across threads
#include <atomic>
#include <thread>
#include <iostream>
int main(int argc, char** argv) {
int iters = 100000000; std::atomic<int> a = 0;
std::thread t1([&](){ for (volatile int i = 0; i < iters; i++) a++; });
std::thread t2([&](){ for (volatile int i = 0; i < iters; i++) a++; });
t1.join(); t2.join();
std::cout << "expected=" << iters*2 << " got=" << a << std::endl;
}

在C++中,有两种atomic的使用方式:

  1. 在定义变量时声明为atomic类型 e.g. std::atomic<int> a = 0;
  2. 在使用变量时使用atomic_系列操作 e.g. atomic_fetch_add(&a, 1);

参考:https://en.cppreference.com/w/cpp/atomic/atomic/compare_exchange

  • atomic_{load, store}:读取/写入
  • atomic_compare_exchange_{weak, strong}:注意,在atomic中,提供了两个CAS操作:

    compare_exchange_weak(T& expected, T desired)

    compare_exchange_strong(T& expected, T desired)

    首先与第一个参数比较:

    • 若相等,则改变原子变量的值为第二个参数,返回 true。
    • 若不相等,则将第一个参数的值改成原子变量的当前值,返回 false。

      但是需要注意,以weak方式实现的操作返回false时,并不一定完成了实际上的expected value修改,可能会出现伪失败(spuriously fail)情况。

      在实际操作中,尤其是在应用层面,如果不是对性能极度敏感的情况下,一律使用strong
  • atomic_fetch_{add, sub, or, xor, and}:算数/逻辑运算
int beings, legs;
void enter_room(int nlegs) {
atomic_fetch_add(&beings, 1);
atomic_fetch_add(&legs, nlegs);
}
C++内存顺序:memory order

参见:https://en.cppreference.com/w/cpp/atomic/atomic

std::memory_order_seq_cst

这个面试底层经常问,最好搞明白

CAS无锁操作

无锁相比于加锁操作来说,最大的优势是性能显著提高。

大多数现代CPU在硬件层面上都提供了原子实现CAS的机制。

shared lock: 读写锁,多个thread可以同时读,但只有一个能写

在Linux中的pthread库中,我们采用了CAS作为读写锁的实现方式

CAS操作,全名为Compare-and-swap(比较并交换)操作,是一个原子的操作。

在C++中,一个简单的实现:

bool compare_and_swap(int *pAddr, int nExpected, int nNew)
{
if(*pAddr == nExpected)
{
*pAddr = nNew;
return true;
}
else
return false;
}

这里提供一个使用CAS进行自增的操作:

void atomic_inc(uint64_t* addr) {
bool swapped = false;
while (not swapped) {
auto old = *addr;
swapped = CAS(addr, old, old+1);
}
}

线程同步

线程临界区:对于只读不写的变量,不需要保护

Lock/mutex

Semaphore

Shared lock (aka, read/write lock)

Condition variables

Barrier

例:使用条件变量condition_variable

例题:leetcode 1117. H2O 生成

在C++中,condition_variable必须结合unique_lock使用,此外还有一个condition_variable_any类可以使用所有的锁,此处暂时不论。

基本使用流程:mutex lock -> wait -> mutex unlock

wait函数阻塞完成后即自动unlock释放锁,不需要手动释放。

虚假唤醒:使用notify_all()函数唤醒所有wait状态下的线程时,发现其等待的条件并没有满足。

解决方法:

  1. 使用一个while循环在每次被唤醒时判断条件
while (g_deque.empty())
{
g_cond.wait(lck);
}
  1. 使用一个带predicate判断条件的wait
cv.wait(lck,[this]{return printo > 0;});//此处用了lambda函数,在类中所以需要this,较为方便

异步编程

异步编程:回调函数callback

c++11:中新增了std::future 和 std::promise

更加轻量级:协程

c++20:提供了co_routine(协程),在适当的时候做挂起(suspend)和恢复(resume),是个基于state machine的无栈协程

评价为对golang的拙劣模仿(原生支持,从来没见人在C++中用过)

我在这个项目中从内核到userspace维护了一个支持热迁移的虚拟机状态流,就用了类似的思想,但是这里是个有栈协程:https://github.com/mahiru23/intravisor/tree/syscall/src

这篇文章讲了协程,感觉不错:https://www.cnblogs.com/lizhaolong/p/16437246.html

锁的实现

User-level
  • Acquire/lock → Loop until CAS from “released” to “acquired”
  • Release/unlock → Set value to “released”

缺点:

  1. 假设有两个线程,t1持有锁的时候t2会反复循环尝试直到获取位置,存在循环浪费(叫做busy waiting(忙等)
  2. Potential thread starvation:等待的线程可能一直在等待(可能使用queue来解决问题?)

这里给出一个仅使用

#include <iostream>
#include <atomic>
#include <thread>
#include <cstdlib>
#include <ctime>
#include <unistd.h> class mysem {
public:
mysem(uint32_t init_value);
void acquire();
void release();
private:
std::atomic<uint32_t> counter;
}; mysem::mysem(uint32_t init_value) {
counter.store(init_value, std::memory_order_seq_cst);
} void mysem::acquire() {
if(counter.load(std::memory_order_seq_cst) > 0) {
counter.fetch_sub(1);
}
else {
while (counter.load(std::memory_order_seq_cst) <= 0) {
// busy-wait
}
}
} void mysem::release() {
counter.fetch_add(1);
} void random_work() {
usleep((rand()%1000)*10);
} int main(int argc, char**argv)
{
srand(time(nullptr));
mysem s(1);
std::thread t1([&](){
random_work();
s.acquire();
std::cout << 1; random_work(); std::cout << 1;
s.release();
});
std::thread t2([&](){
random_work();
s.acquire();
std::cout << 2; random_work(); std::cout << 2;
s.release();
});
t1.join(); t2.join();
std::cout << std::endl;
}
Kernel-level

阻塞后sleep,内核层面awake

按照顺序,保证了阻塞线程的公平性

然而,这种方法更加expensive,因为过程中需要syscall

hybrid

Linux的pthread_mutex_lock内部使用了Linux futex

在较短的时间内使用user-level,对于等待时间较长的thread由kernel syscall处理(先busy-wait,再阻塞)

glibc的pthread实现方式:提前预测可能需要花费多长时间:Can adapt user-level busy-wait time dynamically

给出一段CAS + futex的混合代码:

#include <iostream>
#include <atomic>
#include <thread>
#include <cstdlib>
#include <ctime>
#include <unistd.h>
#include <sys/syscall.h>
#include <linux/futex.h>
#include <sys/time.h> class mysem {
public:
mysem(uint32_t init_value);
void acquire();
void release();
private:
std::atomic<uint32_t> counter;
}; mysem::mysem(uint32_t init_value) {
counter.store(init_value, std::memory_order_seq_cst);
} void mysem::acquire() { for (int i = 0; i < 100; ++i) {
uint32_t expected = counter.load(std::memory_order_seq_cst);
if (expected > 0 && counter.compare_exchange_strong(expected, expected - 1, std::memory_order_seq_cst)) {
return;
}
} uint32_t* counter_ptr = reinterpret_cast<uint32_t*>(&counter);
syscall(SYS_futex, counter_ptr, FUTEX_WAIT, counter.load(std::memory_order_seq_cst) > 0, nullptr, nullptr, 0);
} void mysem::release() {
counter.fetch_add(1);
uint32_t* counter_ptr = reinterpret_cast<uint32_t*>(&counter);
syscall(SYS_futex, counter_ptr, FUTEX_WAKE, 1, nullptr, nullptr, 0);
} void random_work() {
usleep((rand()%1000)*10);
} int main(int argc, char**argv)
{
srand(time(nullptr));
mysem s(1);
std::thread t1([&](){
random_work();
s.acquire();
std::cout << 1; random_work(); std::cout << 1;
s.release();
});
std::thread t2([&](){
random_work();
s.acquire();
std::cout << 2; random_work(); std::cout << 2;
s.release();
});
t1.join(); t2.join();
std::cout << std::endl;
}

线程安全:

thread_local

引用:https://zhuanlan.zhihu.com/p/77585472

C++ 11 引入了thread_local,作为线程内部的私有本地变量

应用场景:多线程无锁编程

C++中的多线程及其之后的周边的更多相关文章

  1. 细说.NET 中的多线程 (一 概念)

    为什么使用多线程 使用户界面能够随时相应用户输入 当某个应用程序在进行大量运算时候,为了保证应用程序能够随时相应客户的输入,这个时候我们往往需要让大量运算和相应用户输入这两个行为在不同的线程中进行. ...

  2. 细说.NET中的多线程 (二 线程池)

    上一章我们了解到,由于线程的创建,销毁都是需要耗费大量资源和时间的,开发者应该非常节约的使用线程资源.最好的办法是使用线程池,线程池能够避免当前进行中大量的线程导致操作系统不停的进行线程切换,当线程数 ...

  3. [转载]ArcGIS Engine 中的多线程使用

    ArcGIS Engine 中的多线程使用 原文链接 http://anshien.blog.163.com/blog/static/169966308201082441114173/   一直都想写 ...

  4. python中的多线程【转】

    转载自: http://c4fun.cn/blog/2014/05/06/python-threading/ python中关于多线程的操作可以使用thread和threading模块来实现,其中th ...

  5. 拒绝卡顿——在WPF中使用多线程更新UI

    原文:拒绝卡顿--在WPF中使用多线程更新UI 有经验的程序员们都知道:不能在UI线程上进行耗时操作,那样会造成界面卡顿,如下就是一个简单的示例: public partial class MainW ...

  6. java中的多线程——进度2

    package src;/*多线程总结:1,进程和线程的概念.    |--进程:    |--线程:2,jvm中的多线程体现.    |--主线程,垃圾回收线程,自定义线程.以及他们运行的代码的位置 ...

  7. Qt中的多线程编程

    http://www.ibm.com/developerworks/cn/linux/l-qt-mthrd/ Qt 作为一种基于 C++ 的跨平台 GUI 系统,能够提供给用户构造图形用户界面的强大功 ...

  8. 转:MFC中创建多线程

    MFC中创建多线程   MFC的多线程函数必须声明为静态的或者是全局函数(不同的在于全局函数不能访问类的私有静态成员,而静态类函数可以):但这样的线程函数只能访问静态的成员变量,要实现访问类的其他成员 ...

  9. C#中的多线程-入门

    概述与概念C#支持通过多线程并行地执行代码,一个线程有它独立的执行路径,能够与其它的线程同时地运行.一个C#程序开始于一个单线程,这个单线程是被CLR和操作系统(也称为“主线程”)自动创建的,并具有多 ...

  10. NET 中的多线程

    NET 中的多线程 为什么使用多线程 使用户界面能够随时相应用户输入 当某个应用程序在进行大量运算时候,为了保证应用程序能够随时相应客户的输入,这个时候我们往往需要让大量运算和相应用户输入这两个行为在 ...

随机推荐

  1. EF Core – 大杂烩

    前言 记入一些零零碎碎的知识. Shadow Properties 参考:Docs – Shadow and Indexer Properties Shadow Property 指的是那些在数据库有 ...

  2. 华为测试岗上岸,月入20K,面试无非就是这些套路!

    软件测试工程师,和开发工程师相比起来,虽然前期可能不会太深,但是涉及的面还是比较广的.涉及的知识主要有 MySQL 数据库的使用.Linux 操作系统的使用.软件测试框架性的问题,测试环境搭建问题.当 ...

  3. Passwords

    详见 此处 Header File 0*)1190*+0**0).0970)/0)/111105000

  4. CatGPT Puzzle

    规则简述 一个 Nonogram 谜题包含一个 \(m*n\) 大小的空白方格矩阵,以及在表格每一行右侧.每一列下方的一组线索数. 每组都有一个或多个数字,这些数字就是解题的线索. 要想解开 Nono ...

  5. 浅谈数栈产品里的 Descriptions 组件

    我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品.我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值. 本文作者:修能 What's? 数栈产品里的 Description ...

  6. Android 常用的性能分析工具详解:GPU呈现模式

    此篇将重点介绍几种常用的Android性能分析工具: 一.Logcat 日志 选取Tag=ActivityManager,可以粗略地知道界面Displaying的时间消耗.当我们打开一个Activit ...

  7. localStorage 、 sessionStoarge 和 cokies 的区别

    1. 三者的概念 1.1 cookies Cookie,有时也用其复数形式 Cookies.类型为"小型文本文件",是某些网站为了辨别用户身份,进行Session(会话)跟踪而储存 ...

  8. webpack配置 alias用于方便引用文件

    .markdown-body { line-height: 1.75; font-weight: 400; font-size: 16px; overflow-x: hidden; color: rg ...

  9. OpenFunction 应用系列之一: 以 Serverless 的方式实现 Kubernetes 日志告警

    概述 当我们将容器的日志收集到消息服务器之后,我们该如何处理这些日志?部署一个专用的日志处理工作负载可能会耗费多余的成本,而当日志体量骤增.骤降时亦难以评估日志处理工作负载的待机数量.本文提供了一种基 ...

  10. RocketMQ 在小米的多场景灾备实践案例

    本文作者:邓志文.王帆 01为什么要容灾? 在小米内部,我们使用 RocketMQ 来为各种在线业务提供消息队列服务,比如商城订单.短信通知甚至用来收集 IoT 设备的上报数据,可以说 RocketM ...