1.概述

前段时间使用体验了ChatGPT的用法，感受到ChatGPT的强大，通过搜索关键字或者输入自己的意图，能够快速得到自己想要的信息和结果。今天笔者将深挖一下ChatGPT，给大家介绍如何使用ChatGPT的API来实战开发一些例子。

2.内容

2.1 ChatGPT起源

这个还得从谷歌发布BERT模型开始了解。BERT 是预训练语言表示法的一种方法。预训练涉及 BERT 如何首先针对大量文本进行训练，例如维基百科。然后，您可以将训练结果应用于其他自然语言处理 (NLP) 任务，例如问答系统和情感分析。借助 BERT 和 AI Platform Training，您可以在大约 30 分钟内训练各种 NLP 模型。

而OpenAI与BERT类似，做出了初代的GPT模型。它们的思想都是类似的，都是预计Transformer这种双向编码器，来获取文本内部的一些联系。

2.2 如何注册ChatGPT

由于OpenAI不允许国内手机注册申请账号，这里我们需要使用到虚拟手机号来注册接收信息（一次性购买使用），关于如果使用虚拟手机号，网上有很多资料和流程，这里就不细说了。大致流程如下：

准备一个邮箱，比如QQ邮箱、GMAIL等
访问OpenAI的官网地址
访问虚拟手机号网站，然后选择OpenAI购买虚拟机手机号（大概1块钱）

然后，注册成功后，我们就可以使用OpenAI的一些接口信息了。体验结果如下：

3.实战应用

3.1 数据集准备

在实战应用之前，我们需要准备好需要的数据集，我们可以从OpenAI的官网中通过Python API来生成模拟数据。具体安装命令如下所示：

pip install --upgrade openai

然后，我登录到OpenAI官网，申请一个密钥，用来获取一些训练所需要的数据。比如我们获取一个差评的代码实现如下：

import openai

import time

import pandas as pd

import numpy as np

openai.api_key = "<填写自己申请到的密钥地址>"

completion = openai.Completion.create(engine="davinci", prompt="This hotel was terrible.",max_tokens=120)

print("Terrible Comment:")

print(completion.choices[0]['text'])

执行结果如下：

接着，我们来获取一个好评的代码例子，具体实现如下：

completion = openai.Completion.create(engine="davinci", prompt="This hotel was great.",max_tokens=120)

print("Great Comment:")

print(completion.choices[0]['text'])

执行结果如下：

现在，我们来获取所需要的数据集代码，具体实现如下所示：

print("Generating 500 good and bad reviews")

good_reviews = []

bad_reviews = []

for i in range(0,500):

  completion = openai.Completion.create(engine="davinci", prompt="This hotel was great.",max_tokens=120)

  good_reviews.append(completion.choices[0]['text'])

  print('Generating good review number %i'%(i))

  completion = openai.Completion.create(engine="davinci", prompt="This hotel was terrible.",max_tokens=120)

  bad_reviews.append(completion.choices[0]['text'])

  print('Generating bad review number %i'%(i))

  display = np.random.choice([0,1],p=[0.7,0.3])
 # 这里由于OpenAI的接口调用限制，控制一下循环调用频率

  time.sleep(3)

  if display ==1:

    display_good = np.random.choice([0,1],p=[0.5,0.5])

    if display_good ==1:

      print('Printing random good review')

      print(good_reviews[-1])

    if display_good ==0:

      print('Printing random bad review')

      print(bad_reviews[-1])

# Create a dataframe with the reviews and sentiment

df = pd.DataFrame(np.zeros((1000,2)))

# Set the first 500 rows to good reviews

df.columns = ['Reviews','Sentiment']

df['Sentiment'].loc[0:499] = 1
df['Reviews'] = good_reviews+bad_reviews

# Export the dataframe to a csv file

df.to_csv('generated_reviews.csv')

执行结果如下：

3.2 开始进行算法训练

有了数据之后，我们可以建立和训练一种机器学习算法，当我们处理文本的时候，首先需要做的是使用矢量器，矢量器是将文本转换为矢量的东西。相似的的文本有着相似的向量，不同的文本具有不相似的向量。

而矢量化的步骤有很多方法可以实现，为了实现文本中的功能，我们借助Python的TFIDF矢量器的库来实现。

具体实现代码如下所示：

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

from sklearn.ensemble import RandomForestClassifier

from sklearn.model_selection import train_test_split

from sklearn.metrics import confusion_matrix,plot_confusion_matrix

from sklearn.feature_extraction.text import TfidfVectorizer

# Split the data into training and testing

labeled_data = pd.read_csv('generated_reviews.csv').drop(columns=['Unnamed: 0'])

labeled_data.Sentiment = labeled_data.Sentiment.astype(int)

labeled_data = labeled_data.dropna().reset_index()

# print head of the data

print(labeled_data.head())

头部数据结果如下所示：

接着，我们对数据进行矢量化，具体实现代码如下所示：

dataset = labeled_data

vectorizer = TfidfVectorizer (max_features=2500, min_df=7, max_df=0.8)

tokenized_data = vectorizer.fit_transform(dataset['Reviews']).toarray()

labels = np.array(dataset["Sentiment"])  # Label is already an array of 0 and 1

rf = RandomForestClassifier(n_estimators=100)

X = tokenized_data

y = labels

X_train, X_test,y_train, y_test = train_test_split(X,y,test_size=0.2)

rf.fit(X_train,y_train)

plot_confusion_matrix(rf,X_test,y_test)

# save the result to disk

plt.title('Confusion Matrix')

plt.savefig('result.png')

这里涉及到使用随机森林的模型，随机森林是一种有监督的机器学习算法。由于其准确性，简单性和灵活性，它已成为最常用的一种算法。事实上，它可以用于分类和回归任务，再加上其非线性特性，使其能够高度适应各种数据和情况。

它之所以被称为 “森林”，是因为它生成了决策树森林。然后，来自这些树的数据合并在一起，以确保最准确的预测。虽然单独的决策树只有一个结果和范围狭窄的群组，但森林可以确保有更多的小组和决策，从而获得更准确的结果。它还有一个好处，那就是通过在随机特征子集中找到最佳特征来为模型添加随机性。总体而言，这些优势创造了一个具有广泛多样性的模型。

我们执行这个模型，然后输出结果如下图所示：

4.总结

OpenAI API 几乎可以应用于任何涉及理解或生成自然语言或代码的任务。它提供一系列具有不同功率级别的模型，适用于不同的任务，并且能够微调您自己的自定义模型。这些模型可用于从内容生成到语义搜索和分类的所有领域。

ChatGPT开发实战的更多相关文章

chrome拓展开发实战：页面脚本的拦截注入
原文请访问个人博客:chrome拓展开发实战:页面脚本的拦截注入目前公司产品的无线站点已经实现了业务平台组件化,所有业务组件的转场都是通过路由来完成,而各个模块是通过requirejs进行统一管理, ...
《Android NFC 开发实战详解》简介+源码+样章+勘误ING
<Android NFC 开发实战详解>简介+源码+样章+勘误ING SkySeraph Mar. 14th 2014 Email:skyseraph00@163.com 更多精彩请直接 ...
CSS高效开发实战:CSS 3、LESS、SASS、Bootstrap、Foundation --读书笔记（1）设定背景图
技术的新发展,除计算机可以接入互联网之外,平板电脑.智能手机.智能电视等其他设备均可访问互联网.在多设备时代,构建多屏体验也不是听说的那么难. 但是这也增加了学习CSS的难度?不知道如何上手,只懂一点 ...
《Node.js开发实战详解》学习笔记
<Node.js开发实战详解>学习笔记 ——持续更新中一.NodeJS设计模式 1 . 单例模式顾名思义,单例就是保证一个类只有一个实例,实现的方法是,先判断实例是否存在,如果存在则直 ...
第九篇：微信公众平台开发实战Java版之如何实现自定义分享内容
第一部分:微信JS-SDK介绍微信JS-SDK是微信公众平台面向网页开发者提供的基于微信内的网页开发工具包. 通过使用微信JS-SDK,网页开发者可借助微信高效地使用拍照.选图.语音.位置等手机系统 ...
第八篇：微信公众平台开发实战Java版之如何网页授权获取用户基本信息
第一部分:微信授权获取基本信息的介绍我们首先来看看官方的文档怎么说: 如果用户在微信客户端中访问第三方网页,公众号可以通过微信网页授权机制,来获取用户基本信息,进而实现业务逻辑. 关于网页授权回调域 ...
第七篇：微信公众平台开发实战Java版之如何获取微信用户基本信息
在关注者与公众号产生消息交互后,公众号可获得关注者的OpenID(加密后的微信号,每个用户对每个公众号的OpenID是唯一的.对于不同公众号,同一用户的openid不同). 公众号可通过本接口来根据O ...
第六篇：微信公众平台开发实战Java版之如何自定义微信公众号菜单
我们来了解一下自定义菜单创建接口: http请求方式:POST(请使用https协议) https://api.weixin.qq.com/cgi-bin/menu/create?access_to ...
第五篇：微信公众平台开发实战Java版之如何获取公众号的access_token以及缓存access_token
一.access_token简介为了使第三方开发者能够为用户提供更多更有价值的个性化服务,微信公众平台开放了许多接口,包括自定义菜单接口.客服接口.获取用户信息接口.用户分组接口.群发接口等, 开 ...
第四篇：微信公众平台开发实战Java版之完成消息接受与相应以及消息的处理
温馨提示: 这篇文章是依赖前几篇的文章的. 第一篇:微信公众平台开发实战之了解微信公众平台基础知识以及资料准备第二篇 :微信公众平台开发实战之开启开发者模式,接入微信公众平台开发第三篇 :微信公众 ...

随机推荐

Java 编码那些事(二)
建议先阅读:Java 编码那些事(一) 现在说说编码在Java中的实际运用.在使用tomcat的时候,绝大部分同学都会遇到乱码的问题,查查文档,google一下解决方案啥的,都是设置这里,设置那里,或 ...
day09-Tomcat01
Tomcat01 1.WEB开发介绍 WEB,在英文中WEB表示网/网络资源,它用于表示WEB服务器(主机)供浏览器访问的资源 WEB服务器(主机)上供外界访问的Web资源为: 静态web资源(如ht ...
关于ASP.NET Core WebSocket实现集群的思考
前言提到WebSocket相信大家都听说过,它的初衷是为了解决客户端浏览器与服务端进行双向通信,是在单个TCP连接上进行全双工通讯的协议.在没有WebSocket之前只能通过浏览器到服务端的请求应答 ...
Echarts - legend属性设置
legend: { orient: 'horizontal', // 'vertical' x: 'right', // 'center' | 'left' | {number}, y: 'top', ...
发布 .NET 7 MAUI / MAUI Blazor 应用到 Windows 应用商店
.NET MAUI 目前仅允许发布 MSIX 包. 创建签名证书发布到本地传送门 [https://www.cnblogs.com/densen2014/p/16567384.html] 使用 Vis ...
C#字典出错“集合已经修改，可能无法执行枚举操作”
出现这个现象的原因是由于线程安全考虑,如果你边对字典循环,又同时移除字典中的某个键值对, 那么将会出现这种错误,解决这种问题的方法是你没次remove某个键值对后需要break结束对字典的循环.
2022-11-12 Acwing每日一题
本系列所有题目均为Acwing课的内容,发表博客既是为了学习总结,加深自己的印象,同时也是为了以后回过头来看时,不会感叹虚度光阴罢了,因此如果出现错误,欢迎大家能够指出错误,我会认真改正的.同时也希望 ...
Go语言基础-从菜鸟到火鸡
课程介绍: 1.概述和环境搭建 2.程序开发 3.数据类型 4. 指针 5. 标志符 6. 运算符 7. 进制介绍 8.流程控制 9.循环控制 10.break与continue 11.函数 12.g ...
i春秋SQLi
打开题目网页是个很简单的登录网页先查看源码,抓包都没找到可用的信息依我所见这里应该就是一个注入但是怎么输入都会回显username错误直到输入admin 尝试admin# Admin'# ...
Winform控件绑定数据
目录简介绑定基类功能扩展简单控件绑定列表控件绑定绑定BindingList集合绑定DataTable表格绑定BindingSource源表格控件绑定绑定DataTable 绑定Bi ...

ChatGPT开发实战

1.概述

2.内容

2.1 ChatGPT起源

2.2 如何注册ChatGPT

3.实战应用

3.1 数据集准备

3.2 开始进行算法训练

4.总结

ChatGPT开发实战的更多相关文章

随机推荐

热门专题