1.概述

前段时间使用体验了ChatGPT的用法,感受到ChatGPT的强大,通过搜索关键字或者输入自己的意图,能够快速得到自己想要的信息和结果。今天笔者将深挖一下ChatGPT,给大家介绍如何使用ChatGPT的API来实战开发一些例子。

2.内容

2.1 ChatGPT起源

这个还得从谷歌发布BERT模型开始了解。BERT 是预训练语言表示法的一种方法。预训练涉及 BERT 如何首先针对大量文本进行训练,例如维基百科。然后,您可以将训练结果应用于其他自然语言处理 (NLP) 任务,例如问答系统和情感分析。借助 BERT 和 AI Platform Training,您可以在大约 30 分钟内训练各种 NLP 模型。

而OpenAI与BERT类似,做出了初代的GPT模型。它们的思想都是类似的,都是预计Transformer这种双向编码器,来获取文本内部的一些联系。

2.2 如何注册ChatGPT

由于OpenAI不允许国内手机注册申请账号,这里我们需要使用到虚拟手机号来注册接收信息(一次性购买使用),关于如果使用虚拟手机号,网上有很多资料和流程,这里就不细说了。大致流程如下:

  • 准备一个邮箱,比如QQ邮箱、GMAIL等
  • 访问OpenAI的官网地址
  • 访问虚拟手机号网站,然后选择OpenAI购买虚拟机手机号(大概1块钱)

然后,注册成功后,我们就可以使用OpenAI的一些接口信息了。体验结果如下:

3.实战应用

3.1 数据集准备

在实战应用之前,我们需要准备好需要的数据集,我们可以从OpenAI的官网中通过Python API来生成模拟数据。具体安装命令如下所示:

  1. pip install --upgrade openai

然后,我登录到OpenAI官网,申请一个密钥,用来获取一些训练所需要的数据。比如我们获取一个差评的代码实现如下:

  1. import openai
  2. import time
  3. import pandas as pd
  4. import numpy as np
  5. openai.api_key = "<填写自己申请到的密钥地址>"
  6.  
  7. completion = openai.Completion.create(engine="davinci", prompt="This hotel was terrible.",max_tokens=120)
  8. print("Terrible Comment:")
  9. print(completion.choices[0]['text'])

执行结果如下:

接着,我们来获取一个好评的代码例子,具体实现如下:

  1. completion = openai.Completion.create(engine="davinci", prompt="This hotel was great.",max_tokens=120)
  2. print("Great Comment:")
  3. print(completion.choices[0]['text'])

执行结果如下:

现在,我们来获取所需要的数据集代码,具体实现如下所示:

  1. print("Generating 500 good and bad reviews")
  2. good_reviews = []
  3. bad_reviews = []
  4. for i in range(0,500):
  5. completion = openai.Completion.create(engine="davinci", prompt="This hotel was great.",max_tokens=120)
  6. good_reviews.append(completion.choices[0]['text'])
  7. print('Generating good review number %i'%(i))
  8. completion = openai.Completion.create(engine="davinci", prompt="This hotel was terrible.",max_tokens=120)
  9. bad_reviews.append(completion.choices[0]['text'])
  10. print('Generating bad review number %i'%(i))
  11. display = np.random.choice([0,1],p=[0.7,0.3])
    # 这里由于OpenAI的接口调用限制,控制一下循环调用频率
  12. time.sleep(3)
  13. if display ==1:
  14. display_good = np.random.choice([0,1],p=[0.5,0.5])
  15. if display_good ==1:
  16. print('Printing random good review')
  17. print(good_reviews[-1])
  18. if display_good ==0:
  19. print('Printing random bad review')
  20. print(bad_reviews[-1])
  21.  
  22. # Create a dataframe with the reviews and sentiment
  23. df = pd.DataFrame(np.zeros((1000,2)))
  24.  
  25. # Set the first 500 rows to good reviews
  26. df.columns = ['Reviews','Sentiment']
  27. df['Sentiment'].loc[0:499] = 1
    df['Reviews'] = good_reviews+bad_reviews
  28. # Export the dataframe to a csv file
  29. df.to_csv('generated_reviews.csv')

执行结果如下:

3.2 开始进行算法训练

有了数据之后,我们可以建立和训练一种机器学习算法,当我们处理文本的时候,首先需要做的是使用矢量器,矢量器是将文本转换为矢量的东西。相似的的文本有着相似的向量,不同的文本具有不相似的向量。

而矢量化的步骤有很多方法可以实现,为了实现文本中的功能,我们借助Python的TFIDF矢量器的库来实现。

具体实现代码如下所示:

  1. import pandas as pd
  2. import numpy as np
  3. import matplotlib.pyplot as plt
  4. from sklearn.ensemble import RandomForestClassifier
  5. from sklearn.model_selection import train_test_split
  6. from sklearn.metrics import confusion_matrix,plot_confusion_matrix
  7. from sklearn.feature_extraction.text import TfidfVectorizer
  8.  
  9. # Split the data into training and testing
  10. labeled_data = pd.read_csv('generated_reviews.csv').drop(columns=['Unnamed: 0'])
  11. labeled_data.Sentiment = labeled_data.Sentiment.astype(int)
  12. labeled_data = labeled_data.dropna().reset_index()
  13.  
  14. # print head of the data
  15. print(labeled_data.head())

头部数据结果如下所示:

接着,我们对数据进行矢量化,具体实现代码如下所示:

  1. dataset = labeled_data
  2.  
  3. vectorizer = TfidfVectorizer (max_features=2500, min_df=7, max_df=0.8)
  4. tokenized_data = vectorizer.fit_transform(dataset['Reviews']).toarray()
  5.  
  6. labels = np.array(dataset["Sentiment"]) # Label is already an array of 0 and 1
  7.  
  8. rf = RandomForestClassifier(n_estimators=100)
  9.  
  10. X = tokenized_data
  11. y = labels
  12. X_train, X_test,y_train, y_test = train_test_split(X,y,test_size=0.2)
  13.  
  14. rf.fit(X_train,y_train)
  15.  
  16. plot_confusion_matrix(rf,X_test,y_test)
  17.  
  18. # save the result to disk
  19. plt.title('Confusion Matrix')
  20. plt.savefig('result.png')

这里涉及到使用随机森林的模型,随机森林是一种有监督的机器学习算法。由于其准确性,简单性和灵活性,它已成为最常用的一种算法。事实上,它可以用于分类和回归任务,再加上其非线性特性,使其能够高度适应各种数据和情况。

它之所以被称为 “森林”,是因为它生成了决策树森林。然后,来自这些树的数据合并在一起,以确保最准确的预测。虽然单独的决策树只有一个结果和范围狭窄的群组,但森林可以确保有更多的小组和决策,从而获得更准确的结果。它还有一个好处,那就是通过在随机特征子集中找到最佳特征来为模型添加随机性。总体而言,这些优势创造了一个具有广泛多样性的模型。

我们执行这个模型,然后输出结果如下图所示:

4.总结

OpenAI API 几乎可以应用于任何涉及理解或生成自然语言或代码的任务。它提供一系列具有不同功率级别的模型,适用于不同的任务,并且能够微调您自己的自定义模型。这些模型可用于从内容生成到语义搜索和分类的所有领域。

ChatGPT开发实战的更多相关文章

  1. chrome拓展开发实战:页面脚本的拦截注入

    原文请访问个人博客:chrome拓展开发实战:页面脚本的拦截注入 目前公司产品的无线站点已经实现了业务平台组件化,所有业务组件的转场都是通过路由来完成,而各个模块是通过requirejs进行统一管理, ...

  2. 《Android NFC 开发实战详解 》简介+源码+样章+勘误ING

    <Android NFC 开发实战详解>简介+源码+样章+勘误ING SkySeraph Mar. 14th  2014 Email:skyseraph00@163.com 更多精彩请直接 ...

  3. CSS高效开发实战:CSS 3、LESS、SASS、Bootstrap、Foundation --读书笔记(1)设定背景图

    技术的新发展,除计算机可以接入互联网之外,平板电脑.智能手机.智能电视等其他设备均可访问互联网.在多设备时代,构建多屏体验也不是听说的那么难. 但是这也增加了学习CSS的难度?不知道如何上手,只懂一点 ...

  4. 《Node.js开发实战详解》学习笔记

    <Node.js开发实战详解>学习笔记 ——持续更新中 一.NodeJS设计模式 1 . 单例模式 顾名思义,单例就是保证一个类只有一个实例,实现的方法是,先判断实例是否存在,如果存在则直 ...

  5. 第九篇 :微信公众平台开发实战Java版之如何实现自定义分享内容

    第一部分:微信JS-SDK介绍 微信JS-SDK是微信公众平台面向网页开发者提供的基于微信内的网页开发工具包. 通过使用微信JS-SDK,网页开发者可借助微信高效地使用拍照.选图.语音.位置等手机系统 ...

  6. 第八篇 :微信公众平台开发实战Java版之如何网页授权获取用户基本信息

    第一部分:微信授权获取基本信息的介绍 我们首先来看看官方的文档怎么说: 如果用户在微信客户端中访问第三方网页,公众号可以通过微信网页授权机制,来获取用户基本信息,进而实现业务逻辑. 关于网页授权回调域 ...

  7. 第七篇 :微信公众平台开发实战Java版之如何获取微信用户基本信息

    在关注者与公众号产生消息交互后,公众号可获得关注者的OpenID(加密后的微信号,每个用户对每个公众号的OpenID是唯一的.对于不同公众号,同一用户的openid不同). 公众号可通过本接口来根据O ...

  8. 第六篇 :微信公众平台开发实战Java版之如何自定义微信公众号菜单

    我们来了解一下 自定义菜单创建接口: http请求方式:POST(请使用https协议) https://api.weixin.qq.com/cgi-bin/menu/create?access_to ...

  9. 第五篇 :微信公众平台开发实战Java版之如何获取公众号的access_token以及缓存access_token

    一.access_token简介 为了使第三方开发者能够为用户提供更多更有价值的个性化服务,微信公众平台 开放了许多接口,包括自定义菜单接口.客服接口.获取用户信息接口.用户分组接口.群发接口等, 开 ...

  10. 第四篇 :微信公众平台开发实战Java版之完成消息接受与相应以及消息的处理

    温馨提示: 这篇文章是依赖前几篇的文章的. 第一篇:微信公众平台开发实战之了解微信公众平台基础知识以及资料准备 第二篇 :微信公众平台开发实战之开启开发者模式,接入微信公众平台开发 第三篇 :微信公众 ...

随机推荐

  1. mysql网上知识

    MySQL学习笔记 登录和退出MySQL服务器 # 登录MySQL $ mysql -u root -p12345612 # 退出MySQL数据库服务器 exit; 基本语法 -- 显示所有数据库 s ...

  2. SQLSever事务

    1. 为什么要使用事务? 当一个存储过程或多个SQL语句(指代insert.update.delete类型)依次执行时候, 如果其中一条或几条发生错误,但是其他的还会继续执行,会造成数据的不一致,非常 ...

  3. 森林野火故事2.0:一眼看穿!使用 Panel 和 hvPlot 可视化 ⛵

    作者:韩信子@ShowMeAI 数据分析实战系列:https://www.showmeai.tech/tutorials/40 本文地址:https://www.showmeai.tech/artic ...

  4. ArcObjects SDK开发 006 ICommand和ITool接口

    1.ICommand接口 ICommand接口是插件协议之一,继承该接口的类都可以成为命令.即点击一下执行,不主动与宿主发生鼠标和键盘交互.该接口包含的重要成员如下表所示. 序号 名称 类型 描述 1 ...

  5. day25 前端

    https://www.dcloud.io/hbuilderx.html 下载HbuilderX,直接解压缩双击打开 html5 <!DOCTYPE html><!-- 文档类型,声 ...

  6. 【Hadoop面试】基础概念、HDFS、MapReduce、Yarn、实战

    一.Hadoop概念及架构 1.是否看过Hadoop源码 2.正常工作的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用分别是什么 3.hadoop和spark中的文件缓存方式 4.h ...

  7. 【Shell脚本案例】案例5:找出CPU/内存率占用高的进程

    一.背景 找出占用高的进程 使用脚本编写找出占用CPU的进程 二.分析 1.查看进程 top 输入后按C,就可以列出 其他: ps aux 2.思路 awk进行排序,如top10 即ps aux |a ...

  8. 当我们的执行 java -jar xxx.jar 的时候底层到底做了什么?

    大家都知道我们常用的 SpringBoot 项目最终在线上运行的时候都是通过启动 java -jar xxx.jar 命令来运行的. 那你有没有想过一个问题,那就是当我们执行 java -jar 命令 ...

  9. 想早点下班?试试Aorm库吧,更方便的进行Go数据库操作

    使用go进行项目开发,大多数人会使用gorm,但是gorm有一些缺点,我无法接受.于是开发出了aorm,目前能有满足日常开发需求,并且完善了使用文档,希望能够帮助到大家. Aorm Golang操作数 ...

  10. Docker进阶-Dockerfile建立一个自定义的镜像执行自定义进程

    前言 docker对我来说是一个很方便的工具,,上一篇文章也写了docker基本的一些使用,这篇文章重点描述一下Dockerfile的使用,从零建立一个自己定制化的镜像,并可以执行我们需要的任务. 作 ...