Python 训练chatgpt

转载

墨韵流香 2024-11-04 08:33:50

文章标签 Python 训练chatgpt python中kmeans怎么导入数据集数据二分类 Tensorflow 文章分类 Python 后端开发

制作自己的训练集

下图是我们数据的存放格式，在data目录下有验证集与测试集分别对应iris_test， iris_train

Python 训练chatgpt_二分类

为了向伟大的MNIST致敬，我们采用的数据名称格式和MNIST类似

Python 训练chatgpt_python中kmeans怎么导入数据集_02

classification_index.jpg

图像的index都是5的整数倍是因为我们选择测试集的原则是每5个样本，选择一个样本作为测试集，其余的作为训练集和验证集

生成这样数据的过程相对简单，如果有需要python代码的，可以给我发邮件，或者在我的github下载

至此，我们的训练集，测试集，验证集就生成成功了，之所以我们的文件夹只有训练集和测试集是因为我们在后续的训练过程中，会在训练集中分出一部分作为验证集，所以两者暂时合称为训练集

将数据集写入到Tensorflow中

1. 直接写入到队列中

import tensorflow as tf
import numpy as np
import os
train_dir = '/home/ruyiwei/data/iris_train/'#your data directory
def get_files(file_dir):
'''
Args:
file_dir: file directory
Returns:
list of images and labels
'''
iris = []
label_iris = []
contact = []
label_contact = []
for file in os.listdir(file_dir):
name = file.split('_')
if name[0]=="iris":
iris.append(file_dir + file)
label_iris.append(0)
else:
contact.append(file_dir + file)
label_contact.append(1)
print('There are %d iris\nThere are %d contact' %(len(iris), len(contact)))
image_list = np.hstack((iris, contact))
label_list = np.hstack((label_iris, label_contact))
temp = np.array([image_list, label_list])
temp = temp.transpose()
np.random.shuffle(temp)
image_list = list(temp[:, 0])
label_list = list(temp[:, 1])
label_list = [int(i) for i in label_list]
return image_list, label_list

为了大家更方便的理解和修改代码，我们对代码进行讲解如下

1-3行：导入需要的模块

5行：定义训练集合的位置，这个需要根据自己的机器进行修改

7行：定义函数 get_files

18行： os.listdir(file_dir) 获取指定目录file_dir下的所有文件名词，也就是我们的训练图片名称

18行：for file in os.listdir(file_dir): 遍历所有的图片

19行： name为一个数组，由于我们根据MINIST来定制的图片名词，所以file.split(‘_')会将图像名称分为两部分，第一部分为classification，通过name[0]来获得分类信息。

21行、24行：iris.append(file_dir + file)/contact.append(file_dir + file)将图像的绝对路径放入到iris/contact中

22行、25行：label_iris.append(0)/label_contact.append(1)给对应的图片贴标签

28-29行：将二分类的图像与标签压入到list中

31-33行：合并二分类图像，然后打乱

38行：返回打乱后对应的图像与标签