#  加载MNIST数据
# i通过nput_data.read_data_sets自动下载和导入MNIST数据集
# mnist是一个轻量级的类。它以Numpy数组的形式存储着训练、校验和测试数据集。同时提供了一个函数,用于在迭代中获得minibatch,后面我们将会用到。
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

import tensorflow as tf

# 通过为输入图像和目标输出类别创建节点,来开始构建计算图。
# x为输入,y为输出,y_为模型预测。这里的x,y,y_并不是特定的值,相反,他们都只是一个占位符,可以在TensorFlow运行某一计算时根据该占位符输入具体的值。
# x: shape为[None, 784],784是一张展平的MNIST图片的维度(28*28),None表示其值大小不定,在这里作为第一个维度值,用以指代batch的大小,意即x的数量不定
# placeholder的shape参数是可选的,但有了它,TensorFlow能够自动捕捉因数据维度不一致导致的错误。
x = tf.placeholder(tf.float32, [None, 784])
# 权重W和偏置b,模型的变量,在机器学习的应用过程中,模型参数一般用Variable来表示
# 把W和b都初始化为零向量
# W是一个784x10的矩阵(因为我们有784个特征和10个输出值),b是一个10维的向量(因为我们有10个分类)
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))

# tf.matmul(x, W) + b 线性模型
# softmax:计算每个分类的softmax概率值
y = tf.nn.softmax(tf.matmul(x, W) + b)

# 10维的one-hot向量,用于代表对应某一MNIST图片的类别。
y_ = tf.placeholder(tf.float32, [None, 10])

# 损失函数:目标类别和预测类别之间的交叉熵
cross_entropy = -tf.reduce_sum(y_*tf.log(y))

# 训练模型,梯度下降(GradientDescentOptimizer)让交叉熵(cross_entropy)下降,学习步长为0.01
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)

# 变量需要通过seesion初始化后,才能在session中使用。
init = tf.initialize_all_variables()
sess = tf.Session()
sess.run(init)

# 1000次迭代,每次加载50个训练样本,然后执行一次train_step,并通过feed_dict将x 和 y_张量占位符用训练训练数据替代。
for i in range(1000):
  batch_xs, batch_ys = mnist.train.next_batch(100)
  sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})

# 模型评估
# tf.argmax(y,1),y对象在行维度上数据最大值的索引,y是one-hot的标签,最大值的索引就是代表第几类
# 同理tf.argmax(y_,1),y_对象在行维度上数据最大值的索引,y_是模型预测值,最大值(就是最大概率)的索引就是代表第几类
# tf.equal 比较实际标签和预测标签是否相等,返回一个由布尔值构成的list,[True,False,...,False]
# accuracy计算得到准确率,最终准确率为91%+
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))