使用TensorFlow进行多标签文本分类

5 浏览2023年7月6日

匿名的 2023年7月7日

0 Comments

文本数据以一个有20000个元素的向量形式组织，如[2, 1, 0, 0, 5, ...., 0]。

第i个元素表示文本中第i个单词的频率。

地面真实标签数据也表示为一个有4000个元素的向量，如[0, 0, 1, 0, 1, ...., 0]。

第i个元素表示第i个标签是否是文本的正标签。

文本的标签数量因文本而异。

我有一个用于单标签文本分类的代码。

我该如何编辑以下代码以用于多标签文本分类？

特别是，我想知道以下几点。

如何使用TensorFlow计算准确率。
如何设置一个判断标签是否为正标签的阈值。例如，如果输出为[0.80, 0.43, 0.21, 0.01, 0.32]，地面真实标签为[1, 1, 0, 0, 1]，那么得分超过0.25的标签应被判断为正标签。

谢谢。

import tensorflow as tf
# 隐藏层
class HiddenLayer(object):
    def __init__(self, input, n_in, n_out):
        self.input = input
        w_h = tf.Variable(tf.random_normal([n_in, n_out],mean = 0.0,stddev = 0.05))
        b_h = tf.Variable(tf.zeros([n_out]))
        self.w = w_h
        self.b = b_h
        self.params = [self.w, self.b]
    def output(self):
        linarg = tf.matmul(self.input, self.w) + self.b
        self.output = tf.nn.relu(linarg)
        return self.output
# 输出层
class OutputLayer(object):
    def __init__(self, input, n_in, n_out):
        self.input = input
        w_o = tf.Variable(tf.random_normal([n_in, n_out], mean = 0.0, stddev = 0.05))
        b_o = tf.Variable(tf.zeros([n_out]))
        self.w = w_o
        self.b = b_o
        self.params = [self.w, self.b]
    def output(self):
        linarg = tf.matmul(self.input, self.w) + self.b
        self.output = tf.nn.relu(linarg)
        return self.output
# 模型
def model():
    h_layer = HiddenLayer(input = x, n_in = 20000, n_out = 1000)
    o_layer = OutputLayer(input = h_layer.output(), n_in = 1000, n_out = 4000)
    # 损失函数
    out = o_layer.output()
    cross_entropy = -tf.reduce_sum(y_*tf.log(out + 1e-9), name='xentropy')    
    # 正则化
    l2 = (tf.nn.l2_loss(h_layer.w) + tf.nn.l2_loss(o_layer.w))
    lambda_2 = 0.01
    # 计算损失
    loss = cross_entropy + lambda_2 * l2
    # 计算单标签分类任务的准确率
    correct_pred = tf.equal(tf.argmax(out, 1), tf.argmax(y, 1))
    accuracy = tf.reduce_mean(tf.cast(correct_pred, "float"))
    return loss, accuracy

如何在TensorFlow中选择交叉熵损失函数？

Tensorflow estimator ValueError: logits和labels必须具有相同的形状（（？，1）与（？，））

Tensorflow 精确率 / 召回率 / F1 分数和混淆矩阵

在使用PyTorch中的交叉熵损失时，我是否应该将softmax用作输出？

TensorFlow: "Attempting to use uninitialized value" 在变量初始化中的使用

ValueError: 无法压缩dim[1]，期望维度为1，得到了3 for 'sparse_softmax_cross_entropy_loss'。

不平衡的数据和加权交叉熵

区分过拟合和良好预测

LSTM过拟合但验证准确率没有提高

如何在 TensorFlow 图中添加 if 条件？

收到了一个标签值为1，超出了有效范围[0, 1) - Python，Keras

如何为超过两个类别获取预测标签？

如何在Keras中计算精确度和召回率

在TensorFlow中使用预训练的词嵌入（word2vec或Glove）

Tensorflow One Hot Encoder?

Keras准确率没有变化

Tensorflow - 使用批次数据对输入矩阵进行matmul运算

Tensorflow：logits和labels必须具有相同的第一个维度。

在TensorFlow训练过程中打印损失函数。

Tensorflow读取带有标签的图像

使用TensorFlow进行多标签文本分类

0 答案