pytorch · weiyangfb · Jun 8, 2018 · May 25, 2018 · May 25, 2018 · May 31, 2018
diff --git a/test/test_nn.py b/test/test_nn.py
@@ -5578,6 +5578,18 @@ def bce_with_logistic_no_reduce_scalar_test():
         pickle=False)
 
 
+def kldivloss_with_target_no_reduce_test():
+    i = torch.rand(10, 10).log()
+    return dict(
+        fullname='KLDivLoss_with_target_no_reduce',
+        constructor=wrap_functional(
+            lambda t: F.kl_div(i.type_as(t), t, reduce=False)),
+        input_fn=lambda: torch.rand(10, 10),
+        reference_fn=lambda t, _:
+            loss_reference_fns['KLDivLoss'](i.type_as(t), t, reduce=False),
+        pickle=False)
+
+
 def kldivloss_no_reduce_test():
     t = torch.randn(10, 10)
     return dict(
@@ -6030,6 +6042,7 @@ def multimarginloss_weights_no_reduce_test():
     bceloss_no_reduce_scalar_test(),
     bceloss_weights_no_reduce_scalar_test(),
     bce_with_logistic_no_reduce_scalar_test(),
+    kldivloss_with_target_no_reduce_test(),
     kldivloss_no_reduce_test(),
     kldivloss_no_reduce_scalar_test(),
     l1loss_no_reduce_test(),

diff --git a/tools/autograd/derivatives.yaml b/tools/autograd/derivatives.yaml
@@ -718,6 +718,7 @@
 
 - name: kl_div_forward(Tensor self, Tensor target, bool size_average, bool reduce)
   self: kl_div_backward(grad, self, target, size_average, reduce)
+  target: kl_div_target_backward(grad, self, target, size_average, reduce)
 
 - name: l1_loss_forward(Tensor self, Tensor target, bool size_average, bool reduce)
   self: l1_loss_backward(grad, self, target, size_average, reduce)
@@ -963,6 +964,7 @@
 - name: kl_div_backward(Tensor grad_output, Tensor self, Tensor target, bool size_average, bool reduce)
   grad_output: kl_div_double_backward_grad_output(grad, self, target, size_average, reduce)
   self: zeros_like(grad)
+  target: zeros_like(grad)
 
 - name: l1_loss_backward(Tensor grad_output, Tensor self, Tensor target, bool size_average, bool reduce)
   grad_output: l1_loss_double_backward_grad_output(grad, self, target, size_average, reduce)

diff --git a/tools/autograd/templates/Functions.cpp b/tools/autograd/templates/Functions.cpp
@@ -665,6 +665,18 @@ Tensor kl_div_double_backward_grad_output(const Tensor & grad, const Tensor & in
   return result;
 }
 
+// Compute derivatives for targets.
+// Assume targets are given as probabilities (i.e. without taking the logarithm).
+Tensor kl_div_target_backward(Tensor grad_output, Tensor self, Tensor target, bool size_average, bool reduce) {
+  if (!reduce) {
+    return grad_output.mul(target.log().add_(1).sub_(self)).masked_fill_(target == 0, 0.);
+  }
+  if (size_average) {
+    return grad_output.mul(target.log().add_(1).sub_(self)).div_(target.numel()).masked_fill_(target == 0, 0.);
+  }
+  return grad_output.mul(target.log().add_(1).sub_(self)).masked_fill_(target == 0, 0.);
+}
+
 Tensor log_sigmoid_double_backward(const Tensor & grad, const Tensor & input) {
   auto z = input.sigmoid();
   return grad * (z - 1) * z;