EHN: add boxcox in fixes

glemaitre · glemaitre · commit 08960ec95d0f · 2018-06-21T17:47:59.000+02:00
diff --git a/sklearn/preprocessing/data.py b/sklearn/preprocessing/data.py
@@ -24,7 +24,7 @@
 from ..utils import check_array
 from ..utils.extmath import row_norms
 from ..utils.extmath import _incremental_mean_and_var
-from ..utils.fixes import nanpercentile
+from ..utils.fixes import boxcox, nanpercentile
 from ..utils.sparsefuncs_fast import (inplace_csr_row_normalize_l1,
                                       inplace_csr_row_normalize_l2)
 from ..utils.sparsefuncs import (inplace_column_scale,
@@ -2480,10 +2480,7 @@ def fit(self, X, y=None):
             # the computation of lambda is influenced by NaNs and we need to
             # get rid of them to compute them.
             _, lmbda = stats.boxcox(col[~np.isnan(col)], lmbda=None)
-            # FIXME: stats.boxcox should be changed by special.boxcox which
-            # handles NaN and does not raise warnings. Check SciPy 0.14.X
-            with np.errstate(invalid='ignore'):  # hide NaN comparison warnings
-                col_trans = stats.boxcox(col, lmbda)
+            col_trans = boxcox(col, lmbda)
             self.lambdas_.append(lmbda)
             transformed.append(col_trans)
 
@@ -2507,11 +2504,8 @@ def transform(self, X):
         check_is_fitted(self, 'lambdas_')
         X = self._check_input(X, check_positive=True, check_shape=True)
 
-        # FIXME: stats.boxcox should be changed by special.boxcox which handles
-        # NaN and does not raise warnings. Check SciPy 0.14.X
-        with np.errstate(invalid='ignore'):  # hide NaN comparison warnings
-            for i, lmbda in enumerate(self.lambdas_):
-                X[:, i] = stats.boxcox(X[:, i], lmbda)
+        for i, lmbda in enumerate(self.lambdas_):
+            X[:, i] = boxcox(X[:, i], lmbda)
 
         if self.standardize:
             X = self._scaler.transform(X)
diff --git a/sklearn/utils/fixes.py b/sklearn/utils/fixes.py
@@ -70,6 +70,17 @@ def divide(x1, x2, out=None, dtype=None):
         return out
 
 
+# boxcox ignore NaN in scipy.special.boxcox after 0.14
+if sp_version < (0, 14):
+    from scipy import stats
+
+    def boxcox(x, lmbda):
+        with np.errstate(invalid='ignore'):
+            return stats.boxcox(x, lmbda)
+else:
+    from scipy.special import boxcox
+
+
 if sp_version < (0, 15):
     # Backport fix for scikit-learn/scikit-learn#2986 / scipy/scipy#4142
     from ._scipy_sparse_lsqr_backport import lsqr as sparse_lsqr