Merge branch 'develop' of github.com:openml/openml-python into task_tagging

amueller · amueller · commit cfa5f2a1d2d3 · 2017-10-13T11:50:45.000+02:00
diff --git a/doc/usage.rst b/doc/usage.rst
diff --git a/examples/OpenML_Tutorial.ipynb b/examples/OpenML_Tutorial.ipynb
@@ -24,9 +24,7 @@
   },
   {
    "cell_type": "raw",
-   "metadata": {
-    "collapsed": true
-   },
+   "metadata": {},
    "source": [
     "# Install OpenML (developer version)\n",
     "# 'pip install openml' coming up (october 2017) \n",
@@ -842,8 +840,9 @@
    ],
    "source": [
     "X, y, attribute_names = dataset.get_data(\n",
-    "    target=dataset.default_target_attribute, \n",
-    "    return_attribute_names=True)\n",
+    "    target=dataset.default_target_attribute,\n",
+    "    return_attribute_names=True,\n",
+    ")\n",
     "eeg = pd.DataFrame(X, columns=attribute_names)\n",
     "eeg['class'] = y\n",
     "print(eeg[:10])"
@@ -989,7 +988,8 @@
     "dataset = oml.datasets.get_dataset(10)\n",
     "X, y, categorical = dataset.get_data(\n",
     "    target=dataset.default_target_attribute,\n",
-    "    return_categorical_indicator=True)\n",
+    "    return_categorical_indicator=True,\n",
+    ")\n",
     "print(\"Categorical features: %s\" % categorical)\n",
     "enc = preprocessing.OneHotEncoder(categorical_features=categorical)\n",
     "X = enc.fit_transform(X)\n",
@@ -1547,7 +1547,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.6.0"
+   "version": "3.6.1"
   }
  },
  "nbformat": 4,
diff --git a/openml/datasets/dataset.py b/openml/datasets/dataset.py
@@ -87,12 +87,7 @@ def __init__(self, dataset_id=None, name=None, version=None, description=None,
                     raise ValueError('Data features not provided in right order')
                 self.features[feature.index] = feature
 
-        if qualities is not None:
-            self.qualities = {}
-            for idx, xmlquality in enumerate(qualities['oml:quality']):
-                name = xmlquality['oml:name']
-                value = xmlquality['oml:value']
-                self.qualities[name] = value
+        self.qualities = _check_qualities(qualities)
 
         if data_file is not None:
             if self._data_features_supported():
@@ -205,10 +200,12 @@ def decode_arff(fh):
             with io.open(filename, encoding='utf8') as fh:
                 return decode_arff(fh)
 
-    def get_data(self, target=None, target_dtype=int, include_row_id=False,
+    def get_data(self, target=None,
+                 include_row_id=False,
                  include_ignore_attributes=False,
                  return_categorical_indicator=False,
-                 return_attribute_names=False):
+                 return_attribute_names=False
+    ):
         """Returns dataset content as numpy arrays / sparse matrices.
 
         Parameters
@@ -246,7 +243,10 @@ def get_data(self, target=None, target_dtype=int, include_row_id=False,
             if not self.ignore_attributes:
                 pass
             else:
-                to_exclude.extend(self.ignore_attributes)
+                if isinstance(self.ignore_attributes, six.string_types):
+                    to_exclude.append(self.ignore_attributes)
+                else:
+                    to_exclude.extend(self.ignore_attributes)
 
         if len(to_exclude) > 0:
             logger.info("Going to remove the following attributes:"
@@ -265,6 +265,17 @@ def get_data(self, target=None, target_dtype=int, include_row_id=False,
                 target = [target]
             targets = np.array([True if column in target else False
                                 for column in attribute_names])
+            if np.sum(targets) > 1:
+                raise NotImplementedError(
+                    "Number of requested targets %d is not implemented." %
+                    np.sum(targets)
+                )
+            target_categorical = [
+                cat for cat, column in
+                six.moves.zip(categorical, attribute_names)
+                if column in target
+            ]
+            target_dtype = int if target_categorical[0] else float
 
             try:
                 x = data[:, ~targets]
@@ -442,3 +453,21 @@ def _data_features_supported(self):
                     return False
             return True
         return True
+
+
+
+def _check_qualities(qualities):
+    if qualities is not None:
+        qualities_ = {}
+        for xmlquality in qualities:
+            name = xmlquality['oml:name']
+            if xmlquality['oml:value'] is None:
+                value = float('NaN')
+            elif xmlquality['oml:value'] == 'null':
+                value = float('NaN')
+            else:
+                value = float(xmlquality['oml:value'])
+            qualities_[name] = value
+        return qualities_
+    else:
+        return None
diff --git a/openml/datasets/functions.py b/openml/datasets/functions.py
@@ -116,7 +116,7 @@ def _get_cached_dataset_qualities(dataset_id):
     try:
         with io.open(qualities_file, encoding='utf8') as fh:
             qualities_xml = fh.read()
-            return xmltodict.parse(qualities_xml)["oml:data_qualities"]
+            return xmltodict.parse(qualities_xml)["oml:data_qualities"]['oml:quality']
     except (IOError, OSError):
         raise OpenMLCacheException("Dataset qualities for dataset id %d not "
                                    "cached" % dataset_id)
@@ -454,7 +454,7 @@ def _get_dataset_qualities(did_cache_dir, dataset_id):
         with io.open(qualities_file, "w", encoding='utf8') as fh:
             fh.write(qualities_xml)
 
-    qualities = xmltodict.parse(qualities_xml, force_list=('oml:quality',))['oml:data_qualities']
+    qualities = xmltodict.parse(qualities_xml, force_list=('oml:quality',))['oml:data_qualities']['oml:quality']
 
     return qualities
 
diff --git a/openml/tasks/task.py b/openml/tasks/task.py
@@ -36,21 +36,17 @@ def get_dataset(self):
         return datasets.get_dataset(self.dataset_id)
 
     def get_X_and_y(self):
+        """Get data associated with the current task.
+        
+        Returns
+        -------
+        tuple - X and y
+
+        """
         dataset = self.get_dataset()
-        # Replace with retrieve from cache
-        if self.task_type_id == 1:
-        # if 'Supervised Classification'.lower() in self.task_type.lower():
-            target_dtype = int
-        # elif 'Supervised Regression'.lower() in self.task_type.lower():
-        elif self.task_type_id == 2:
-            target_dtype = float
-        # elif ''.lower('Learning Curve') in self.task_type.lower():
-        elif self.task_type_id == 3:
-            target_dtype = int
-        else:
+        if self.task_type_id not in (1, 2, 3):
             raise NotImplementedError(self.task_type)
-        X_and_y = dataset.get_data(target=self.target_name,
-                                   target_dtype=target_dtype)
+        X_and_y = dataset.get_data(target=self.target_name)
         return X_and_y
 
     def get_train_test_split_indices(self, fold=0, repeat=0, sample=0):
diff --git a/tests/test_datasets/test_dataset.py b/tests/test_datasets/test_dataset.py
@@ -54,21 +54,28 @@ def test_get_data_with_target(self):
         self.assertIn(y.dtype, [np.int32, np.int64])
         self.assertEqual(X.shape, (898, 38))
         X, y, attribute_names = self.dataset.get_data(
-            target="class", return_attribute_names=True)
+            target="class",
+            return_attribute_names=True
+        )
         self.assertEqual(len(attribute_names), 38)
         self.assertNotIn("class", attribute_names)
         self.assertEqual(y.shape, (898, ))
 
     def test_get_data_rowid_and_ignore_and_target(self):
         self.dataset.ignore_attributes = ["condition"]
         self.dataset.row_id_attribute = ["hardness"]
-        X, y = self.dataset.get_data(target="class", include_row_id=False,
-                                     include_ignore_attributes=False)
+        X, y = self.dataset.get_data(
+            target="class",
+            include_row_id=False,
+            include_ignore_attributes=False
+        )
         self.assertEqual(X.dtype, np.float32)
         self.assertIn(y.dtype, [np.int32, np.int64])
         self.assertEqual(X.shape, (898, 36))
         X, y, categorical = self.dataset.get_data(
-            target="class", return_categorical_indicator=True)
+            target="class",
+            return_categorical_indicator=True,
+        )
         self.assertEqual(len(categorical), 36)
         self.assertListEqual(categorical, [True] * 3 + [False] + [True] * 2 + [
             False] + [True] * 23 + [False] * 3 + [True] * 3)
@@ -127,7 +134,9 @@ def test_get_sparse_dataset_with_target(self):
         self.assertIn(y.dtype, [np.int32, np.int64])
         self.assertEqual(X.shape, (600, 20000))
         X, y, attribute_names = self.sparse_dataset.get_data(
-            target="class", return_attribute_names=True)
+            target="class",
+            return_attribute_names=True,
+        )
         self.assertTrue(sparse.issparse(X))
         self.assertEqual(len(attribute_names), 20000)
         self.assertNotIn("class", attribute_names)
@@ -190,15 +199,34 @@ def test_get_sparse_dataset_rowid_and_ignore_and_target(self):
         self.sparse_dataset.ignore_attributes = ["V256"]
         self.sparse_dataset.row_id_attribute = ["V512"]
         X, y = self.sparse_dataset.get_data(
-            target="class", include_row_id=False,
-            include_ignore_attributes=False)
+            target="class",
+            include_row_id=False,
+            include_ignore_attributes=False,
+        )
         self.assertTrue(sparse.issparse(X))
         self.assertEqual(X.dtype, np.float32)
         self.assertIn(y.dtype, [np.int32, np.int64])
         self.assertEqual(X.shape, (600, 19998))
         X, y, categorical = self.sparse_dataset.get_data(
-            target="class", return_categorical_indicator=True)
+            target="class",
+            return_categorical_indicator=True,
+        )
         self.assertTrue(sparse.issparse(X))
         self.assertEqual(len(categorical), 19998)
         self.assertListEqual(categorical, [False] * 19998)
         self.assertEqual(y.shape, (600, ))
+
+
+class OpenMLDatasetQualityTest(TestBase):
+    def test__check_qualities(self):
+        qualities = [{'oml:name': 'a', 'oml:value': '0.5'}]
+        qualities = openml.datasets.dataset._check_qualities(qualities)
+        self.assertEqual(qualities['a'], 0.5)
+
+        qualities = [{'oml:name': 'a', 'oml:value': 'null'}]
+        qualities = openml.datasets.dataset._check_qualities(qualities)
+        self.assertNotEqual(qualities['a'], qualities['a'])
+
+        qualities = [{'oml:name': 'a', 'oml:value': None}]
+        qualities = openml.datasets.dataset._check_qualities(qualities)
+        self.assertNotEqual(qualities['a'], qualities['a'])
diff --git a/tests/test_datasets/test_dataset_functions.py b/tests/test_datasets/test_dataset_functions.py
@@ -73,7 +73,7 @@ def test__get_cached_dataset(self, ):
         self.assertIsInstance(dataset, OpenMLDataset)
         self.assertTrue(len(dataset.features) > 0)
         self.assertTrue(len(dataset.features) == len(features['oml:feature']))
-        self.assertTrue(len(dataset.qualities) == len(qualities['oml:quality']))
+        self.assertTrue(len(dataset.qualities) == len(qualities))
 
     def test_get_cached_dataset_description(self):
         openml.config.set_cache_directory(self.static_cache_dir)
@@ -209,7 +209,7 @@ def test__get_dataset_features(self):
     def test__get_dataset_qualities(self):
         # Only a smoke check
         qualities = _get_dataset_qualities(self.workdir, 2)
-        self.assertIsInstance(qualities, dict)
+        self.assertIsInstance(qualities, list)
 
     def test_deletion_of_cache_dir(self):
         # Simple removal