Small extensions & add new dataset (#49)

PetrovKP · web-flow · commit 3a0d7b95ced9 · 2021-01-12T14:47:24.000+03:00
diff --git a/configs/cuml_config.json b/configs/cuml_config.json
@@ -307,6 +307,27 @@
             "C": [1.0],
             "kernel": ["rbf"]
         },
+        {
+            "algorithm": "svm",
+            "dataset": [
+                {
+                    "source": "csv",
+                    "name": "skin_segmentation",
+                    "training":
+                    {
+                        "x": "data/skin_segmentation_x_train.csv",
+                        "y": "data/skin_segmentation_y_train.csv"
+                    },
+                    "testing":
+                    {
+                        "x": "data/skin_segmentation_x_test.csv",
+                        "y": "data/skin_segmentation_y_test.csv"
+                    }
+                }
+            ],
+            "C": [1.0],
+            "kernel": ["rbf"]
+        },
         {
             "algorithm": "dbscan",
             "dataset": [
diff --git a/datasets/load_datasets.py b/datasets/load_datasets.py
@@ -20,7 +20,8 @@
 import logging
 
 from .loader import (a9a, gisette, ijcnn, skin_segmentation,
-                     klaverjas, connect, mnist, sensit, covertype)
+                     klaverjas, connect, mnist, sensit,
+                     covertype, codrnanorm)
 
 dataset_loaders = {
     "a9a": a9a,
@@ -32,6 +33,7 @@
     "mnist": mnist,
     "sensit": sensit,
     "covertype": covertype,
+    "codrnanorm": codrnanorm,
 }
 
 
diff --git a/datasets/loader.py b/datasets/loader.py
@@ -37,7 +37,7 @@ def a9a(dataset_dir=None):
     a9a X train dataset (39073, 123)
     a9a y train dataset (39073, 1)
     a9a X test dataset  (9769,  123)
-    a9a y train dataset (9769,  1)
+    a9a y test dataset  (9769,  1)
     """
     dataset_name = 'a9a'
     os.makedirs(dataset_dir, exist_ok=True)
@@ -75,7 +75,7 @@ def ijcnn(dataset_dir=None):
     ijcnn X train dataset (153344, 22)
     ijcnn y train dataset (153344, 1)
     ijcnn X test dataset  (38337,  22)
-    ijcnn y train dataset (38337,  1)
+    ijcnn y test dataset  (38337,  1)
     """
     dataset_name = 'ijcnn'
     os.makedirs(dataset_dir, exist_ok=True)
@@ -113,7 +113,7 @@ def skin_segmentation(dataset_dir=None):
     skin_segmentation X train dataset (196045, 3)
     skin_segmentation y train dataset (196045, 1)
     skin_segmentation X test dataset  (49012,  3)
-    skin_segmentation y train dataset (49012,  1)
+    skin_segmentation y test dataset  (49012,  1)
     """
     dataset_name = 'skin_segmentation'
     os.makedirs(dataset_dir, exist_ok=True)
@@ -151,7 +151,7 @@ def klaverjas(dataset_dir=None):
     klaverjas X train dataset (196045, 3)
     klaverjas y train dataset (196045, 1)
     klaverjas X test dataset  (49012,  3)
-    klaverjas y train dataset (49012,  1)
+    klaverjas y test dataset  (49012,  1)
     """
     dataset_name = 'klaverjas'
     os.makedirs(dataset_dir, exist_ok=True)
@@ -184,7 +184,7 @@ def connect(dataset_dir=None):
     connect X train dataset (196045, 127)
     connect y train dataset (196045, 1)
     connect X test dataset  (49012,  127)
-    connect y train dataset (49012,  1)
+    connect y test dataset  (49012,  1)
     """
     dataset_name = 'connect'
     os.makedirs(dataset_dir, exist_ok=True)
@@ -223,7 +223,7 @@ def mnist(dataset_dir=None):
     mnist X train dataset (60000, 784)
     mnist y train dataset (60000, 1)
     mnist X test dataset  (10000,  784)
-    mnist y train dataset (10000,  1)
+    mnist y test dataset  (10000,  1)
     """
     dataset_name = 'mnist'
 
@@ -258,7 +258,7 @@ def sensit(dataset_dir=None):
     sensit X train dataset (196045, 3)
     sensit y train dataset (196045, 1)
     sensit X test dataset  (49012,  3)
-    sensit y train dataset (49012,  1)
+    sensit y test dataset  (49012,  1)
     """
     dataset_name = 'sensit'
     os.makedirs(dataset_dir, exist_ok=True)
@@ -285,12 +285,16 @@ def sensit(dataset_dir=None):
 
 def covertype(dataset_dir=None):
     """
-
-    covertype X train dataset (196045, 3)
-    covertype y train dataset (196045, 1)
-    covertype X test dataset  (49012,  3)
-    covertype y train dataset (49012,  1)
-
+    Abstract: This is the original version of the famous
+    covertype dataset in ARFF format.
+    Author: Jock A. Blackard, Dr. Denis J. Dean, Dr. Charles W. Anderson
+    Source: [original](https://archive.ics.uci.edu/ml/datasets/covertype)
+
+    Classification task. n_classes = 7.
+    covertype X train dataset (390852, 54)
+    covertype y train dataset (390852, 1)
+    covertype X test dataset  (97713,  54)
+    covertype y test dataset  (97713,  1)
     """
     dataset_name = 'covertype'
     os.makedirs(dataset_dir, exist_ok=True)
@@ -313,6 +317,41 @@ def covertype(dataset_dir=None):
     return True
 
 
+def codrnanorm(dataset_dir=None):
+    """
+    Abstract: Detection of non-coding RNAs on the basis of predicted secondary
+    structure formation free energy change.
+    Author: Andrew V Uzilov,Joshua M Keegan,David H Mathews.
+    Source: [original](http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets)
+
+    Classification task. n_classes = 2.
+    codrnanorm X train dataset (390852, 8)
+    codrnanorm y train dataset (390852, 1)
+    codrnanorm X test dataset  (97713,  8)
+    codrnanorm y test dataset  (97713,  1)
+    """
+    dataset_name = 'codrnanorm'
+    os.makedirs(dataset_dir, exist_ok=True)
+
+    X, y = fetch_openml(name='codrnaNorm', return_X_y=True,
+                        as_frame=False, data_home=dataset_dir)
+    X = pd.DataFrame(X.todense())
+    y = pd.DataFrame(y)
+
+    logging.info(f'{dataset_name} dataset is downloaded')
+    logging.info('reading CSV file...')
+
+    x_train, x_test, y_train, y_test = train_test_split(
+        X, y, test_size=0.2, random_state=42)
+    for data, name in zip((x_train, x_test, y_train, y_test),
+                          ('x_train', 'x_test', 'y_train', 'y_test')):
+        filename = f'{dataset_name}_{name}.csv'
+        data.to_csv(os.path.join(dataset_dir, filename),
+                    header=False, index=False)
+    logging.info(f'dataset {dataset_name} ready.')
+    return True
+
+
 def gisette(dataset_dir=None):
     """
     GISETTE is a handwritten digit recognition problem.
@@ -323,7 +362,7 @@ def gisette(dataset_dir=None):
     gisette X train dataset (6000, 5000)
     gisette y train dataset (6000, 1)
     gisette X test dataset  (1000, 5000)
-    gisette y train dataset (1000, 1)
+    gisette y test dataset  (1000, 1)
     """
     dataset_name = 'gisette'
     os.makedirs(dataset_dir, exist_ok=True)
diff --git a/runner.py b/runner.py
@@ -80,7 +80,11 @@ def generate_cases(params):
     # make directory for data if it doesn't exist
     os.makedirs('data', exist_ok=True)
 
-    json_result = {'hardware': {}, 'software': {}, 'results': []}
+    json_result = {
+        'hardware': utils.get_hw_parameters(),
+        'software': utils.get_sw_parameters(),
+        'results': []
+    }
     is_successful = True
 
     for config_name in args.configs.split(','):
@@ -106,25 +110,24 @@ def generate_cases(params):
             for dataset in params_set['dataset']:
                 if dataset['source'] in ['csv', 'npy']:
                     train_data = dataset["training"]
-                    test_data = dataset["testing"]
-
                     file_train_data_x = train_data["x"]
-                    file_train_data_y = train_data["y"]
-                    file_test_data_x = test_data["x"]
-                    file_test_data_y = test_data["y"]
                     paths = f'--file-X-train {file_train_data_x}'
                     if 'y' in dataset['training'].keys():
+                        file_train_data_y = train_data["y"]
                         paths += f' --file-y-train {file_train_data_y}'
                     if 'testing' in dataset.keys():
+                        test_data = dataset["testing"]
+                        file_test_data_x = test_data["x"]
                         paths += f' --file-X-test {file_test_data_x}'
                         if 'y' in dataset['testing'].keys():
+                            file_test_data_y = test_data["y"]
                             paths += f' --file-y-test {file_test_data_y}'
                     if 'name' in dataset.keys():
                         dataset_name = dataset['name']
                     else:
                         dataset_name = 'unknown'
 
-                    if not utils.is_exists_files([file_train_data_x, file_train_data_y]):
+                    if not utils.is_exists_files([file_train_data_x]):
                         directory_dataset = pathlib.Path(file_train_data_x).parent
                         if not try_load_dataset(dataset_name=dataset_name,
                                                 output_directory=directory_dataset):