Some general fixes, report test fixes.

biolab · sstanovnik · Jun 10, 2016 · Jun 17, 2016 · Jun 17, 2016 · Jun 22, 2016
commit 98b745f19d87ef4e3d931ad46c7c6941f6827231
diff --git a/Orange/data/io.py b/Orange/data/io.py
@@ -504,6 +504,7 @@ def header_test3(items):
             # there is no header, just read the file
             # and pass it to the proper constructor to infer columns
             result = Table.from_dataframe(None, self.read_contents(skiprows=0))
+        result.consolidate(inplace=True)
 
         # TODO: Name can be set unconditionally when/if
         # self.filename will always be a string with the file name.

diff --git a/Orange/data/table/base.py b/Orange/data/table/base.py
@@ -1,18 +1,14 @@
 import os
-import zlib
 from collections import Sequence
 from threading import Lock
 from numbers import Number
-from io import StringIO
 
 from itertools import chain
 import numpy as np
 import scipy.sparse as sp
 import pandas as pd
-import pandas.core.internals
 
-from Orange.data import Domain, StringVariable, ContinuousVariable, \
-    DiscreteVariable, Variable, TimeVariable, filter_visible
+from Orange.data import Domain, DiscreteVariable, Variable, TimeVariable, filter_visible
 from Orange.util import flatten, deprecated
 
 
@@ -538,15 +534,9 @@ def from_list(cls, domain, rows, weights=None):
             raise ValueError("Mismatching number of instances and weights.")
         # check dimensions, pandas raises a very nondescript error
         row_width = len(rows[0])
-        for r in rows:
-            if len(r) != row_width:
-                raise ValueError("Inconsistent number of columns.")
-
-        # check row lengths
         domain_columns = len(domain.variables) + len(domain.metas)
-        for r in rows:
-            if len(r) != domain_columns:
-                raise ValueError("Data and domain column count mismatch. ")
+        if row_width != domain_columns or any(len(r) != domain_columns for r in rows):
+            raise ValueError("Inconsistent number of columns.")
 
         result = cls(data=rows,
                      columns=[a.name for a in chain(domain.attributes, domain.class_vars, domain.metas)])
@@ -1054,7 +1044,7 @@ def copy_rename_vars(vars, suffix):
         result.domain = tmpdomain  # we don't want to transfer the domain, specifically
         return cls.from_dataframe(new_domain, result)
 
-    def merge(self, right, *args, **kwargs):
+    def merge(self, right, *args, suffixes=('_left', '_right'), **kwargs):
         """Merge two Tables. pd.DataFrame.merge wrapper.
 
         Handles internal columns and domain merging. Renames duplicates appropriately.
@@ -1063,8 +1053,12 @@ def merge(self, right, *args, **kwargs):
         ----------
         right : TableBase
             The other Table to merge.
-        args
-        kwargs
+        args : tuple
+            Other pandas.DataFrame.merge arguments.
+        suffixes : tuple
+            Overrides the pandas.DataFrame.merge duplicate column suffixes with _left and _right.
+        kwargs : dict
+            Other pandas.DataFrame.merge keyword arguments.
 
         Returns
         -------
@@ -1075,11 +1069,8 @@ def merge(self, right, *args, **kwargs):
         --------
         pd.DataFrame.merge
         """
-        # rename default suffixes
-        suffix_left, suffix_right = kwargs.get('suffixes', ('_left', '_right'))
-        kwargs['suffixes'] = (suffix_left, suffix_right)
         # let pandas do its thing
-        result = super().merge(right, *args, **kwargs)
+        result = super().merge(right, *args, suffixes=suffixes, **kwargs)
 
         # transfer attrs from self
         result.__finalize__(self)
@@ -1095,7 +1086,7 @@ def merge(self, right, *args, **kwargs):
         # process a list of variables, appending suffix if not found in the
         # resulting columns (that means it was a dup)
         def suffix_dups(varlist, suffix):
-            return [v if v in result.columns else v.copy(new_name=v.name + suffix) for v in varlist]
+            return (v if v in result.columns else v.copy(new_name=v.name + suffix) for v in varlist)
 
         # dedup because the target join valriable doesn't get renamed and there is
         # only one column, wehile without this, the domain would have two
@@ -1105,12 +1096,12 @@ def dedup_inorder(varlist):
 
         # merge domain
         new_domain = Domain(
-            dedup_inorder(suffix_dups(self.domain.attributes, suffix_left) +
-                          suffix_dups(right.domain.attributes, suffix_right)),
-            dedup_inorder(suffix_dups(self.domain.class_vars, suffix_left) +
-                          suffix_dups(right.domain.class_vars, suffix_right)),
-            dedup_inorder(suffix_dups(self.domain.metas, suffix_left) +
-                          suffix_dups(right.domain.metas, suffix_right))
+            dedup_inorder(chain(suffix_dups(self.domain.attributes, suffixes[0]),
+                                suffix_dups(right.domain.attributes, suffixes[1]))),
+            dedup_inorder(chain(suffix_dups(self.domain.class_vars, suffixes[0]),
+                                suffix_dups(right.domain.class_vars, suffixes[1]))),
+            dedup_inorder(chain(suffix_dups(self.domain.metas, suffixes[0]),
+                                suffix_dups(right.domain.metas, suffixes[1])))
         )
         result.domain = new_domain
 
@@ -1150,7 +1141,7 @@ def iterrows(self):
 
     def __hash__(self):
         # TODO: inconsistent when dtype=object
-        return hash(bytes(self.values))
+        return hash(bytes(self._to_numpy(X=True, Y=True)))
 
     @deprecated('pandas-style column access: t[["colname1", "colname2"]]')
     def get_column_view(self, index):

diff --git a/Orange/widgets/data/owcolor.py b/Orange/widgets/data/owcolor.py
@@ -429,7 +429,7 @@ def was(n, o):
                     format(name, values)
             return rows
 
-        if not self.data:
+        if self.data is None:
             return
         domain = self.data.domain
         orig_domain = self.orig_domain

diff --git a/Orange/widgets/data/owimageviewer.py b/Orange/widgets/data/owimageviewer.py
@@ -987,7 +987,7 @@ def clear(self):
 
     def setupScene(self):
         self.error()
-        if self.data:
+        if self.data is not None:
             attr = self.stringAttrs[self.imageAttr]
             titleAttr = self.allAttrs[self.titleAttr]
             instances = [inst for inst in self.data
@@ -1090,7 +1090,7 @@ def onSelectionChanged(self):
         self.commit()
 
     def commit(self):
-        if self.data:
+        if self.data is not None:
             if self.selectedIndices:
                 selected = self.data[self.selectedIndices]
             else:

diff --git a/Orange/widgets/data/owpaintdata.py b/Orange/widgets/data/owpaintdata.py
@@ -1003,16 +1003,18 @@ def _check_and_set_data(data):
             return
 
         X = np.array([scale(vals) for vals in data.X[:, :2].T]).T
+        yi = -1
         try:
             y = next(cls for cls in data.domain.class_vars if cls.is_discrete)
+            yi += 1
         except StopIteration:
             if data.domain.class_vars:
                 self.Warning.continuous_target()
             self.input_classes = ["C1"]
             y = np.zeros(len(data))
         else:
             self.input_classes = y.values
-            y = data[:, y].Y
+            y = data.Y if data.domain.class_var else data.Y[:, yi]
 
         self.input_has_attr2 = len(data.domain.attributes) >= 2
         if not self.input_has_attr2:

diff --git a/Orange/widgets/data/owpurgedomain.py b/Orange/widgets/data/owpurgedomain.py
@@ -157,7 +157,7 @@ def list_opts(opts):
             ("Features", list_opts(self.feature_options)),
             ("Classes", list_opts(self.class_options)),
             ("Metas", list_opts(self.meta_options))))
-        if self.data:
+        if self.data is not None:
             self.report_items("Statistics", (
                 (label, getattr(self, value))
                 for label, value in self.stat_labels

diff --git a/Orange/widgets/data/owrank.py b/Orange/widgets/data/owrank.py
@@ -502,7 +502,7 @@ def updateDelegates(self):
         )
 
     def send_report(self):
-        if not self.data:
+        if self.data is None:
             return
         self.report_domain("Input", self.data.domain)
         self.report_table("Ranks", self.ranksView, num_format="{:.3f}")
@@ -542,7 +542,7 @@ def create_scores_table(self, labels):
         # Reshape to 2d array as Table does not like 1d arrays
         feature_names = feature_names[:, None]
 
-        table = Orange.data.Table(domain, scores, metas=feature_names)
+        table = Orange.data.Table(domain, scores, None, feature_names)
         table.name = "Feature Scores"
         return table
 

diff --git a/Orange/widgets/data/owselectcolumns.py b/Orange/widgets/data/owselectcolumns.py
@@ -651,7 +651,7 @@ def reset(self):
             self.update_domain_role_hints()
 
     def send_report(self):
-        if not self.data or not self.output_data:
+        if self.data is None or self.output_data is None:
             return
         in_domain, out_domain = self.data.domain, self.output_data.domain
         self.report_domain("Input data", self.data.domain)

diff --git a/Orange/widgets/data/owselectrows.py b/Orange/widgets/data/owselectrows.py
@@ -315,7 +315,7 @@ def add_datetime(contents):
                 self.cond_list.setCellWidget(oper_combo.row, 2, button)
             else:
                 combo = QtGui.QComboBox()
-                combo.addItems([""] + var.values)
+                combo.addItems([""] + [str(v) for v in var.values])
                 if lc[0]:
                     combo.setCurrentIndex(int(var.to_val(lc[0])))
                 else:
@@ -455,7 +455,7 @@ def sp(s, capitalize=True):
             sp(len(data.domain.variables) + len(data.domain.metas))))
 
     def send_report(self):
-        if not self.data:
+        if self.data is None:
             self.report_paragraph("No data.")
             return
 

diff --git a/Orange/widgets/data/tests/test_owmergedata.py b/Orange/widgets/data/tests/test_owmergedata.py
diff --git a/Orange/widgets/evaluate/owtestlearners.py b/Orange/widgets/evaluate/owtestlearners.py
@@ -627,7 +627,7 @@ def commit(self):
 
     def send_report(self):
         """Report on the testing schema and results"""
-        if not self.data or not self.learners:
+        if self.data is None or not self.learners:
             return
         if self.resampling == self.KFold:
             stratified = 'Stratified ' if self.cv_stratified else ''

diff --git a/Orange/widgets/unsupervised/owcorrespondence.py b/Orange/widgets/unsupervised/owcorrespondence.py
@@ -208,7 +208,7 @@ def _setup_plot(self):
             self.plot.addItem(item)
 
             for name, point in zip(v.values, points):
-                item = pg.TextItem(name, anchor=(0.5, 0))
+                item = pg.TextItem(str(name), anchor=(0.5, 0))
                 self.plot.addItem(item)
                 item.setPos(point[0], point[1])
 

diff --git a/Orange/widgets/unsupervised/owpca.py b/Orange/widgets/unsupervised/owpca.py
@@ -371,8 +371,7 @@ def commit(self):
             metas = numpy.array([['PC{}'.format(i + 1)
                                   for i in range(self.ncomponents)]],
                                 dtype=object).T
-            components = Table(dom, self._pca.components_[:self.ncomponents],
-                               metas=metas)
+            components = Table(dom, self._pca.components_[:self.ncomponents], None, metas)
             components.name = 'components'
 
         self._pca_projector.component = self.ncomponents

diff --git a/Orange/widgets/utils/owlearnerwidget.py b/Orange/widgets/utils/owlearnerwidget.py
@@ -206,7 +206,7 @@ def send_report(self):
         if model_parameters:
             self.report_items("Model parameters", model_parameters)
 
-        if self.data:
+        if self.data is not None:
             self.report_data("Data", self.data)
 
     # GUI

diff --git a/Orange/widgets/visualize/owboxplot.py b/Orange/widgets/visualize/owboxplot.py
@@ -719,7 +719,7 @@ def strudel(self, dist):
             else:
                 tooltip = "{}: {}".format(attr.values[i], int(dist[i]))
             rect.setToolTip(tooltip)
-            text = QtGui.QGraphicsTextItem(attr.values[i])
+            text = QtGui.QGraphicsTextItem(str(attr.values[i]))
             box.addToGroup(text)
             cum += v
         return box

diff --git a/Orange/widgets/visualize/owdistributions.py b/Orange/widgets/visualize/owdistributions.py
@@ -465,7 +465,7 @@ def display_contingency(self):
             scvar = cont.sum(axis=1)
             #a cvar with sum=0 with allways have distribution counts 0,
             #therefore we can divide it by anything
-            scvar[scvar==0] = 1
+            scvar[scvar == 0] = 1
             for i, (value, dist) in enumerate(zip(var.values, cont.T)):
                 maxh = max(maxh, max(dist))
                 maxrh = max(maxrh, max(dist/scvar))
@@ -484,9 +484,9 @@ def display_contingency(self):
                                            else dist/maxh, colors)
                 self.plot.addItem(item)
                 tooltip = "\n".join("%s: %.*f" % (n, 3 if self.relative_freq else 1,  v)
-                    for n,v in zip(cvar_values, dist/scvar if self.relative_freq else dist ))
+                    for n,v in zip(cvar_values, dist/scvar if self.relative_freq else dist))
                 item.tooltip = ("Normalized frequency " if self.relative_freq else "Frequency ") \
-                    + "(" + cvar.name + "=" + value + "):" \
+                    + "(" + cvar.name + "=" + str(value) + "):" \
                     + "\n" + tooltip
                 self.tooltip_items.append((self.plot, item))
 

diff --git a/Orange/widgets/visualize/owsieve.py b/Orange/widgets/visualize/owsieve.py
@@ -286,7 +286,7 @@ def update_graph(self):
         """Update the graph."""
 
         def text(txt, *args, **kwargs):
-            return CanvasText(self.canvas, "", html_text=to_html(txt),
+            return CanvasText(self.canvas, "", html_text=to_html(str(txt)),
                               *args, **kwargs)
 
         def width(txt):
@@ -359,15 +359,15 @@ def _oper(attr_name, txt):
                 "<b>{attrX}{xeq}{xval_name}</b>: {obs_x}/{n} ({p_x:.0f} %)".
                 format(attrX=to_html(attr_x),
                        xeq=_oper(attr_x, xval_name),
-                       xval_name=to_html(xval_name),
+                       xval_name=to_html(str(xval_name)),
                        obs_x=fmt(chi.probs_x[x] * n),
                        n=int(n),
                        p_x=100 * chi.probs_x[x]) +
                 "<br/>" +
                 "<b>{attrY}{yeq}{yval_name}</b>: {obs_y}/{n} ({p_y:.0f} %)".
                 format(attrY=to_html(attr_y),
                        yeq=_oper(attr_y, yval_name),
-                       yval_name=to_html(yval_name),
+                       yval_name=to_html(str(yval_name)),
                        obs_y=fmt(chi.probs_y[y] * n),
                        n=int(n),
                        p_y=100 * chi.probs_y[y]) +
@@ -393,7 +393,7 @@ def _oper(attr_name, txt):
 
         chi = ChiSqStats(self.discrete_data, attr_x, attr_y)
         n = chi.n
-        max_ylabel_w = max((width(val) for val in disc_y.values), default=0)
+        max_ylabel_w = max((width(str(val)) for val in disc_y.values), default=0)
         max_ylabel_w = min(max_ylabel_w, 200)
         x_off = width(attr_x) + max_ylabel_w
         y_off = 15