Add files via upload

romeokienzler · web-flow · commit 42cd6d0b9cab · 2021-09-15T14:59:08.000+02:00
diff --git a/component-library/output/output-postgresql.ipynb b/component-library/output/output-postgresql.ipynb
@@ -0,0 +1,171 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Output RDMBS Alchemy"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "This component pushes data to any RDMBS supported by SQLAlchemy as CSV on a given table. Parameters like host, database, user, password and table name need to be set.\n",
+    "\n",
+    "Currently only append mode is supported via the execute_batch helper. Optionally, you can flush (truncate) the table before.\n",
+    "\n",
+    "The current implementation loads all data into main memory (via pandas) first. Better implementations can be found below, PRs welcome!\n",
+    "\n",
+    "https://hakibenita.com/fast-load-data-python-postgresql"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!pip install sqlalchemy==1.4.23 pandas==1.3.1 psycopg2-binary==2.9.1"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "import pandas as pd\n",
+    "import psycopg2 \n",
+    "import re\n",
+    "from sqlalchemy import create_engine\n",
+    "import sys"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# data to load (expects CSV file with header)\n",
+    "data_csv = os.environ.get('data_csv', 'data.csv')\n",
+    "\n",
+    "# type of database server (sqlalchemy dialect), e.g. postgresql\n",
+    "db_type = os.environ.get('db_type','postgresql')\n",
+    "\n",
+    "# hostname of database server\n",
+    "host = os.environ.get('host')\n",
+    "\n",
+    "# database name\n",
+    "database = os.environ.get('database')\n",
+    "\n",
+    "# db user\n",
+    "user = os.environ.get('user')\n",
+    "\n",
+    "# db password\n",
+    "password = os.environ.get('password')\n",
+    "\n",
+    "# db port\n",
+    "port = int(os.environ.get('port', 5432))\n",
+    "\n",
+    "# schema name\n",
+    "schema = os.environ.get('schema')\n",
+    "\n",
+    "# table name\n",
+    "table = os.environ.get('table')\n",
+    "\n",
+    "# truncate table before insert\n",
+    "truncate = bool(os.environ.get('truncate', False))\n",
+    "\n",
+    "# temporal data storage for local execution\n",
+    "data_dir = os.environ.get('data_dir', '../../data/')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "parameters = list(\n",
+    "  map(\n",
+    "      lambda s: re.sub('$', '\"', s),\n",
+    "      map(\n",
+    "          lambda s: s.replace('=', '=\"'),\n",
+    "          filter(\n",
+    "              lambda s: s.find('=') > -1 and bool(re.match('[A-Za-z0-9_]*=[.\\/A-Za-z0-9]*', s)),\n",
+    "              sys.argv\n",
+    "          )\n",
+    "      )\n",
+    "  )\n",
+    ")\n",
+    "\n",
+    "for parameter in parameters:\n",
+    "    logging.warning('Parameter: '+parameter) \n",
+    "    exec(parameter)\n",
+    "    \n",
+    "truncate = bool(truncate)\n",
+    "port = int(port)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from sqlalchemy import create_engine\n",
+    "from sqlalchemy.orm import sessionmaker\n",
+    "\n",
+    "engine = create_engine(f'{db_type}://{user}:{password}@{host}:{port}/{database}')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "if truncate:\n",
+    "    with engine.connect() as con:\n",
+    "        con.execution_options(autocommit=True).execute(f'TRUNCATE TABLE {schema}.{table};')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "Session = sessionmaker(bind=engine) \n",
+    "\n",
+    "with Session() as session:\n",
+    "    df = pd.read_csv(data_dir + data_csv) \n",
+    "    df.to_sql(table, con=engine, if_exists='append',index=False)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.6"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}