fix(bigquery): interpret datetime columns from pandas dataframe as nanoseconds

tswast · tswast · commit ee48df81ee47 · 2020-01-02T14:31:11.000-06:00
Also:

* Enable TIMESTAMP and DATETIME unit tests for `_pandas_helpers`.
* Add more data types to load dataframe sample.
diff --git a/bigquery/samples/load_table_dataframe.py b/bigquery/samples/load_table_dataframe.py
@@ -16,9 +16,11 @@
 def load_table_dataframe(client, table_id):
 
     # [START bigquery_load_table_dataframe]
-    from google.cloud import bigquery
+    import datetime
 
+    from google.cloud import bigquery
     import pandas
+    import pytz
 
     # TODO(developer): Construct a BigQuery client object.
     # client = bigquery.Client()
@@ -27,16 +29,54 @@ def load_table_dataframe(client, table_id):
     # table_id = "your-project.your_dataset.your_table_name"
 
     records = [
-        {"title": u"The Meaning of Life", "release_year": 1983},
-        {"title": u"Monty Python and the Holy Grail", "release_year": 1975},
-        {"title": u"Life of Brian", "release_year": 1979},
-        {"title": u"And Now for Something Completely Different", "release_year": 1971},
+        {
+            "title": u"The Meaning of Life",
+            "release_year": 1983,
+            "length_minutes": 112.5,
+            "release_date": datetime.datetime(
+                1983, 5, 9, 13, 0, 0, tzinfo=pytz.timezone("Europe/Paris")
+            ),
+            "dvd_release": datetime.datetime(2002, 1, 22, 7, 0, 0),
+        },
+        {
+            "title": u"Monty Python and the Holy Grail",
+            "release_year": 1975,
+            "length_minutes": 91.5,
+            "release_date": datetime.datetime(
+                1975, 4, 9, 23, 59, 2, tzinfo=pytz.timezone("Europe/London")
+            ),
+            "dvd_release": datetime.datetime(2002, 7, 16, 9, 0, 0),
+        },
+        {
+            "title": u"Life of Brian",
+            "release_year": 1979,
+            "length_minutes": 94.25,
+            "release_date": datetime.datetime(
+                1979, 8, 17, 23, 59, 5, tzinfo=pytz.timezone("America/New_York")
+            ),
+            "dvd_release": datetime.datetime(2008, 1, 14, 8, 0, 0),
+        },
+        {
+            "title": u"And Now for Something Completely Different",
+            "release_year": 1971,
+            "length_minutes": 88.0,
+            "release_date": datetime.datetime(
+                1971, 9, 28, 23, 59, 7, tzinfo=pytz.timezone("Europe/London")
+            ),
+            "dvd_release": datetime.datetime(2003, 10, 22, 10, 0, 0),
+        },
     ]
     dataframe = pandas.DataFrame(
         records,
         # In the loaded table, the column order reflects the order of the
         # columns in the DataFrame.
-        columns=["title", "release_year"],
+        columns=[
+            "title",
+            "release_year",
+            "length_minutes",
+            "release_date",
+            "dvd_release",
+        ],
         # Optionally, set a named index, which can also be written to the
         # BigQuery table.
         index=pandas.Index(
diff --git a/bigquery/samples/tests/test_load_table_dataframe.py b/bigquery/samples/tests/test_load_table_dataframe.py
@@ -12,7 +12,10 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+import datetime
+
 import pytest
+import pytz
 
 from .. import load_table_dataframe
 
@@ -25,7 +28,80 @@ def test_load_table_dataframe(capsys, client, random_table_id):
 
     table = load_table_dataframe.load_table_dataframe(client, random_table_id)
     out, _ = capsys.readouterr()
-    assert "Loaded 4 rows and 3 columns" in out
+    expected_column_names = [
+        "wikidata_id",
+        "title",
+        "release_year",
+        "length_minutes",
+        "release_date",
+        "dvd_release",
+    ]
+    assert "Loaded 4 rows and {} columns".format(len(expected_column_names)) in out
 
     column_names = [field.name for field in table.schema]
-    assert column_names == ["wikidata_id", "title", "release_year"]
+    assert column_names == expected_column_names
+    column_types = [field.field_type for field in table.schema]
+    assert column_types == [
+        "STRING",
+        "STRING",
+        "INTEGER",
+        "FLOAT",
+        "TIMESTAMP",
+        "DATETIME",
+    ]
+
+    df = client.list_rows(table).to_dataframe()
+    df.sort_values("release_year", inplace=True)
+    expected_df = pandas.DataFrame(
+        [
+            {
+                "title": u"And Now for Something Completely Different",
+                "release_year": 1971,
+                "length_minutes": 88.0,
+                "release_date": datetime.datetime(
+                    1971, 9, 28, 23, 59, 7, tzinfo=pytz.timezone("Europe/London")
+                ),
+                "dvd_release": datetime.datetime(2003, 10, 22, 10, 0, 0),
+                "wikidata_id": u"Q16403",
+            },
+            {
+                "title": u"Monty Python and the Holy Grail",
+                "release_year": 1975,
+                "length_minutes": 91.5,
+                "release_date": datetime.datetime(
+                    1975, 4, 9, 23, 59, 2, tzinfo=pytz.timezone("Europe/London")
+                ),
+                "dvd_release": datetime.datetime(2002, 7, 16, 9, 0, 0),
+                "wikidata_id": u"Q25043",
+            },
+            {
+                "title": u"Life of Brian",
+                "release_year": 1979,
+                "length_minutes": 94.25,
+                "release_date": datetime.datetime(
+                    1979, 8, 17, 23, 59, 5, tzinfo=pytz.timezone("America/New_York")
+                ),
+                "dvd_release": datetime.datetime(2008, 1, 14, 8, 0, 0),
+                "wikidata_id": u"Q24953",
+            },
+            {
+                "title": u"The Meaning of Life",
+                "release_year": 1983,
+                "length_minutes": 112.5,
+                "release_date": datetime.datetime(
+                    1983, 5, 9, 13, 0, 0, tzinfo=pytz.timezone("Europe/Paris")
+                ),
+                "dvd_release": datetime.datetime(2002, 1, 22, 7, 0, 0),
+                "wikidata_id": u"Q24980",
+            },
+        ],
+        columns=[
+            "title",
+            "release_year",
+            "length_minutes",
+            "release_date",
+            "dvd_release",
+            "wikidata_id",
+        ]
+    )
+    assert df.equals(expected_df)
diff --git a/bigquery/tests/unit/test__pandas_helpers.py b/bigquery/tests/unit/test__pandas_helpers.py
@@ -386,20 +386,15 @@ def test_bq_to_arrow_data_type_w_struct_unknown_subfield(module_under_test):
         ),
         ("BOOLEAN", [True, None, False, None]),
         ("BOOL", [False, None, True, None]),
-        # TODO: Once https://issues.apache.org/jira/browse/ARROW-5450 is
-        # resolved, test with TIMESTAMP column. Conversion from pyarrow
-        # TimestampArray to list of Python objects fails with OverflowError:
-        # Python int too large to convert to C long.
-        #
-        # (
-        #     "TIMESTAMP",
-        #     [
-        #         datetime.datetime(1, 1, 1, 0, 0, 0, tzinfo=pytz.utc),
-        #         None,
-        #         datetime.datetime(9999, 12, 31, 23, 59, 59, 999999, tzinfo=pytz.utc),
-        #         datetime.datetime(1970, 1, 1, 0, 0, 0, tzinfo=pytz.utc),
-        #     ],
-        # ),
+        (
+            "TIMESTAMP",
+            [
+                datetime.datetime(1, 1, 1, 0, 0, 0, tzinfo=pytz.utc),
+                None,
+                datetime.datetime(9999, 12, 31, 23, 59, 59, 999999, tzinfo=pytz.utc),
+                datetime.datetime(1970, 1, 1, 0, 0, 0, tzinfo=pytz.utc),
+            ],
+        ),
         (
             "DATE",
             [
@@ -418,20 +413,15 @@ def test_bq_to_arrow_data_type_w_struct_unknown_subfield(module_under_test):
                 datetime.time(12, 0, 0),
             ],
         ),
-        # TODO: Once https://issues.apache.org/jira/browse/ARROW-5450 is
-        # resolved, test with DATETIME column. Conversion from pyarrow
-        # TimestampArray to list of Python objects fails with OverflowError:
-        # Python int too large to convert to C long.
-        #
-        # (
-        #     "DATETIME",
-        #     [
-        #         datetime.datetime(1, 1, 1, 0, 0, 0),
-        #         None,
-        #         datetime.datetime(9999, 12, 31, 23, 59, 59, 999999),
-        #         datetime.datetime(1970, 1, 1, 0, 0, 0),
-        #     ],
-        # ),
+        (
+            "DATETIME",
+            [
+                datetime.datetime(1, 1, 1, 0, 0, 0),
+                None,
+                datetime.datetime(9999, 12, 31, 23, 59, 59, 999999),
+                datetime.datetime(1970, 1, 1, 0, 0, 0),
+            ],
+        ),
         (
             "GEOGRAPHY",
             [
@@ -453,6 +443,42 @@ def test_bq_to_arrow_array_w_nullable_scalars(module_under_test, bq_type, rows):
     assert rows == roundtrip
 
 
+@pytest.mark.parametrize(
+    "bq_type,rows",
+    [
+        (
+            "TIMESTAMP",
+            [
+                    "1971-09-28T23:59:07+00:00",
+                    "1975-04-09T23:59:02+00:00",
+                    "1979-08-17T23:59:05+00:00",
+                    "NaT",
+                    "1983-05-09T13:00:00+00:00",
+            ],
+        ),
+        (
+            "DATETIME",
+            [
+                    "1971-09-28T23:59:07",
+                    "1975-04-09T23:59:02",
+                    "1979-08-17T23:59:05",
+                    "NaT",
+                    "1983-05-09T13:00:00",
+            ],
+        ),
+    ],
+)
+@pytest.mark.skipif(pandas is None, reason="Requires `pandas`")
+@pytest.mark.skipif(isinstance(pyarrow, mock.Mock), reason="Requires `pyarrow`")
+def test_bq_to_arrow_array_w_pandas_timestamp(module_under_test, bq_type, rows):
+    rows = [pandas.Timestamp(row) for row in rows]
+    series = pandas.Series(rows)
+    bq_field = schema.SchemaField("field_name", bq_type)
+    arrow_array = module_under_test.bq_to_arrow_array(series, bq_field)
+    roundtrip = arrow_array.to_pandas()
+    assert series.equals(roundtrip)
+
+
 @pytest.mark.skipif(pandas is None, reason="Requires `pandas`")
 @pytest.mark.skipif(isinstance(pyarrow, mock.Mock), reason="Requires `pyarrow`")
 def test_bq_to_arrow_array_w_arrays(module_under_test):