如何在 Bigquery 参数化查询中传递结构数组-Python教程-PHP中文网

首页

后端开发

Python教程

如何在 Bigquery 参数化查询中传递结构数组

Mary-Kate Olsen

Oct 15, 2024 pm 04:14 PM

How to pass an Array of Structs in Bigquery

在 Google 的 Bigquery 中，SQL 查询可以参数化。如果您不熟悉这个概念，它基本上意味着您可以将 SQL 查询编写为参数化模板，如下所示：

INSERT INTO mydataset.mytable(columnA, columnB)
    VALUES (@valueA, @valueB)

并分别传递值。这有很多好处：

查询比通过字符串连接构建的查询更具可读性
代码更加健壮和工业化
它可以很好地防止 SQL 注入攻击（强制 XKCD）

从 Python 脚本传递查询参数似乎很简单......乍一看。例如：

from google.cloud.bigquery import (
    Client,
    ScalarQueryParameter,
    ArrayQueryParameter,
    StructQueryParameter,
    QueryJobConfig,
)

client=Client()

client.query("
INSERT INTO mydataset.mytable(columnA, columnB)
    VALUES (@valueA, @valueB)
", job_config=QueryJobConfig(
    query_parameters=[
        ScalarQueryParameter("valueA","STRING","A"), 
        ScalarQueryParameter("valueB","STRING","B")
])

上面的示例在 A 列和 B 列中插入简单（“标量”）值。但您也可以传递更复杂的参数：

数组（ArrayQueryParameter）
结构体（StructQueryParameter）

当您想要插入结构数组时，就会出现问题：有很多陷阱，几乎没有文档，网络上关于该主题的资源也很少。本文的目标就是填补这一空白。

如何使用参数化查询在 bigquery 中持久保存结构数组

让我们定义要存储在目标表中的以下对象

from dataclasses import dataclass

@dataclass
class Country:
    name: str
    capital_city: str

@dataclass
class Continent:
    name: str
    countries: list[Country]

通过调用此参数化查询

query = UPDATE continents SET countries=@countries WHERE name="Oceania"

遵循浅薄文档的第一次尝试将是

client.query(query, 
    job_config=QueryJobConfig(query_parameters=[
        ArrayQueryParameter("countries", "RECORD", [
             {name="New Zealand", capital_city="Wellington"},
             {name="Fiji", capital_city="Suva"} ...]
]))

这会惨败

AttributeError：“dict”对象没有属性“to_api_repr”

问题 1：ArrayQueryParameter 的值必须是 StructQueryParameter 的实例

事实证明，构造函数的第三个参数 - value - 必须是 StructQueryParameter 实例的集合，而不是直接想要的值。那么让我们来构建它们：

client.query(query, 
job_config=QueryJobConfig(query_parameters=[
    ArrayQueryParameter("countries", "RECORD", [
    StructQueryParameter("countries",
        ScalarQueryParameter("name", "STRING", ct.name), 
        ScalarQueryParameter("capital_city", "STRING", ct.capital_city)
    )
    for ct in countries])
]))

这次有效...直到您尝试设置一个空数组

client.query(query, 
    job_config=QueryJobConfig(
    query_parameters=[
        ArrayQueryParameter("countries", "RECORD", [])
]))

ValueError：缺少空数组的详细结构项类型信息，请提供 StructQueryParameterType 实例。

陷阱 n°2：提供完整的结构类型作为第二个参数

错误消息非常清楚：“RECORD”不足以让 Bigquery 知道如何处理空数组。它需要完整详细的结构。就这样吧

client.query(query, job_config=QueryJobConfig(query_parameters=[
    ArrayQueryParameter("countries",
        StructQueryParameterType(
            ScalarQueryParameterType("STRING","name"),
            ScalarQueryParameterType("STRING","capital_city")
        ), [])
]))

（注意 ...ParameterType 构造函数的参数顺序与 ...Parameter 构造函数相反。这只是路上的另一个陷阱...）

现在它也适用于空数组，耶！

最后一个需要注意的问题：StructQueryParameterType 的每个子字段都必须有一个名称，即使第二个参数（名称）在构造函数中是可选的。它实际上对于子字段是强制性的，否则你会得到一种新的错误

空结构字段名称

我想这就是我们完成查询参数中记录数组的使用所需要知道的一切，我希望这会有所帮助！

感谢您的阅读！我是 Matthieu，Stack Labs 的数据工程师。
如果您想了解 Stack Labs 数据平台或加入热情的数据工程团队，请联系我们。

Denys Nevozhai 在 Unsplash 上的照片

以上是如何在 Bigquery 参数化查询中传递结构数组的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

了解差异：用于循环和python中的循环May 16, 2025 am 12:17 AM

theDifferenceBetweewneaforoopandawhileLoopInpythonisthataThataThataThataThataThataThataNumberoFiterationSiskNownInAdvance，而leleawhileLoopisusedWhenaconDitionNeedneedneedneedNeedStobeCheckedStobeCheckedStobeCheckedStobeCheckedStobeceDrepeTysepectients.peatsiveSectlyStheStobeCeptellyWithnumberofiterations.1）forloopsareAceareIdealForitoringercortersence

Python循环控制：对于vs -a -a比较May 16, 2025 am 12:16 AM

在Python中，for循环适用于已知迭代次数的情况，而while循环适合未知迭代次数且需要更多控制的情况。1）for循环适用于遍历序列，如列表、字符串等，代码简洁且Pythonic。2）while循环在需要根据条件控制循环或等待用户输入时更合适，但需注意避免无限循环。3）性能上，for循环略快，但差异通常不大。选择合适的循环类型可以提高代码的效率和可读性。

如何在Python中结合两个列表：5种简单的方法May 16, 2025 am 12:16 AM

在Python中，可以通过五种方法合并列表：1)使用运算符，简单直观，适用于小列表；2)使用extend()方法，直接修改原列表，适用于需要频繁更新的列表；3)使用列表解析式，简洁且可对元素进行操作；4)使用itertools.chain()函数，内存高效，适合大数据集；5)使用*运算符和zip()函数，适用于需要配对元素的场景。每种方法都有其特定用途和优缺点，选择时应考虑项目需求和性能。

循环时循环：python语法，用例和示例May 16, 2025 am 12:14 AM

foroopsare whenthenemberofiterationsisknown，而whileLoopsareUseduntilacTitionismet.1）ForloopSareIdealForeSequencesLikeLists，UsingSyntaxLike'forfruitinFruitinFruitinFruitIts：print（fruit）'。2）'

python串联列表列表May 16, 2025 am 12:08 AM

toConcateNateAlistofListsInpython，useextend，listComprehensions，itertools.Chain，orrecursiveFunctions.1）ExtendMethodStraightForwardButverBose.2）listComprechencomprechensionsareconconconciseandemandeconeandefforlargerdatasets.3）