搜索
首页后端开发Python教程如何在 Bigquery 参数化查询中传递结构数组

How to pass an Array of Structs in Bigquery

在 Google 的 Bigquery 中,SQL 查询可以参数化。如果您不熟悉这个概念,它基本上意味着您可以将 SQL 查询编写为参数化模板,如下所示:

INSERT INTO mydataset.mytable(columnA, columnB)
    VALUES (@valueA, @valueB)

并分别传递值。这有很多好处:

  • 查询比通过字符串连接构建的查询更具可读性
  • 代码更加健壮和工业化
  • 它可以很好地防止 SQL 注入攻击(强制 XKCD)

从 Python 脚本传递查询参数似乎很简单......乍一看。例如:

from google.cloud.bigquery import (
    Client,
    ScalarQueryParameter,
    ArrayQueryParameter,
    StructQueryParameter,
    QueryJobConfig,
)

client=Client()

client.query("
INSERT INTO mydataset.mytable(columnA, columnB)
    VALUES (@valueA, @valueB)
", job_config=QueryJobConfig(
    query_parameters=[
        ScalarQueryParameter("valueA","STRING","A"), 
        ScalarQueryParameter("valueB","STRING","B")
])

上面的示例在 A 列和 B 列中插入简单(“标量”)值。但您也可以传递更复杂的参数:

  • 数组(ArrayQueryParameter)
  • 结构体(StructQueryParameter)

当您想要插入结构数组时,就会出现问题:有很多陷阱,几乎没有文档,网络上关于该主题的资源也很少。本文的目标就是填补这一空白。

如何使用参数化查询在 bigquery 中持久保存结构数组

让我们定义要存储在目标表中的以下对象

from dataclasses import dataclass

@dataclass
class Country:
    name: str
    capital_city: str

@dataclass
class Continent:
    name: str
    countries: list[Country]

通过调用此参数化查询

query = UPDATE continents SET countries=@countries WHERE name="Oceania"

遵循浅薄文档的第一次尝试将是

client.query(query, 
    job_config=QueryJobConfig(query_parameters=[
        ArrayQueryParameter("countries", "RECORD", [
             {name="New Zealand", capital_city="Wellington"},
             {name="Fiji", capital_city="Suva"} ...]
]))

这会惨败

AttributeError:“dict”对象没有属性“to_api_repr”

问题 1:ArrayQueryParameter 的值必须是 StructQueryParameter 的实例

事实证明,构造函数的第三个参数 - value - 必须是 StructQueryParameter 实例的集合,而不是直接想要的值。那么让我们来构建它们:

client.query(query, 
job_config=QueryJobConfig(query_parameters=[
    ArrayQueryParameter("countries", "RECORD", [
    StructQueryParameter("countries",
        ScalarQueryParameter("name", "STRING", ct.name), 
        ScalarQueryParameter("capital_city", "STRING", ct.capital_city)
    )
    for ct in countries])
]))

这次有效...直到您尝试设置一个空数组

client.query(query, 
    job_config=QueryJobConfig(
    query_parameters=[
        ArrayQueryParameter("countries", "RECORD", [])
]))

ValueError:缺少空数组的详细结构项类型信息,请提供 StructQueryParameterType 实例。

陷阱 n°2:提供完整的结构类型作为第二个参数

错误消息非常清楚:“RECORD”不足以让 Bigquery 知道如何处理空数组。它需要完整详细的结构。就这样吧

client.query(query, job_config=QueryJobConfig(query_parameters=[
    ArrayQueryParameter("countries",
        StructQueryParameterType(
            ScalarQueryParameterType("STRING","name"),
            ScalarQueryParameterType("STRING","capital_city")
        ), [])
]))

(注意 ...ParameterType 构造函数的参数顺序与 ...Parameter 构造函数相反。这只是路上的另一个陷阱...)

现在它也适用于空数组,耶!

最后一个需要注意的问题:StructQueryParameterType 的每个子字段都必须有一个名称,即使第二个参数(名称)在构造函数中是可选的。它实际上对于子字段是强制性的,否则你会得到一种新的错误

空结构字段名称

我想这就是我们完成查询参数中记录数组的使用所需要知道的一切,我希望这会有所帮助!


感谢您的阅读!我是 Matthieu,Stack Labs 的数据工程师。
如果您想了解 Stack Labs 数据平台或加入热情的数据工程团队,请联系我们。


Denys Nevozhai 在 Unsplash 上的照片

以上是如何在 Bigquery 参数化查询中传递结构数组的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
了解差异:用于循环和python中的循环了解差异:用于循环和python中的循环May 16, 2025 am 12:17 AM

theDifferenceBetweewneaforoopandawhileLoopInpythonisthataThataThataThataThataThataThataNumberoFiterationSiskNownInAdvance,而leleawhileLoopisusedWhenaconDitionNeedneedneedneedNeedStobeCheckedStobeCheckedStobeCheckedStobeCheckedStobeceDrepeTysepectients.peatsiveSectlyStheStobeCeptellyWithnumberofiterations.1)forloopsareAceareIdealForitoringercortersence

Python循环控制:对于vs -a -a比较Python循环控制:对于vs -a -a比较May 16, 2025 am 12:16 AM

在Python中,for循环适用于已知迭代次数的情况,而while循环适合未知迭代次数且需要更多控制的情况。1)for循环适用于遍历序列,如列表、字符串等,代码简洁且Pythonic。2)while循环在需要根据条件控制循环或等待用户输入时更合适,但需注意避免无限循环。3)性能上,for循环略快,但差异通常不大。选择合适的循环类型可以提高代码的效率和可读性。

如何在Python中结合两个列表:5种简单的方法如何在Python中结合两个列表:5种简单的方法May 16, 2025 am 12:16 AM

在Python中,可以通过五种方法合并列表:1)使用 运算符,简单直观,适用于小列表;2)使用extend()方法,直接修改原列表,适用于需要频繁更新的列表;3)使用列表解析式,简洁且可对元素进行操作;4)使用itertools.chain()函数,内存高效,适合大数据集;5)使用*运算符和zip()函数,适用于需要配对元素的场景。每种方法都有其特定用途和优缺点,选择时应考虑项目需求和性能。

循环时循环:python语法,用例和示例循环时循环:python语法,用例和示例May 16, 2025 am 12:14 AM

foroopsare whenthenemberofiterationsisknown,而whileLoopsareUseduntilacTitionismet.1)ForloopSareIdealForeSequencesLikeLists,UsingSyntaxLike'forfruitinFruitinFruitinFruitIts:print(fruit)'。2)'

python串联列表列表python串联列表列表May 16, 2025 am 12:08 AM

toConcateNateAlistofListsInpython,useextend,listComprehensions,itertools.Chain,orrecursiveFunctions.1)ExtendMethodStraightForwardButverBose.2)listComprechencomprechensionsareconconconciseandemandeconeandefforlargerdatasets.3)

Python中的合并列表:选择正确的方法Python中的合并列表:选择正确的方法May 14, 2025 am 12:11 AM

Tomergelistsinpython,YouCanusethe操作员,estextMethod,ListComprehension,Oritertools

如何在Python 3中加入两个列表?如何在Python 3中加入两个列表?May 14, 2025 am 12:09 AM

在Python3中,可以通过多种方法连接两个列表:1)使用 运算符,适用于小列表,但对大列表效率低;2)使用extend方法,适用于大列表,内存效率高,但会修改原列表;3)使用*运算符,适用于合并多个列表,不修改原列表;4)使用itertools.chain,适用于大数据集,内存效率高。

Python串联列表字符串Python串联列表字符串May 14, 2025 am 12:08 AM

使用join()方法是Python中从列表连接字符串最有效的方法。1)使用join()方法高效且易读。2)循环使用 运算符对大列表效率低。3)列表推导式与join()结合适用于需要转换的场景。4)reduce()方法适用于其他类型归约,但对字符串连接效率低。完整句子结束。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)