Rumah >pembangunan bahagian belakang >Tutorial Python >Ploting GeoLokasi Rivian dengan Dokumen Awan IRIS dan Databricks
Jika anda sedang mencari kes penggunaan untuk Pangkalan Data Dokumen, saya menyedari bahawa kegemaran saya yang ringkas ialah keupayaan untuk menanyakan longgokan JSON, tepat di sebelah data saya yang lain dengan sql tanpa melakukan banyak perkara. Yang merupakan impian yang direalisasikan daripada Platform Data InterSystems Pelbagai Model yang berkuasa, dan ditunjukkan di sini dalam buku nota ringkas untuk menggambarkan data lokasi geo saya yang dipancarkan oleh Rivian R1S saya untuk DeezWatts ( A Rivian Data Adventure ).
Jadi berikut ialah pendekatan 2 langkah, Pengingesan ke dan Visualisasi dari Dokumen Awan InterSystems, menggunakan pemacu dokumen JDBC.
Sebagai permulaan, saya melancarkan penggunaan Dokumen Awan kecil pada Portal Perkhidmatan Awan InterSystems, dengan pendengar yang didayakan.
Saya memuat turun sijil ssl, dan mendapatkan pemacu untuk JDBC dan pemandu dokumen yang disertakan juga.
Untuk pengingesan, saya ingin memahami cara mengangkat dokumen JSON daripada sistem fail dan mengekalkannya sebagai koleksi dalam pangkalan data dokumen ke atas pendengar, untuk ini saya menulis apl java tersendiri. Ini lebih berguna kerana semua keseronokan berlaku dalam buku nota selepas data ada di sana.
RivianDocDB.java
package databricks_rivian_irisdocdb; import java.sql.SQLException; import com.intersystems.document.*; import com.fasterxml.jackson.core.JsonParser; import com.fasterxml.jackson.*; import java.io.IOException; import java.io.InputStream; import java.io.File; import java.io.FileInputStream; import org.apache.commons.io.IOUtils; import java.nio.file.Files; import java.nio.file.Path; import java.nio.file.Paths; import java.util.stream.Stream; public <span>class RivianDocDb </span>{ <span>public static void main(String[] args) </span>{ String directoryPath = "/home/sween/Desktop/POP2/DEEZWATTS/rivian-iris-docdb/databricks_rivian_irisdocdb/in/json/"; DataSource datasrc = DataSource.createDataSource(); datasrc.setPortNumber(443); datasrc.setServerName("k8s-05868f04-a88b7ecb-5c5e41660d-404345a22ba1370c.elb.us-east-1.amazonaws.com"); datasrc.setDatabaseName("USER"); datasrc.setUser("SQLAdmin"); datasrc.setPassword("REDACTED"); try { datasrc.setConnectionSecurityLevel(10); } catch (SQLException e) { // TODO Auto-generated catch block e.printStackTrace(); } System.out.println("\nCreated datasrc\n"); System.out.println(datasrc); datasrc.preStart(2); System.out.println("\nDataSource size =" + datasrc.getSize()); // creates the collection if it dont exist Collection collectedDocs = Collection.getCollection(datasrc,"deezwatts2"); try (Stream<Path> paths = Files.list(Paths.get(directoryPath))) { paths.filter(Files::isRegularFile) .forEach(path -> { File file = path.toFile(); }); } catch (IOException e) { e.printStackTrace(); } File directory = new File(directoryPath); if (directory.isDirectory()) { File[] files = directory.listFiles(); if (files != null) { for (File file : files) { if (file.isFile()) { try (InputStream is = new FileInputStream("/home/sween/Desktop/POP2/DEEZWATTS/rivian-iris-docdb/databricks_rivian_irisdocdb/in/json/" + file.getName())) { String jsonTxt = IOUtils.toString(is, "UTF-8"); Document doc2 = JSONObject.fromJSONString(jsonTxt); // top level key is whip2 Document doc3 = new JSONObject().put("whip2",doc2); collectedDocs.insert(doc3); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } } } } long size = collectedDocs.size(); System.out.println(Long.toString(size)); System.out.println("\nIngested Documents =" + datasrc.getSize());
Perkara di atas agak hampir dengan sampah JAVA, tetapi berjaya, kita dapat melihat koleksi dalam penyemak imbas koleksi dalam penggunaan.
Sekarang ini memerlukan sedikit persediaan Databricks, tetapi sangat berbaloi untuk bekerja dengan pyspark untuk bahagian yang menyeronokkan.
Saya menambahkan dua pemacu InterSystems pada gugusan dan meletakkan sijil dalam skrip init kluster import_cloudsql_certficiate.sh supaya ia ditambahkan pada stor kunci.
Untuk kesempurnaan, kluster menjalankan Databricks 16, Spark 3.5.0 dan Scala 2.12
Jadi, kita harus ditetapkan untuk menjalankan kerja PySpark dan merancang tempat cambuk saya berada dalam subset data Saya akan seret masuk.
Kami menggunakan geopanda dan geodataset untuk pendekatan terus ke hadapan untuk merancang.
package databricks_rivian_irisdocdb; import java.sql.SQLException; import com.intersystems.document.*; import com.fasterxml.jackson.core.JsonParser; import com.fasterxml.jackson.*; import java.io.IOException; import java.io.InputStream; import java.io.File; import java.io.FileInputStream; import org.apache.commons.io.IOUtils; import java.nio.file.Files; import java.nio.file.Path; import java.nio.file.Paths; import java.util.stream.Stream; public <span>class RivianDocDb </span>{ <span>public static void main(String[] args) </span>{ String directoryPath = "/home/sween/Desktop/POP2/DEEZWATTS/rivian-iris-docdb/databricks_rivian_irisdocdb/in/json/"; DataSource datasrc = DataSource.createDataSource(); datasrc.setPortNumber(443); datasrc.setServerName("k8s-05868f04-a88b7ecb-5c5e41660d-404345a22ba1370c.elb.us-east-1.amazonaws.com"); datasrc.setDatabaseName("USER"); datasrc.setUser("SQLAdmin"); datasrc.setPassword("REDACTED"); try { datasrc.setConnectionSecurityLevel(10); } catch (SQLException e) { // TODO Auto-generated catch block e.printStackTrace(); } System.out.println("\nCreated datasrc\n"); System.out.println(datasrc); datasrc.preStart(2); System.out.println("\nDataSource size =" + datasrc.getSize()); // creates the collection if it dont exist Collection collectedDocs = Collection.getCollection(datasrc,"deezwatts2"); try (Stream<Path> paths = Files.list(Paths.get(directoryPath))) { paths.filter(Files::isRegularFile) .forEach(path -> { File file = path.toFile(); }); } catch (IOException e) { e.printStackTrace(); } File directory = new File(directoryPath); if (directory.isDirectory()) { File[] files = directory.listFiles(); if (files != null) { for (File file : files) { if (file.isFile()) { try (InputStream is = new FileInputStream("/home/sween/Desktop/POP2/DEEZWATTS/rivian-iris-docdb/databricks_rivian_irisdocdb/in/json/" + file.getName())) { String jsonTxt = IOUtils.toString(is, "UTF-8"); Document doc2 = JSONObject.fromJSONString(jsonTxt); // top level key is whip2 Document doc3 = new JSONObject().put("whip2",doc2); collectedDocs.insert(doc3); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } } } } long size = collectedDocs.size(); System.out.println(Long.toString(size)); System.out.println("\nIngested Documents =" + datasrc.getSize());
Kini, ini memerlukan sedikit masa untuk membiasakan diri, tetapi berikut ialah pertanyaan kepada Dokumen Awan InterSystems menggunakan sintaks laluan JSON dan JSON_TABLE.
import geopandas as gpd import geodatasets from shapely.geometry import Polygon
Saya berjaya mencari tapak yang menjadikannya mudah untuk mencipta laluan json @ jsonpath.com.
Seterusnya kami menyediakan sambungan ke Penerapan Pangkalan Data Dokumen IRIS dan membacanya ke dalam bingkai data.
dbtablequery = f"(SELECT TOP 1000 lat,longitude FROM JSON_TABLE(deezwatts2 FORMAT COLLECTION, '$' COLUMNS (lat VARCHAR(20) path '$.whip2.data.vehicleState.gnssLocation.latitude', longitude VARCHAR(20) path '$.whip2.data.vehicleState.gnssLocation.longitude' ))) AS temp_table;"
Seterusnya kami mengambil peta yang tersedia daripada geodataset, yang sdoh sangat bagus untuk kegunaan umum di Amerika Syarikat.
# Read data from InterSystems Document Database via query above df = (spark.read.format("jdbc") \ .option("url", "jdbc:IRIS://k8s-05868f04-a88b7ecb-5c5e41660d-404345a22ba1370c.elb.us-east-1.amazonaws.com:443/USER") \ .option("jars", "/Volumes/cloudsql/iris/irisvolume/intersystems-document-1.0.1.jar") \ .option("driver", "com.intersystems.jdbc.IRISDriver") \ .option("dbtable", dbtablequery) \ .option("sql", "SELECT * FROM temp_table;") \ .option("user", "SQLAdmin") \ .option("password", "REDACTED") \ .option("connection security level","10") \ .option("sslConnection","true") \ .load())
Sekarang bahagian yang menarik, kami ingin mengezum masuk di mana kami ingin mengandungi titik lokasi geo di mana R1S telah memandu, untuk ini kami memerlukan kotak sempadan untuk negeri Michigan.
Untuk ini saya menggunakan alat yang sangat licin daripada Keene untuk melukis kotak sempadan pagar geo dan ia memberikan saya tatasusunan koordinat!
Sekarang kita mempunyai tatasusunan koordinat kotak sempadan, kita perlu menamparnya ke dalam objek Poligon.
# sdoh map is fantastic with bounding boxes michigan = gpd.read_file(geodatasets.get_path("geoda.us_sdoh")) gdf = gpd.GeoDataFrame( df.toPandas(), geometry=gpd.points_from_xy(df.toPandas()['longitude'].astype(float), df.toPandas()['lat'].astype(float)), crs=michigan.crs #"EPSG:4326" )
Sekarang, mari rancang jejak Rivian R1S! Ini adalah untuk kira-kira 10,000 rekod (saya menggunakan pernyataan teratas di atas untuk mengehadkan keputusan)
polygon = Polygon([ ( -87.286377, 45.9664245 ), ( -81.6503906, 45.8134865 ), ( -82.3864746, 42.1063737 ), ( -84.7814941, 41.3520721 ), ( -87.253418, 42.5045029 ), ( -87.5610352, 45.8823607 ) ])
Dan begitulah... Detroit, Traverse City, Silver Lake Sand Dunes, Holland, Mullet Lake, Interlachen... Pure Michigan, Rivian style.
Atas ialah kandungan terperinci Ploting GeoLokasi Rivian dengan Dokumen Awan IRIS dan Databricks. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!