亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

English SDK for Spark : 將英語(yǔ)作為一種新的編程語(yǔ)言,將生成式 AI 當(dāng)做編譯器, 將 Python/ target=_blank class=infotextkey>Python 視作字節(jié)碼!

本文主要介紹了 Apache Spark 的英語(yǔ)軟件開(kāi)發(fā)套件(SDK)的重要性和目標(biāo),以及它采用生成式 AI 技術(shù)來(lái)豐富Spark 的使用體驗(yàn)。它還提到了Github Copilot 對(duì) AI 輔助代碼開(kāi)發(fā)的影響,以及其存在的限制和問(wèn)題。本文還紹了英語(yǔ) SDK 的特性,包括數(shù)據(jù)獲取、DataFrame 操作、自定義函數(shù)(UDFs)和緩存等。最后,鼓勵(lì)讀者積極參與英語(yǔ) SDK 的開(kāi)發(fā)和探索,為擴(kuò)大 Apache Spark 的影響力貢獻(xiàn)一份力量。

原文鏈接:https://www.databricks.com/blog/introducing-english-new-programming-language-apache-spark

作者 | Gengliang Wang,Xiangrui Meng,Reynold Xin,Allison Wang,Amanda Liu和Denny Lee

譯者 | 明明如月

責(zé)編 | 夏萌

出品 | CSDN(ID:CSDNnews)

導(dǎo)言

我們非常激動(dòng)地向大家介紹 Apache Spark 的英語(yǔ)軟件開(kāi)發(fā)套件(SDK)。這是一個(gè)革命性的工具,旨在豐富你的 Spark 使用體驗(yàn)。Apache Spark™ 在全球范圍內(nèi),覆蓋 208 個(gè)國(guó)家和地區(qū),年下載量超過(guò) 10 億次,已經(jīng)在大規(guī)模數(shù)據(jù)分析領(lǐng)域取得了顯著成績(jī)。我們的英語(yǔ) SDK 采用先進(jìn)的生成型 AI 技術(shù),旨在擴(kuò)大這個(gè)活躍的社區(qū),使 Spark 在易用性和親和度上達(dá)到前所未有的高度!

緣起

GitHub Copilot 對(duì) AI 輔助的代碼開(kāi)發(fā)領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。雖然它功能強(qiáng)大,但用戶需要理解生成的代碼后才能提交。同時(shí),審查者也需要理解代碼才能進(jìn)行審查。這可能會(huì)限制其廣泛應(yīng)用的一大阻礙。當(dāng)處理 Spark 表和 DataFrames 時(shí),它偶爾也會(huì)生成不正確或不符合預(yù)期的代碼。下面的 GIF 動(dòng)圖展示了這一點(diǎn),Copilot 提出了一個(gè)窗口規(guī)范,并引用了不存在的dept_id列,這需要一些專業(yè)知識(shí)才能理解。

與其將 AI 視為副駕駛,為何不讓 AI 當(dāng)做司機(jī),我們坐在豪華的后座享受呢?這就是我們英語(yǔ) SDK 所要扮演的角色。我們發(fā)現(xiàn),尖端的大型語(yǔ)言模型對(duì) Spark 非常了解,這得益于優(yōu)秀的 Spark 社區(qū),他們?cè)谶^(guò)去十年中,貢獻(xiàn)了大量的開(kāi)放的、高質(zhì)量的內(nèi)容,比如 API 文檔、開(kāi)源項(xiàng)目、問(wèn)題和答案、教程和書(shū)籍等。現(xiàn)在,我們將這些生成型 AI 對(duì) Spark 的專業(yè)知識(shí)融入到英文 SDK 中。你不再需要理解復(fù)雜的生成代碼,只需用簡(jiǎn)單的英文指令即可得到結(jié)果:

transformed_df = df.ai.transform('get 4 week moving average sales by dept')

英語(yǔ) SDK 通過(guò)理解 Spark 表和 DataFrames 來(lái)處理復(fù)雜性,并直接返回一個(gè)正確的 DataFrame !

我們的愿景是:將英文作為一種編程語(yǔ)言,并使用生成式 AI 將這些英文指令編譯成 PySpark 和 SQL 代碼。這種創(chuàng)新的方式旨在降低編程的門(mén)檻和簡(jiǎn)化學(xué)習(xí)曲線。這個(gè)愿景是推動(dòng)英文 SDK 的主要驅(qū)動(dòng)力,我們的目標(biāo)是擴(kuò)大 Spark 的影響力,讓 Spark 從一個(gè)成功走向另一個(gè)成功。

英語(yǔ) SDK 的特性

英語(yǔ) SDK 通過(guò)實(shí)現(xiàn)以下關(guān)鍵特性,使 Spark 的開(kāi)發(fā)過(guò)程變得更簡(jiǎn)單:

  • 數(shù)據(jù)獲取:根據(jù)你的描述,SDK 可以進(jìn)行網(wǎng)絡(luò)搜索,運(yùn)用大型語(yǔ)言模型 (LLM) 確定最佳結(jié)果,然后順利地將選定的網(wǎng)絡(luò)數(shù)據(jù)集成到 Spark 中,這些操作都能在一個(gè)步驟中完成。

  • DataFrame 操作:SDK 對(duì)指定的 DataFrame 提供了功能,根據(jù)你的英文描述執(zhí)行轉(zhuǎn)換、繪圖和解釋操作。這些功能大大提升了代碼的可讀性和效率,使得對(duì) DataFrames 的操作更加直接和直觀。

  • 自定義函數(shù) (UDFs):SDK 提供了簡(jiǎn)潔的創(chuàng)建 UDFs 的流程。你只需要提供一段描述,AI 就可以負(fù)責(zé)代碼的補(bǔ)全。這一特性簡(jiǎn)化了 UDF 的創(chuàng)建過(guò)程,讓你可以專注于函數(shù)定義,而 AI 則會(huì)處理其余部分。

  • 緩存:SDK 吸取了緩存的優(yōu)點(diǎn)以提升執(zhí)行速度,保證結(jié)果的可復(fù)用性,并節(jié)省成本。

示例

為了進(jìn)一步說(shuō)明如何使用英語(yǔ) SDK,我們將通過(guò)一些例子進(jìn)行演示:

數(shù)據(jù)獲取

如果你是一名數(shù)據(jù)科學(xué)家,需要導(dǎo)入2022年美國(guó)全國(guó)汽車銷售數(shù)據(jù),您只需要兩行代碼即可完成:

spark_ai = SparkAI auto_df = spark_ai.create_df("2022 USA national auto sales by brand")

DataFrame 操作

對(duì)于給定的 DataFrame 對(duì)象,SDK 允許你運(yùn)行以 df.ai 開(kāi)頭的方法。這包括轉(zhuǎn)換、繪圖、DataFrame 解釋等等。

要激活 PySpark DataFrame 的部分函數(shù):

spark_ai.activate

要預(yù)覽 auto_df:

auto_df.ai.plot

要查看各汽車公司的市場(chǎng)份額分布:

auto_df.ai.plot("pie chart for US sales market shares, show the top 5 brands and the sum of others")

要獲取增長(zhǎng)最快的品牌:

???????auto_top_growth_df=auto_df.ai.transform("top brand with the highest growth") auto_top_growth_df.show

要獲取 DataFrame 的解釋:

auto_top_growth_df.ai.explain

總的來(lái)說(shuō),這個(gè) DataFrame 正在查找銷售增長(zhǎng)最快的品牌。它將結(jié)果按銷售增長(zhǎng)率降序排列,并僅返回增長(zhǎng)最快的結(jié)果。

自定義函數(shù) (UDFs) SDK

支持通過(guò)簡(jiǎn)單而清晰的方式創(chuàng)建自定義函數(shù)。使用@spark_ai.udf裝飾器,你只需定義一個(gè)帶有文檔字符串的函數(shù),SDK 就會(huì)在后臺(tái)自動(dòng)完成代碼生成:

???????@spark_ai.udf def convert_grades(grade_percent: float) -> str: """Convert the grade percent to a letter grade using standard cutoffs""" ...

現(xiàn)在,你可以在 SQL 查詢或 DataFrames 中使用這個(gè)自定義函數(shù)(UDF)

SELECT student_id, convert_grades(grade_percent) FROM grade

總結(jié)

Apache Spark 的英語(yǔ) SDK 是一個(gè)既簡(jiǎn)潔又強(qiáng)大的工具,能夠顯著提升你的開(kāi)發(fā)效率。它的目標(biāo)是簡(jiǎn)化復(fù)雜的任務(wù),減少必需的代碼量,使你可以專注于從數(shù)據(jù)中挖掘洞察。

雖然英語(yǔ) SDK 還處于早期的開(kāi)發(fā)階段,但未來(lái)可期。我們鼓勵(lì)你去嘗試這個(gè)創(chuàng)新的工具,親身感受其帶來(lái)的便利,并考慮為此項(xiàng)目貢獻(xiàn)自己的一份力量。不要在這場(chǎng)革命中袖手旁觀,而應(yīng)該積極參與其中。現(xiàn)在就去 pyspark.ai 上探索和體驗(yàn)英語(yǔ) SDK 的強(qiáng)大功能吧。你的參與和洞見(jiàn),將為擴(kuò)大 Apache Spark 的影響力做出重要貢獻(xiàn)。

分享到:
標(biāo)簽:編程語(yǔ)言
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定