問題內(nèi)容
polars.read_csv 與 polars.read_csv_batched 與 polars.scan_csv 有什么區(qū)別?
polars.read_csv 看起來等同于 pandas.read_csv 因?yàn)樗鼈兙哂邢嗤拿Q。
在哪種場景下使用哪一個(gè)以及它們與 pandas.read_csv 的相似/不同之處?
正確答案
polars.read_csv_batched 非常相當(dāng)于 pandas.read_csv(iterator=True)一個(gè)>.
polars.scan_csv 不會執(zhí)行任何操作,直到您對數(shù)據(jù)框執(zhí)行類似 dask.dataframe.read_csv(延遲加載)。
場景:
我使用 pandas.read_csv 時(shí)我的數(shù)據(jù)比較雜亂或者結(jié)構(gòu)比較復(fù)雜,而且數(shù)據(jù)量不太大
我使用polars.read_csv 當(dāng)我的數(shù)據(jù)文件非常大時(shí)(> 10GB)。
這是完全基于我(謙虛)意見的答案。






