問題內容
polars.read_csv
與 polars.read_csv_batched
與 polars.scan_csv
有什么區別?
polars.read_csv
看起來等同于 pandas.read_csv
因為它們具有相同的名稱。
在哪種場景下使用哪一個以及它們與 pandas.read_csv
的相似/不同之處?
正確答案
polars.read_csv_batched
非常相當于 pandas.read_csv(iterator=True)
一個>.
polars.scan_csv
不會執行任何操作,直到您對數據框執行類似 dask.dataframe.read_csv
(延遲加載)。
場景:
我使用 pandas.read_csv
時我的數據比較雜亂或者結構比較復雜,而且數據量不太大
我使用polars.read_csv
當我的數據文件非常大時(> 10GB)。
這是完全基于我(謙虛)意見的答案。