我們都知道,磁盤IO以塊為單位讀取數據,如果你所需要的數據都存儲在一個塊呢,一次IO即可返回。如果跨越多個塊,只要你的塊是連續的,類似MySQL,基于預讀機制,一次讀取多個塊的數據。這明顯利好數組,因為數組申請內存的時候,大小是固定且連續的。如果是鏈表,它的數據隨機散落在不同的塊,意味著磁盤IO很快。
年少往事
記得剛學數據鏈表的時候,老師是不是說,讀多寫少用數組,寫多讀少用鏈表,但你有沒有想過多少才算多?我也有這個疑問,剛好今天有時間,借這個話題一起探討,ArrayList和LinkedList選擇之寫操作。
磁盤IO
我們都知道,磁盤IO以塊為單位讀取數據,如果你所需要的數據都存儲在一個塊呢,一次IO即可返回。如果跨越多個塊,只要你的塊是連續的,類似MYSQl,基于預讀機制,一次讀取多個塊的數據。這明顯利好數組,因為數組申請內存的時候,大小是固定且連續的。如果是鏈表,它的數據隨機散落在不同的塊,意味著磁盤IO很快。
小結
- 數組讀性能好是因為數據順序存儲,一次IO即可返回
- 鏈表讀性能差是因為數據隨機存儲,多次IO才能返回
擴容
我們都知道,ArrayList存在擴容問題,在頻繁寫入的時候,會因為容量不足需要重寫開辟新的數組空間,然后復制原數組數據到新的數組,這個過程消耗大量內存,這也是提出寫多用鏈表的原因。
那么,是不是只要寫多就用鏈表?這個回答顯然是否定的,不然沒有探討的意義。下面我們看看大數據量下兩者寫入差異。
小試牛刀,500萬數據看看

ArrayList初始容量1萬,循環插入500萬數據,擴容9次,用時138ms,LinkedList只需要不停創建節點,將節點next綁定即可,但用時724ms,差距5倍多。
小結
500萬數據寫入,用ArrayList是上策。不過能接觸到這么多數據量的情況并不多,實際使用以實際情況為準,多測測你的業務和機器選擇比較好,不過對于我來說,優先考慮ArrayList,因為從GC的角度來說,順序存儲利于GC,不管是CMS還是G1。
加量-1千萬

可以看到,一千萬數據量依然有接近3倍的差異,看到這你還猶豫什么,無腦ArrayList
2千萬

沒想到2千萬就被反超了,但是你以為這樣會說服我使用LinkedList嗎,我只能說Naive
3千萬

已持平!
4千萬

重新反超,這么大的數據量下,linkedList創建大量node,比需要開辟新數組內存的arrayList消耗的時間更多,內存也更多,不信Jmap看看?而arrayList可是擴容了12次
結論
沒得出什么牛逼結論,反而看出兩個list在大數據量情況下,性能不是一定誰更好,可能是兩條有多個交點的曲線。在選擇上,無腦arrayList,如果是重要場景,最好根據業務和機器配置選擇合適的。但業務會增長,摸著良心問自己,業務增長到另一個交點的時候,你會改過來嗎!






