溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Oracle 和 MySQL 的 JDBC 到底有多慢?

發布時間:2020-03-03 18:14:05 來源:網絡 閱讀:253 作者:raqsoft 欄目:大數據

經常聽人說,數據庫的IO性能不佳,但說歸說,并沒有感性認識。我們現在就來實際測試一下,常用的Oracle和MySQL的JDBC讀取性能如何。

之所以測試JDBC,是因為大部分應用是JAVA寫的,也就只能用JDBC來訪問數據。這里僅測試用JDBC讀出數據,并產生成Java的記錄對象(畢竟到了這一步才能在應用中使用),不作任何計算。

1.??????? 數據來源

使用TPCH生成的數據,選用其中的customer表來做測試,數據記錄為3000萬行,8個字段。它生成的原始文本文件名為customer.tbl,文件大小為4.9G。利用數據庫提供的數據導入工具將此文件數據導入到Oracle和MySQL的數據表中。

2.??????? 測試環境

在一臺Intel服務器上完成測試,2個Intel2670 CPU,主頻2.6G,共16核,內存64G。數據庫表數據及文本文件均存儲在同一塊SSD硬盤上。

所有測試均在服務器本機上完成,沒有消耗網絡傳輸時間。

3.??????? 數據庫讀數測試

通過Oracle提供的JDBC接口,用SQL語句執行數據讀取。

Java寫起來麻煩,用SPL腳本執行測試:


A
1=now()/記錄時間
2=connect("oracle")/連接數據
3=A2.cursor("select * from customer")/生成取數游標
4for A3,10000/循環取數,每次10000條
5=A2.close()/關閉連接
6=interval@s(A1,now())/計算時長

?

MySQL的測試代碼類似,不再贅述。

?

測試結果(時間單位:秒)


第一次第二次每秒行數
Oracle293281106K
MySQL51838179K

第二次可能由于操作系統有了硬盤緩存,所以更快。因為我們主要是為了測試JDBC的讀取時間,所以就以第二次為準,減少數據庫本身從硬盤讀數的影響。每秒讀出行數也是按第二次時間來計算的,也就是說,Oracle每秒能讀出10萬行多數據,MySQL大概接近8萬行。當然這個值和表的字段數及類型都有關(customer表有8個字段),只是一種參考。

?

4.??????? 文本文件對比

只從上面的數據量還沒有太多感性認識,我們再讀一下文本文件來對比。辦法是一樣的,從文件中讀出數據,并解析出記錄,不作任何計算。

編寫如下SPL腳本執行測試:


A
1=now()/記錄時間
2=file("/home/sjr/tbl/customer.tbl")/產生文件對象
3=A2.cursor(;,"|")/生成取數游標,分隔符是|
4for A3,10000/循環取數,每次10000條
5=interval@s(A1,now())/計算時長

測試結果是42秒!

這意味著,讀取文本要比讀取Oracle快281/42=6.69倍,比MySQL要快381/42=9.07倍!

我們知道,文本解析是個非常麻煩的事情,但即使這樣,從文本文件讀取數據還是遠遠快于從數據庫中讀數。Oracle和MySQL的IO實在是太慢了!

?

5.??????? 二進制方式

我們進一步再看使用二進制方式的存儲格式的讀取性能,并和文本比對。

為了對比明顯,這次換一個更大的表,用TPCH中的orders表,有3億行數據,9個字段。

文本讀取的代碼和上面類似,讀取時間測試為438秒。

?

然后,我們將這個文本文件轉換成SPL組表,再寫代碼測試:


A
1=now()/記錄時間
2=file("/home/sjr/ctx/orders.ctx").create()/產生組表對象
3=A2.cursor()/生成取數游標
4for A3,10000/循環取數,每次10000條
5=interval@s(A1,now())/計算時長

測試結果是164秒,大概僅僅是文本讀取的三分之一。

這是情理之中的事情,因為二進制數據不再需要解析,可以直接產生對象,計算量少了很多,因而要更快。

需要說明的是,組表文件雖然采用列存格式,但在這里讀出了所有列,并沒有比文本少取任何內容,沒有占列存的便宜。事實上,因為讀所有列,使用列存還會吃點虧,如果采用SPL集文件(一種行存格式)還會更快。

?

6.??????? 并行提速

從文件中取數還很容易實現并行,文本和組表都容易寫出并行程序。還是用上面的orders表為例來測試,使用4線程取數。

文本取數代碼:


ABC
1>n=4/n是并行數=now()
2=file("/home/sjr/tpch_2_17_0/tbls/orders.tbl")
3fork to(n)=A2.cursor(;A3:n, "|")多線程產生游標,每個游標只取4段中的一段
4
for B3, 10000
5=interval@s(C1,now())

組表取數代碼:


ABC
1>n=4/n是并行數=now()
2=file("/home/sjr/ctx/orders.ctx").create()
3fork to(n)=A2.cursor(;;A3:n)多線程產生游標,每個游標只取4段中的一段
4
for B3, 10000
5=interval@s(C1,now())

用SPL很容易實現數據分段和并行計算。

?

測試結果為:

文本?????? 119秒

組表?????? 43秒

與串行相比,接近了線性提升,將CPU的多核充分利用起來了。

?

?????? 數據庫中的數據則不容易簡單地實施分段并行,需要用WHERE條件去拼,結果很難說清到底是并行不力還是WHERE執行損失太多,測試結果的參考意義就打折扣了,這里就不再做了。

?

7.??????? 結論

數據庫(Oracle和MySQL)的JDBC性能非常非常差!比文本文件還要差5倍以上。而采用二進制數據時,會比文本再提高3倍的讀取性能。也就是說,合理格式的二進制文件會比數據庫有15倍以上的優勢。再考慮到并行因素,比數據庫快出幾十上百倍也是完全可能的。

在關注性能且數據量較大時,千萬不要把數據讀出數據庫計算!

如果實在需要讀出后再計算(有時SQL很難寫出復雜的過程計算),就不要再用數據庫存儲了(大數據都是歷史,基本也不再改了,可以事先讀出),用文本都比數據庫強,用二進制當然更好(推薦使用SPL組表,哈哈)。切不要把時間浪費在讀數這種非計算任務上了。


向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女