java 字符串截取的實例詳解
題目
在java中,字符串“abcd”與字符串“ab你好”的長度是一樣,都是四個字符。
但對應的字節數不同,一個漢字占兩個字節。
定義一個方法,按照指定的字節數來取子串。
如:對于“ab你好”,如果取三個字節,那么子串就是ab與“你”字的半個,那么半個就要舍棄。
如果取四個字節就是“ab你”,取五個字節還是“ab你”。
僅考慮GBK和utf-8編碼
實例代碼:
import java.io.UnsupportedEncodingException;
import org.junit.Test;
/**
* @author<a href="mailto:953801304@qq.com" rel="external nofollow" >胡龍華</a>
* @version 2017-4-4 下午1:08:45
* @fileName StringCut.java
*/
public class StringCut {
@Test
public void analyze(){
String str1 = "你好abc";
byte[] bs1=null;
byte[] bs2=null;
try {
bs1 = str1.getBytes("GBK");
System.out.println("---GBK---");
for(byte b:bs1){
System.out.print(b+" ");
}
System.out.println();
//-60 -29 -70 -61 97 98 99
// 發現規律,再gbk中一個中文漢字 都是以兩個字節 小于0的數存儲
bs2 = str1.getBytes("utf-8");
System.out.println("---utf-8---");
for(byte b:bs2){
System.out.print(b+" ");
}
//-28 -67 -96 -27 -91 -67 97 98 99
// 發現規律,在utf-8中一個中文漢字 是以三個字節 小于0 的數存儲
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
}
/**
* 思路:從第len個往前數,連續2的倍數個負數則全部輸出,單數個則去掉最后一個輸出
* @param str
* @param len
* @return
*/
private static String StringCutByGBK(String str,int len){
byte[] bs = null;
try {
int count = 0;
bs = str .getBytes("GBK");
for(int i=len-1;i>=0;i--){
if(bs[i]<0){
count++;
}else{
break;
}
// 0 1 2 3 4 5 6 7 8 9 10 11 12
} //-60 -29 -70 -61 -80 -95 97 98 99 -76 -17 -72 -25
if(count%2==0){
String s=new String(bs, 0, len, "GBK");
System.out.println("截取"+len+"個字符:"+s);
}else{
String s=new String(bs, 0, len-1, "GBK");
System.out.println("截取"+len+"個字符:"+s);
}
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
return null;
}
/**
* 思路:從第len個往前數,連續3的倍數個負數則全部輸出,其他情況則去掉最后count%3個輸出
* @param str
* @param len
* @return
*/
private static String StringCutByUTF8(String str,int len){
byte[] bs = null;
try {
int count = 0;
bs = str .getBytes("UTF-8");
for(int i=len-1;i>=0;i--){
if(bs[i]<0){
count++;
}else{
break;
}
}
// 0 1 2 3 4 5 6 7 8 9 10 11 12
//-60 -29 -70 -61 -80 -95 97 98 99 -76 -17 -72 -25
if(count%3==0){
String s=new String(bs, 0, len, "UTF-8");
System.out.println("截取"+len+"個字符:"+s);
}else{
String s=new String(bs, 0, len-count%3, "UTF-8");
System.out.println("截取"+len+"個字符:"+s);
}
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
return null;
}
@Test
public void TEST() {
String str = "你好啊abc達哥";
try {
System.out.println("---測試gbk---");
byte bs [] = str.getBytes("GBK");
for(int i=0;i<=bs.length;i++){
//System.out.print(bs[i]+" ");
StringCutByGBK(str,i);
}
System.out.println("---測試UTF-8---");
byte bs2 [] = str.getBytes("utf-8");
for(int i=0;i<=bs2.length;i++){
//System.out.print(bs[i]+" ");
StringCutByUTF8(str,i);
}
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
如有疑問請留言或者到本站社區交流討論,感謝閱讀,希望能幫助到大家,謝謝大家對本站的支持!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。