字节unicode编码和utf8 UTF-8到Unicode的编码转换

unicode编码转换  时间:2021-04-12  阅读:()

导读就爱阅读网友为您分享以下“UTF-8到Unicode的编码转换”资讯希望对您有所帮助感谢您对92to.com的支持!

UTF-8就是Unicode Transfo rmation Format-8是Unicode的一种变换编码格式。

U TF-8有以下特性:

UCS字符U+0000到U+007F (ASCII)被编码为字节0x00到0x7F(ASCII兼容).这意味着只包含7位ASCII字符的文件在ASCII和UTF-8两种编码方式下是一样的.

所有>U+007F的UCS字符被编码为一个多个字节

1

的串,每个字节都有标记位集. 因此, ASCII字节(0x00-0x7F)不可能作为任何其他字符的一部分.

表示非ASCII字符的多字节串的第一个字节总是在0xC0到0 xF D的范围里,并指出这个字符包含多少个字节.多字节串的其余字节都在0 x80到0 xB F范围里.这使得重新同步非常容易,并使编码无国界,且很少受丢失字节的影响.

可以编入所有可能的231个UCS代码

U TF-8编码字符理论上可以最多到6个字节长,然而16位B MP字符最多只用到3字节长.

Bigendian UCS-4字节串的排列顺序是预定的.

字节0 xF E和0 xF F在U TF-8编码中从未用到.

下列字节串用来表示一个字符.用到哪个串取决于该字符在Unicode中的序号.

U-00000000-U-0000007F:

2

0 x xx x xx x

U-00000080-U-000007FF:

U-00000800-U-0000FFFF:

U-00010000-U-001FFFFF:

U-00200000-U-03FFFFFF:

U-04000000-U-7FFFFFFF:

110xxxxx 10xxxxxx 1110xxxx 10xxxxxx 10xxxxxx11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 111110xx10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 1111110x10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx10xxxxxx

从上表还可以看出 U TF-8每个编码字符都不可能以“10”开头 “10”是以连接符的形式出现在后面的编码字节开头。因此U TF-8编码在存储和传输时是不容易出错的。

下面是UTF-8到Unic o de的编码转换代码(J2 ME环境下的实现) UTFC2UniC方法包含了编码转换逻辑。

/**

3

*将U TF-8字节数据转化为Unic o de字符串

*@pa ra m utf_data byte[] -UTF-8编码字节数组

*@pa ra m le n int-字节数组长度

*@return String-变换后的Unicode编码字符串

*/public static String UTF2Uni(byte[] utf_data, int len){

StringBuffer unis=new StringBuffer();char unic=0;int ptr=0;int cntBits=0;fo r(;pt r< le n;)

{cntBits=getC ntBits(utf_data[ptr]);if(c ntB it s==-1)

{

4

++ptr;continue;

}e ls eif(c ntB it s==0)

{unic = UTF C2UniC(utf_data, ptr, cntBits);++ptr;

}e ls e

{unic = UTF C2UniC(utf_data, ptr, cntBits);ptr+=cntBits;

}unis.append(unic);

}return unis.toString();

}

/**

5

*将指定的UTF-8字节组合成一个Unic o de编码字符

*@param utf byte[] -UTF-8字节数组

*@param sptr int-编码字节起始位置

*@param cntBits int-编码字节数

*@return char-变换后的Unicode字符

*/public static char UTFC2UniC(byte[] utf, int sptr, intcntBits)

{

/*

U nico de<->U TF-8

U-00000000-U-0000007F: 0 xxxx x xx

U-00000080-U-000007FF: 110xxxxx 10xxxxxx

6

U-00000800-U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

U-00010000-U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx10 xxx x xx

U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx10xxxxxx 10xxxxxx 10xxxxxx

U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

*/int uniC=0; // represent theunicode char byte firstByte=utf[sptr];int ptr=0; // pointer 0~15

//resolve single byte UTF-8 encoding charif(c ntB it s==0)return(char)firstByte;

//resolve the first byte

7

firstByte&=(1<< (7-c ntBits)) - 1;

// resolve multiple bytes UTF-8 encoding char(except thefirst byte)fo r(int i=sptr+c ntBits -1; i> sptr; --i)

{byte utfb=utf[i];uniC|=(utfb&0x3 f)<<ptr;ptr+=6;

}uniC|=firstByte<<ptr;return(char)uniC;

}

//根据给定字节计算U TF-8编码的一个字符所占字节数

//U TF-8规则定义字节标记只能为0或2~6private static int getCntBits(byte b)

{int cnt=0;

8

if(b==0)re t u rn-1;for(int i=7; i>=0; --i)

{if(((b&g t;&g t; i)&0 x 1)==1)

++c nt;e ls ebreak;

}return(c nt>6| |c nt==1)?-1 : c nt;

}

参考资料

《 UTF-8 and Unicode FAQ 》 ——http://www.linuxfo rum.net/books/UTF-8-Unicode.html

百度搜索“就爱阅读”,专业资料,生活学习,尽在就爱阅读网92to.com,您的在线图书馆

9

Ceraus24元/月,国庆促销 香港云上新首月五折

Ceraus数据成立于2020年底,基于KVM虚拟架构技术;主营提供香港CN2、美国洛杉矶CN2、日本CN2的相关VPS云主机业务。喜迎国庆香港上新首月五折不限新老用户,cera机房,线路好,机器稳,适合做站五折优惠码:gqceraus 续费七五折官方网站:https://www.ceraus.com香港云内存​CPU硬盘流量宽带优惠价格购买地址香港云2G2核40G不限5Mbps24元/月点击购买...

ReadyDedis:VPS全场5折,1G内存套餐月付2美元起,8个机房可选_服务器安装svn

ReadyDedis是一家2018年成立的国外VPS商家,由印度人开设,主要提供VPS和独立服务器租用等,可选数据中心包括美国洛杉矶、西雅图、亚特兰大、纽约、拉斯维加斯、杰克逊维尔、印度和德国等。目前,商家针对全部VPS主机提供新年5折优惠码,优惠后最低套餐1GB内存每月仅需2美元起,所有VPS均为1Gbps端口不限流量方式。下面列出几款主机配置信息。CPU:1core内存:1GB硬盘:25GB ...

Digital-VM:服务器,$80/月;挪威/丹麦英国/Digital-VM:日本/新加坡/digital-vm:日本VPS仅$2.4/月

digital-vm怎么样?digital-vm在今年1月份就新增了日本、新加坡独立服务器业务,但是不知为何,期间终止了销售日本服务器和新加坡服务器,今天无意中在webhostingtalk论坛看到Digital-VM在发日本和新加坡独立服务器销售信息。服务器硬件是 Supermicro、采用最新一代 Intel CPU、DDR4 RAM 和 Enterprise Samsung SSD内存,默认...

unicode编码转换为你推荐
配置用于Windows德国iphone禁售令有人说苹果手机从2017年开始,中国禁售了播放flash全国企业信息查询全国企业信用信息公示系统查询入口 及操作说明哪里有?美要求解锁iPhone怎么用爱思手机助手解锁苹果手机?filezilla_serverFileZilla无法连接服务器怎么解决tumblr上不去为什么,爱看软件打不开?页面一直在加载ie假死我的ie浏览器偶尔出现假死的情况 即打开浏览器时无法显示网页 点了关闭窗口也没反应,请问这是怎么回事啊drupal主题如何在 drupal 上让网页呈现手机版页面以让智能手机更易浏览阅读无忧验证码手机登录前程无忧怎么不显示登录验证码
免费试用vps 域名服务器是什么 香港ufo 全球付 全站静态化 hinet 息壤代理 多线空间 卡巴斯基是免费的吗 双12 starry 中国电信网络测速 php服务器 实惠 阵亡将士纪念日 netvigator phpinfo 防盗链 中国域名根服务器 西部主机 更多