unicode解码(unicode编码是几进制)

2024-11-10 09:55 - 立有生活网

Unicode(utf-8) 是什么意思？

utf8mb4_unicode_ci的优缺点

UTF8并不算是一种电脑编码，而是一种储存和传送的格式，如前所述，每个Unicode/UCS字符都以 2或4个bytes来储存，看看以下的比较：

以"I am Chinese"为例

用ANSI储存：12 Bytes

用Unicode/UCS2储存：24 Bytes + 2 Bytes(header)

以"我是人"为例

用ANSI储存：10 Bytes

用Unicode/UCS2储存：10 Bytes + 2 Bytes(header)

用UCS4储存：20 Bytes + 4 Bytes(header)

由此可见直接以Unicode/UCS的原始形式来储存是一种极大的浪费，而且也不利于互联网的传输(中文稍为合算一点^_^)。

有见及此，Unicode/UCS的压缩形式－－UTF8出现了，套用网站的首句话『UTF-8 stands for Unicode Transformation Format-8. It is an octet (8-bit) lossless encoding of Unicode characters.』，由于UTF也适用于编码UCS，故亦可称为『UCS transformation formats (UTF)』

UTF8是以8bits即1Bytes为编码的最基本单位，当然也可以有基于16bits和32bits的形式，分别称为UTF16和UTF32，但目前用得不多，而UTF8则被广泛应用在文件储存和网络传输中。

编码原理

UCS-4 range (hex.) UTF-8 octet sequence (binary)

0000 0000-0000 007F 0xxxxxxx

0000 0080-0000 07FF 110xxxxx 10xxxxxx

0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx

编码步骤：

1) 首先确定需要多少个8bits(octets)

2) 按照上Character述模板填充每个octets的高位bits

3) 把字符的bits填充至x中，字符顺序：低位→高位，UTF8顺序：一个octet的最末位x→个octet位x

4) 解码的原理一样。

实例：(留意每个bit的颜色，粗体字为模板内容)

UCS-4 UTF-8

HEX BIN Bytes BIN HEX Bytes

0000 000A 00001010 4 00001010 0A 1

0000 0099 10011001 4 11000010 10011001 C2 99 2

0000 8D99 10001101 10011001 4 11101000 10110110 10011001 E8 B6 99 3

以UTF8格式储存的文件档首标识为EF BB BF。

效率

从上述编码原理中得出的结论是：

1.每个英文字母、数字所占的空间为1 Byte；

2.泛欧语系、斯拉夫语字母占2 Bytes；

3.汉字占3 Bytes。

由此可见UTF8对英文来说是个非常诱人的方案，但对中文来说则不太合算，无论用ANSI还是 Unicode/UCS2来编码都只用2 Bytes，但用UTF8则需要3 Bytes。

以下是一些统计资料，显示用UTF8来储存文件每个字符所需的平均字节：

1.拉丁语系平均用1.1 Bytes；

2.希腊文、俄文、文和希伯莱文平均用1.7 Bytes；

3.其他大部份文字如中文、日文、韩文、Hindi(北印度语)用约3 Bytes；

4.用超过4 Bytes的都是些非常少用的文字符号。

UNICODE（UTF-8）这个项目放在 IE 的菜单栏下是为了让你能够强制 IE 用 UTF-8 字符集显示页面。

只有在页面编码为 UTF-8 但 IE 却无确地选择 UTF-8 字符集来显示页面的时候，你才应该动用该项目。

如果现在你选择该项目，这个页面将被显示成乱码，因为这个页面的编码是 GB2312 （简体中文），不是 UTF-8。以不正确的编码显示页面就好像把汉语拼音当成法语来念，结果当然是没人能听懂的乱语。

大多数情况下，IE 会（其实任何浏览器都会）正确地判断出页面的编码然后选用正确的字符集显示页面，所以你大可忽略 “查看/编码/” 菜单的存在。

对东亚语言（双字节文字，比如汉字，朝鲜文）进行优化支持的一种编码方式

UTF8 编码是很特殊的编码，它可以表示所有电脑上的文字/符号

一般很少用这种编码

JoshuaChen回答的好～

UTF-8的文件解码为iso8859-1之后为什么会出现乱码? 求高手解答!!

ISO8859-1，通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。而gb2312是标准中文字符集。但是 ISO 10646 码有下列问题： UTF-16 或 Unicode 是 16-bit 固定长度的编码，并没有比 Big5 或 GB2312 码提供更大的容纳空间。而 8-bit 不定长 (variable-length) 的编码，每个中文字使用 3 个位元组 (byte)。这意味着使用 UTF-8 编码的 XML 文件会比使用 Big5 码的文件大上 50%。但是如使用 ASCII 码的标示 (Markup)，文件就不会大这么多了。标示大约会占文件的 50%。可能要使文件大小减少的方式就是采用文件压缩了。 ISO 10646 码中，字的顺序与任何的中文码并不同。无法使用一个简单的演算法 (algorithm) 就可以将 Big5 或 GB2312 码转换为 ISO 10646。您得用一个转换表来进行转码。但另一方面，ISO 10646 码的中文字序有利于排序 (sorting)。而且也去除了重复字，因而对于检索 (searching) 也有帮助。(据说 GBK 字集包含 ISO 10646 码中所有的字，而且保留与 GB2312 码相同的字序。在某些情形下可能是个好字集。)UTF-8 是 UNICODE 的一种变长字符编码，即 RFC 3629。简单的说——大字符集。可以解决多种语言文本显示问题，从而实现应用化和本地化。对系统来讲，UTF-8 编码可以通过屏蔽位和移位作快速读写，排序更加容易。UTF-8 是字节顺序无关的，它的字节顺序在所有系统中都是一样的。 UTF-8是UTF-8编码是一种目前广泛应用于网页的编码，它其实是一种Unicode编码，即致力于把全球所有语言纳入一个统一的编码。前UTF-8已经把几种重要的语言纳入，包括简繁中文和日韩文字。因此 UTF-8 具有更高的性能。不过如果是纯英文的话，用什么都可以，用GB2312也没问题。GB2312是简体中文编码，当文章/网页中包含繁体中文、日文、韩文时，这些内容可能无法被正确编码。对于GB2312 汉字是双字节的。所谓双字节是指一个双字要占用两个BYTE的位置（即16位），分别称为高位和低位。规定的汉字编码为GB2312，这是强制性的，目前几乎所有的能处理中文的应用程序都支持GB2312。GB2312包括了一二级汉字和9区符号，高位从0xa1到0xfe，低位也是从0xa1到0xfe，其中，汉字的编码范围为0xb0a1到0xf7fe。总结： Unicode 制定组织 (Unicode Consortium) 是许多的公司联合决定制定一个包含全世界所有文字的巨大字集，其中也有的公司参与。例如：Fujitsu and Fuji Xerox 公司。该组织取用 ISO 10646 字集然后加入其他的资讯：标准名称及特性。 Unicode 包含 GB2312 中所有的字及(可能) Big5 码中所有的字。而且加入了许多其他语言的文字。(ISO 10646 有几种编码方式： UTF-8 是 8-bit 的，而 UTF-16 是 16-bit。 Unicode 是 UTF-16 的形式。

因此 Unicode 比 Big5 及 GB2312 码好 - 因为 Unicode 包含较多的字。 ISO字符集 ASCII中的"A"代表美国，因此ASCII码专门用于书写英语，严格来说是美式英语也就不足为奇了。ASCII码中缺少￡、ü、?和许多书写其他语言和地区所需的字符。可通过指定128以后的更多字符扩展ASCII码。标准组织（ISO）定义了几个不同的字符集，它们是在ASCII码基础上增加了其他语言和地性能考虑区需要的字符。其中最突出的是ISO8859-1，通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符，其中 0~127的字符与ASCII码相同。表7-2给出了128~255之间的字符，同样前32个字符是极少使用的非打印控制字符。

所以对于ISO8859-1和GB2312之间的转换就会出现麻烦了呵呵因为通常异种语言之间的转换是通过Unicode来完成的。设有两种不同的语言A和B，转换的步骤为：先把A转化为Unicode，再把Unicode转化为B。打个比方吧有GB2312中有一个汉字“李”，其编码为“C0EE”，欲转化为ISO8859-1编码。步骤为：先把“李”字转化为Unicode，得到 “674E”，再把“674E”转化为ISO8859-1字符。当然，这个映射不会成功，因为ISO8859-1中根本就没有与“674E”对应的字符。总的来说一个是的一个是西欧语言

------------------------------------------------------------------------------

iso-8859-1是JAVA网络传输使用的标准字符集,而gb2312是标准中文字符集,当你作出提交表单等需要网络传输的作的时候,就需要把 iso-8859-1转换为gb2312字符集显示,否则如果按浏览器的gb2312格式来解释iso-8859-1字符集的话,由于2者不兼容,所以会是乱码.

------------------------------------------------------------------------------

汉字是双字节的。所谓双字节是指一个双字要占用两个 BYTE的位置（即16位），分别称为高位和低位。规定的汉字编码为GB2312，这是强制性的，目前几乎所有的能处理中文的应用程序都支持GB2312。GB2312包括了一二级汉字和9区符号，高位从0xa1到0xfe，低位也是从0xa1到 0xfe，其中，汉字的编码范围为0xb0a1到0xf7fe。另外有一种编码，叫做GBK，但这是一份规范，不是强制的。GBK提供了20902个汉字，它兼容GB2312，编码范围为0x8140到0xfefe。GBK中的所有字符都可以一一映射到Unicode 2.0。在不久的将来，会颁布另一种标准：GB18030-2000（GBK2K）。它收录了藏、蒙等少数民族的字型，从根本上解决了字位不足的问题。注意：它不再是定长的。其二字节部份与GBK兼容，四字节部分是扩充的字符、字形。它的首字节和第三字节从0x81到0xfe，二字节和第四字节从0x30到 0x39

mysql查询未解码的unicode汉字，模糊查询不成功怎么办？

内码转换：由于历史、地区原因，有时一种文字会出现多种编码方案，特别是汉字。由于不同于系统内码的字符不能在该系统中正常显示，必须要进行字符的内码转换，即将非系统内码的字符转换为系统可以识别的内码字符。南极星就是这样的软件，其它如四通利方、MagicWin98、两岸通、汉字通等都是这样的内码转换工具。

mysql查询的时候会将干掉，x0dx0a你可以用mysql的like通配符来做1也叫做SMP（Supplementary Multilingualx0dx0alike '%u5f20u4e09%'x0dx0a变成x0dx0alike '%_u5f20_u4e09%'

请问什么是文字解码方式?有何作用

0x9993 0x6ABD #CJK UNIFIED IDEOGRAPH

字符编码：字符编码就是以二进制的数字来对应字符集的字符，目前用得最普遍的字符集是ANSI，对应ANSI字符集的二进制编码就称为ANSI码，DOS和Windows系统都使用了ANSI码，但在系统中使用的字符编码要经过二进制转换，称为系统内码。

汉字内码：ANSI码是单一字节（8位二进制数）的编码集，最多只能表示256个字符，不能表示众多的汉字字符，各个和地区在ANSI码的基础上又设计了各种不同的汉字编码集，以能够处理大数量的汉字字符。这些编码使用单字节来表示ANSI的英文字符（即兼容ANSI码），使用双字节来表示汉字字符。由于一个系统中只能有一种汉字内码，不能识别其它汉字内码的字符，造成了交流的不便。

GB码：GB码是1980年公布的简体汉字编码方案，在大陆、新加坡得到广泛的使用，也称国标码。国标码对6763个汉字集进行了编码，涵盖了大多数正在使用的汉字。

GBK码：GBK码是GB码的扩展字符编码，对多达2万多的简繁汉字进行了编码，简体版的Win95和Win98都是使用GBK作系统内码。

BIG5码：BIG5码是针对繁体汉字的汉字编码，目前在、的电脑系统中得到普遍应用。

HZ码：HZ码是在Internet上广泛使用的一种汉字编码。

ISO－2022CJK码：IOS－2022是标准组织（ISO）为各种语言字符制定的编码标准。采用二个字节编码，其中汉语编码称ISO－2022 CN，日语、韩语的编码分别称JP、KR。一般将三者合称CJK码。目前CJK码主要在Internet网络中使用。

Unicode码：Unicode码也是一种标准编码，采用二个字节编码，与ANSI码不兼容。目前，在网络、Windows系统和很多大型软件中得到应用。

如何处理emoji等4字节的Unicode字符

双字节字符编码范围

注意UTF-8的最前面3个1，表示整个UTF-8串是由3个字节构成的。

Unicode是什么

简单说来，就是把世界上所有语言的字，加上所有能找到的符号（如高音谱号、、emoji）用同一套编码表示出来。

UTF-8是什么

UTF-8（8-bit Unicode Transformation

Format）是一种针对Unicode的可变长度字符编码。可变长度的意思在于，如果能使用1字节编码，UTF-8不会使用2字节去表示。举个例子，UTF-8的1字节部分和ASCII码是相同的。所以表示'A'这个字符的时候，UTF-8与ASCII码不仅编码相同，而且都是只使用1字节。

Character Set和Collation是什么

Set是一套符号以及编码。Collation是character set的排序方法。在中文版的MySQL中，character

set被翻译为“字符集”，collation被翻译为“整理”。

举个例子，UTF-8是character

set，utf8_unicode_ci和utf8mb4_unicode_ci就是collation。

Collation的作用主要有二：字符排序与查找字符。

字符排序的作用是显而易见的，不过还是要用几个例子加以说明。比如要比较a和b的大小，因为在26个英文字母里面，a在b前，所以在编码的时候，也把a放在b前面。这样就产生了种排序方式，通过字符编码的大小来排序。而在中文里面，“年”和“日”的排序，除了按照字符编码大小，还可以有另外一些标准。比如可以按照笔画序，“年”的笔是丿，“日”的笔是丨，而丨是排在丿前的，所以就将“日”排在前面；也可以按拼音序，“年”是n开头，“日”是r开头，于是把“年”排在前面。除此以外，还可以定义部首序、笔画数序等等，而不同的排序方有不同的结果。英文也有大小写敏感与不敏感的排序方式。种种不同的排序方式，就形成了不同的collations。

Unicode再深入：Plane和中日韩越统一表意文字

utf8_unicode_ci和utf8mb4_unicode_ci这两个collations都是基于UTF-8编码的，但排序方面或多或少会有别。可是更大的别是它查找字符的。这需要提到一个Unicode的概念：Plane。

4.1.

Plane

Plane中文译作“Unicode平面字符映射”，不过我们还是叫它plane好啦。目前的Unicode字符分为17个planes，而每个plane拥有65536（即2^16）个代码点。可以认为一个plane就是一个范围的编码。

Plane

Plane，多文种补充平面），放着表情符号（emoji）、字母与数学符号、音乐符号、太玄经（太极符号）、装饰符号、扑克牌、符号、箭头扩展和一些世界上各种语言不太常用的文字等等。

Plane 2也叫做SIP（Supplementary Ideographic

Plane，表意文字补充平面），用于存放统一汉字（见4.2）的一些罕用字与语系其他语言的用字（如粤语用字）。

4.2.

统一汉字的分布

对于统一汉字（中日韩越统一表意文字，CJKV Unified

Ideographs）来说，BMP存放着最初的版本（也是最常用字）与扩展A区的汉字。扩展B区到即将到来的扩展E区都放在SIP中。

在这些区中，除了字源的字，还有同一个字源或部首不同的变体或写法。比如“户”的笔，大陆与写作“户”，写作“户”，日本则写作“戸”。这些异也会在Unicode中用三个不同的编码去表示。所以B区到E区有不少此种字体。

举些B区的例子。网络上之前流行的“不会功夫不要艹我”被写成““xx巭嫑莪”，其中“xx”这个字就是在B区。而粤语“x鸡”（阉鸡）、“x完松”（和一个人后弃之而去）两个词的首字也是在B区。

utf8_unicode_ci和utf8mb4_unicode_ci的异同

由于utf8_unicode_ci最多能找到3个字节的编码，意味着它只支持BMP中的字符，对于SMP与SIP以及其他头一字节不为0x00、需要4字节编码的planes来说，utf8_unicode_ci这种collation是无法支持。当使用4字节的字符（如emoji与B区以后的统一汉字）对使用此种collation的字段进行增删查改时，数据库会报一个非法字符的异常。而utf8mb4则没有此问题。由此也看出，utf8mb4_unicode_ci是utf8_unicode_ci的超集。

utf8mb4系列的Collation在MySQL

5.5以上开始支持。相比起utf8_unicode_ci，它有如下的特性：

在数据表中，对于BMP中的字符（最多使用3字节的字符，最常用的字符），两种collations具有完全相同的存储特性：相同的码值，相同的编码方式，相同的存储长度。不会增加任何的存储开销。

在数据表中，对于其他plains的字符，utf8系列的collation根本不能存储，而utf8mb4系列的collations则可以存储。

在数据表中，对于变长的字段（如VARCHAR2，TEXT），utf8mb4可存储的字符可能少于utf8系列的collation。

在索引中，对于文本类型的字段，utf8mb4可索引的字符少于utf8系列的collations。如InnoDB的索引最多使用767字节。如果使用utf8mb4，每一个字符都会预留4字节做索引，而utf8则预留3字节。故此前者是1个字符，后者是255个字符。

由于4)的原因，加上字符集大，utf8mb4的性能可能比utf8系列的collations低。

若升级前的字段做了索引，需要把索引字符限制在1字符或以内。

扔掉。

1.1) 扔掉或截断引发异常的字。采取此种方法，需要对每一个标题进行扫描。

1.2)

扔掉整条记录。可以采取扫描法，或者扔掉引发异常的记录。

2) 升级到utf8mb4。会略为降低数据库性能。

7.1.

首先对于写入性能，查找字体的性能损耗由于在写入前字符都已经变成编码，基本可以忽略。对于网络传输的性能，则需要继续查找相关资料继续查证。但初步估计由于目前数据库在本地，故此这部分开销的增长不太明显。

而对于索引的性能，由于网页标题这一字段没有做索引，在可预见的将来也未有此，故此没有性能的损耗，也没有升级兼容性的担心。

况且，倘若走扔掉数据的方向，若采取扫描法，则需要付出扫描的开销。若采取扔掉记录法，则会先触发事务回滚，其他记录需要下次重新写入。而且当一批记录写入时有k个记录引发异常，则需要回滚与重试k次，除非使用扫描法预先扫描出这些异常的记录。但这也会引入额外的程序与数据库开销。若不使用事务，则数据库总体写入性能会大为降低。

虽然没有实测过，但从感觉上来定性判断，似乎扔掉记录比升级collation带来的性能退化要大。

7.2.

存储空间考虑

7.3.

目标数据考虑

网页标题作为以后特征分析的数据源。在分析需求完全没有确定的情况下，我认为扔掉任何数据都是不宜采取的办法，特别是整条记录扔掉更是不。因为现阶段我们没有一套标准去判定何为有效数据、何为无效数据。有可能引发异常的那部分数据确实是没用的数据，也有可能那部分人群更倾向于在我们平台上活跃使用。既然各种可能性都存在，我们主动放弃一部分可能性，似乎不太恰当。

7.4.

API设计与兼容性考虑

由于utf8_unicode_ci与utf8mb4_unicode_ci都是使用UTF-8编码，所以对于JAVA，使用MyBatis生成的代码是一样的，都是使用String类型。这点已经实测过。加上这两种collations在BMP中的编码完全一致，所以使用3字节与4字节的系统，对于BMP中的字符都是完全兼容、正常显示的。而对于3字节的系统，4字节的字符一般会显示成一个方框，或者在一个方框中有几个小数字，不会引发系统异常。

总结

诚然，emoji对分词分析目前来说还没有什么效果，粤语词而且在SIP中也只是其中一部分，也不知道有多少日本动漫或者爱情动作片的网页会遇到这些生僻字，音乐符号也少人用，太极符号也不是每次都出现，一些数学增补的字符与箭头增补图案也不是每个人都会用。这些加起来可能不知够不够全部的千分之一。

但是倘若每一两个小时就会由于字符不能写入，引发数据库的异常。通过上面的分析，我认为增加这种兼容性带来的成本是可以接受的。

故此，我建议使用升级的方法，兼容所有Unicode字符。

转载

易语言怎么把字节集转成Unicode编码

Unicode编码转换到UTF-8,简单的把Unicode字节流套到x中就变成UTF-8了。

编码转换 (待转换字节集, #编码_GB18030, #编码_UCS_2LE, )

------------------------------------------------------

调用格式：〈字节集〉编码转换（字节集被转换数据，文本型转换前的数据编码，文本型转换后的数据编码，［逻辑型变量执行结果］） - 编码转换支持库->编码转换

英文名称：iconv

将指定的数据从一种编码转换为另一种编码，返回转换后的数据。如果执行失败，将返回空字节集，同时设置参数“执行结果”为“”。本命令相当于“编码转换_打开()”“编码转换_转换()”“编码转换_关闭()”三个命令的组合使用。本命令为初级命令。

参数<1>的名称为“被转换数据”，类型为“字节集（bin）”。

参数<2>的名称为“转换前的数据编码”，类型为“文本型（text）”。可以使用本库中定义的以“编码_”开头的编码常量。编码名称不区分字母大小写。注意：如果指定的编码与“被转换数据”的实际编码不符，很可能导致编码转换失败。

参数<3>的名称为“转换后的数据编码”，类型为“文本型（text）”。可以使用| 汉字结构 | 12字 | 2FF0-2FFB |本库中定义的以“编码_”开头的编码常量。编码名称不区分字母大小写。

参数<4>的名称为“执行结果”，类型为“逻辑型（bool）”，可以被省略，提供参数数据时只能提供变量。如果提供本参数，其中将被写入本命令的执行结果——执行成功时为真，执行失败时为。

请解释一下unicode,utf-8,gb2312这些编码的含义

先看这个模板：

字符集与编码各个和地区所制定的不同 ANSI 编码标准中，都只规定了各自语言所需的“字符”。比如：汉字标准（GB2312）中没有规定韩国语字符怎样存储。这些 ANSI 编码标准所规定的内容包含两层含义： 1. 使用哪些字符。也就是说哪些汉字，字母和符号会被收入标准中。所包含“字符”的就叫做“字符集”。 2. 规定每个“字符”分别用一个字节还是多个字节存储，用哪些字节来存储，这个规定就叫做“编码”。各个和地区在制定编码标准的时候，“字符的”和“编码” 一般都是同时制定的。因此，平常我们所说的“字符集”，比如： GB2312, GBK, JIS 等，除了有“字符的”这层含义外，同时也包含了“编码” 的含义。 “UNICODE 字符集”包含了各种语言中使用到的所有“字符”。用来给 UNICODE 字符集编码的标准有很多种，比如：UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。 1、ISO-8859-1：最简单的编码规则，每一个字节直接作为一个 UNICODE 字符。比如，[0xD6, 0xD0] 这两个字节，通过 iso-8859-1 转化为字符串时，将直接得到 [0x00D6, 0x00D0] 两个 UNICODE 字符，即 ""。反之，将 UNICODE 字符串通过 iso-8859-1 转化为字节串时，只能正常转化 0~255 范围的字符。 2、GB2312,BIG5,Shift_JIS,ISO- 8859-2 把UNICODE 字符串通过 ANSI 编码转化为“字节串”时，根据各自编码的规定，一个 UNICODE 字符可能转化成一个字节或多个字节。反之，将字节串转化成字符串时，也可能多个字节转化成一个字符。比如，[0xD6, 0xD0] 这两个字节，通过 GB2312 转化为字符串时，将得到 [0x4E2D] 一个字符，即 '中' 字。 “ANSI 编码”的特点： 1. 这些“ANSI 编码标准”都只能处理各自语言范围之内的 UNICODE 字符。 2. “UNICODE 字符”与“转换出来的字节”之间的关系是人为规定的。 3、UTF-8,UTF-16,UnicodeBig 与“ANSI 编码”类似的，把字符串通过 UNICODE 编码转化成“字节串”时，一个 UNICODE 字符可能转化成一个字节或多个字节。与“ANSI 编码”不同的是： 1. 这些“UNICODE 编码”能够处理所有的 UNICODE 字符。 2. “UNICODE 字符”与“转换出来的字节”之间是可以通过计算得到的。不知道我讲的清不清楚。祝你成功。

编码(Unicode,UTF-8,GBK)转换工具

编码格式“&#x”是什么格式？是Unicode吗？怎么转换？

Unicode（中文：万国码、码、统、单）是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得电脑可以用更为简单的方式来呈现和处理文字。

我说一个办法不知道可不可以啊因为我也不怎么懂o（∩＿∩）o．．．我想把word文字到“文本文档”应该是txt的然后再“另存为”我是用的是vista系统在“另存为”里会出现一个编码的选项里面就有Unicode然后选它就好了，我不知道其他的系统可不可以用，我是这么弄得呵呵o（∩＿∩）o．．．下面的东西是我copy别人的你可以看看，但好像不怎么解决问题o（∩＿∩）o．．．Unicode格式的最初目标。是用1个16位的编码来为超过65000字符提供映射。但这还不够。它不能覆盖全部历史上的文字。也不能解决传输的问题（implantation¤ead－ache＆＃39；s）。尤其在那些基于网络的应用中。因此。Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF－85195UTF－16和UTF－32517正如名字所示。在UTF－8中。字符是以8位序列来编码的739用一个或几个字节来表示一个字符。这种方式的好处。是UTF－8保留了ASCII字符的编码做为它的一部分。例如。在UTF－8和ASCII中。“A”的编码都是0x41．UTF－16和UTF－32分别是Unicode的16位和32位编码方式。考虑到最初的目的。通常说的Unicode就是指UTF－16。其实我也不怎么懂等我弄懂了告诉你呗可能到那时候早就有了ocodepage=950 繁体中文BIG5（∩＿∩）o．．．哈哈

unicode编码是什么？

0也叫做BMP（Basic Multilingual Plane，基本多文种平面），存放着世界上各种语言与标记中最常用的字符。

Unicode是一种字符编码方案，它为每种语言中的每个字符都设定了统一的二进制编码，以实现跨语言、跨平台进行文本转换、处理的要求。

Unicode是组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排，0x0000至0x10FFFF，每组称为平面（Plane），而每平面拥有65536个码位，共1114112个。

为了使Unicode与已存在和广泛使用的旧有编码互相兼容，尤其是不多所有电脑系统都支援的基本拉丁字母部分，所以Unicode的首256字符仍旧保留给ISO8859-1所定义的字符，使既有的西欧语系文字的转换不需特别考量。

另方面因相同的原因，Unicode把大量相同的字符重复编到不同的字符码中去，使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换，而不会遗失任何资讯。

举例来说，全角格式区段包含了主要的拉丁字母的全角格式，在中文、日文、以及韩文字形当中，这些字符以一个65001，据个人理解，应该只是一个虚拟的映射表，实际只是一个算法而已。全角的方式来呈现，而不以常见的半角形式显示，这对竖排文字和等宽排列文字有重要作用。

u4f60u597du554a是什么编码，怎么解密成能看懂的文字，有解密网址或工具介绍下

在当前的系统，全部都使用utf8_unicode_ci这种co7. 当前系统用哪个好llation。但是在存储网页标题时，标题带有SMP或者SIP的字符，如emoji、粤语字，会引发数据库写入异常。于是，就有两种解决方向：

这是unicode编码，应该没有提供这个编码的在线转换的，你可以在php里用json_decode转换成汉字。

echo json_decode('u4f60u597du554a');

使用lang.jar就行

Unicode到UTF-8的转换：求解，这个过程的一步看不懂了

用UCS4储存：48 Bytes + 4 Bytes(header)

1: UTF stands for UCS Transformation Format, where UCS stands for Universal Character Set.

3: unicode 是编码。Unique, Universal, and Uniform character encoding--它在概念上与ISO 10646标准相对应 (目前版本UCS-2以两字节‘描述’一个字符)

4: 根据上面所述：可以根据unicode/UCS-2的编码特性（与ASCII编码在字面上“相等”）得知将一个 ASCII 或 Latin-1 的文件转换成 UCS-2 只需简单地在每个 ASCII 字节前插入 0x00。反之去处0x00。

5：而一个unicode格式的文本要转为utf-8格式的文本，那么根据下图所示：

U-00000000 - U-0000007F: 0xxxxxxx

U-00000080 - U-000007FF: 110xxxxx 10xxxxxx

U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

U-00010000 - U-001FFFFF: 这两种collations所对应的字符都是UTF-8编码的一个子集。utf8_unicode_ci最多能找到3个字节的Unicode编码，而utf8mb4_unicode_ci则能找到4个字节的编码。由于调整后的UTF-8编码格式规定最多使用4字节（原来是6字节）编码，所以utf8mb4系列可以说是覆盖了整个Unicode编码。 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

==================================================================

以上是对一些概念的阐述，

而下面这几个语句/表达式的解释：

<0x80 //逻辑判断，字面意思：判断是否小于0x80，（即判断是否为一个ascii字符）

&0xff //位运算，字面：将相应的位置“0”，（按照utf-8的格式设置“前缀”/“前导”）

搜索

unicode解码(unicode编码是几进制)

Unicode(utf-8) 是什么意思？

UTF-8的文件解码为iso8859-1之后为什么会出现乱码? 求高手解答!!

mysql查询未解码的unicode汉字，模糊查询不成功怎么办？

请问什么是文字解码方式?有何作用

如何处理emoji等4字节的Unicode字符

易语言怎么把字节集转成Unicode编码

请解释一下unicode,utf-8,gb2312这些编码的含义

编码格式“&#x”是什么格式？是Unicode吗？怎么转换？

unicode编码是什么？

u4f60u597du554a是什么编码，怎么解密成能看懂的文字，有解密网址或工具介绍下

Unicode到UTF-8的转换：求解，这个过程的一步看不懂了

张掖十大美食是什么张掖必吃美食

入职后的我们入职后的我们百度网盘

可行性研究费可行性研究费属于

unicode解码(unicode编码是几进制)

Unicode(utf-8) 是什么意思？

UTF-8的文件解码为iso8859-1之后为什么会出现乱码? 求高手解答!!

mysql查询未解码的unicode汉字，模糊查询不成功怎么办？

请问什么是文字解码方式?有何作用

如何处理emoji等4字节的Unicode字符

易语言怎么把字节集转成Unicode编码

请解释一下unicode,utf-8,gb2312这些编码的含义

编码格式“&#x”是什么格式？是Unicode吗？怎么转换？

unicode编码是什么？

u4f60u597du554a是什么编码，怎么解密成能看懂的文字，有解密网址或工具介绍下

Unicode到UTF-8的转换：求解，这个过程的一步看不懂了

张掖十大美食是什么 张掖必吃美食

入职后的我们 入职后的我们百度网盘

可行性研究费 可行性研究费属于

张掖十大美食是什么张掖必吃美食

入职后的我们入职后的我们百度网盘

可行性研究费可行性研究费属于