win-utf解释

[root@release nginx]# more win-utf 

# This map is not a full windows-1251 <> utf8 map: it does not
# contain Serbian and Macedonian letters.  If you need a full map,
# use contrib/unicode2nginx/win-utf map instead.

charset_map  windows-1251  utf-8 {

    82  E2809A ; # single low-9 quotation mark

    84  E2809E ; # double low-9 quotation mark
    85  E280A6 ; # ellipsis
    86  E280A0 ; # dagger
    87  E280A1 ; # double dagger
    88  E282AC ; # euro
    89  E280B0 ; # per mille

    91  E28098 ; # left single quotation mark
    92  E28099 ; # right single quotation mark
    93  E2809C ; # left double quotation mark
    94  E2809D ; # right double quotation mark
    95  E280A2 ; # bullet
    96  E28093 ; # en dash
    97  E28094 ; # em dash

    99  E284A2 ; # trade mark sign

    A0  C2A0 ;   #  
    A1  D18E ;   # capital Byelorussian short U
    A2  D19E ;   # small Byelorussian short u

    A4  C2A4 ;   # currency sign
    A5  D290 ;   # capital Ukrainian soft G
    A6  C2A6 ;   # borken bar
    A7  C2A7 ;   # section sign
    A8  D081 ;   # capital YO
    A9  C2A9 ;   # (C)
    AA  D084 ;   # capital Ukrainian YE
    AB  C2AB ;   # left-pointing double angle quotation mark
    AC  C2AC ;   # not sign
    AD  C2AD ;   # soft hypen
    AE  C2AE ;   # (R)
    AF  D087 ;   # capital Ukrainian YI

    B0  C2B0 ;   # °
    B1  C2B1 ;   # plus-minus sign
    B2  D086 ;   # capital Ukrainian I
    B3  D196 ;   # small Ukrainian i
    B4  D291 ;   # small Ukrainian soft g
    B5  C2B5 ;   # micro sign
    B6  C2B6 ;   # pilcrow sign
    B7  C2B7 ;   # ·
    B8  D191 ;   # small yo
    B9  E28496 ; # numero sign
    BA  D194 ;   # small Ukrainian ye
    BB  C2BB ;   # right-pointing double angle quotation mark

    BF  D197 ;   # small Ukrainian yi

    C0  D090 ;   # capital A
    C1  D091 ;   # capital B
    C2  D092 ;   # capital V
    C3  D093 ;   # capital G
    C4  D094 ;   # capital D
    C5  D095 ;   # capital YE
    C6  D096 ;   # capital ZH
    C7  D097 ;   # capital Z
    C8  D098 ;   # capital I
    C9  D099 ;   # capital J
    CA  D09A ;   # capital K
    CB  D09B ;   # capital L
    CC  D09C ;   # capital M
    CD  D09D ;   # capital N
    CE  D09E ;   # capital O
    CF  D09F ;   # capital P

    D0  D0A0 ;   # capital R
    D1  D0A1 ;   # capital S
    D2  D0A2 ;   # capital T
    D3  D0A3 ;   # capital U
    D4  D0A4 ;   # capital F
    D5  D0A5 ;   # capital KH
    D6  D0A6 ;   # capital TS
    D7  D0A7 ;   # capital CH
    D8  D0A8 ;   # capital SH
    D9  D0A9 ;   # capital SHCH
    DA  D0AA ;   # capital hard sign
    DB  D0AB ;   # capital Y
    DC  D0AC ;   # capital soft sign
    DD  D0AD ;   # capital E
    DE  D0AE ;   # capital YU
    DF  D0AF ;   # capital YA

    E0  D0B0 ;   # small a
    E1  D0B1 ;   # small b
    E2  D0B2 ;   # small v
    E3  D0B3 ;   # small g
    E4  D0B4 ;   # small d
    E5  D0B5 ;   # small ye
    E6  D0B6 ;   # small zh
    E7  D0B7 ;   # small z
    E8  D0B8 ;   # small i
    E9  D0B9 ;   # small j
    EA  D0BA ;   # small k
    EB  D0BB ;   # small l
    EC  D0BC ;   # small m
    ED  D0BD ;   # small n
    EE  D0BE ;   # small o
    EF  D0BF ;   # small p

    F0  D180 ;   # small r
    F1  D181 ;   # small s
    F2  D182 ;   # small t
    F3  D183 ;   # small u
    F4  D184 ;   # small f
    F5  D185 ;   # small kh
    F6  D186 ;   # small ts
    F7  D187 ;   # small ch
    F8  D188 ;   # small sh
    F9  D189 ;   # small shch
    FA  D18A ;   # small hard sign
    FB  D18B ;   # small y
    FC  D18C ;   # small soft sign
    FD  D18D ;   # small e
    FE  D18E ;   # small yu
    FF  D18F ;   # small ya
}

文件 win-utf 是一个字符集映射文件,用于将 Windows-1251 编码转换为 UTF-8 编码。这个文件中包含了一系列的映射条目,每个条目将一个 Windows-1251 编码的字符映射到相应的 UTF-8 编码字符。该文件指出,它并不包含塞尔维亚和马其顿字母的完整映射,如果需要完整的映射,建议使用 contrib/unicode2nginx/win-utf 文件。

以下是部分条目的解释:

字符映射详解

  • 82 E2809A:单低-9引号(single low-9 quotation mark)。
  • 84 E2809E:双低-9引号(double low-9 quotation mark)。
  • 85 E280A6:省略号(ellipsis)。
  • 86 E280A0:剑号(dagger)。
  • 87 E280A1:双剑号(double dagger)。
  • 88 E282AC:欧元符号(euro sign)。
  • 89 E280B0:每千符号(per mille sign)。

Cyrillic 字符

  • A1 D18E:大写白俄罗斯短 U(capital Byelorussian short U)。
  • A2 D19E:小写白俄罗斯短 u(small Byelorussian short u)。
  • A5 D290:大写乌克兰软 G(capital Ukrainian soft G)。
  • A8 D081:大写俄文字母 Ё(capital YO)。
  • AA D084:大写乌克兰 YE(capital Ukrainian YE)。
  • AF D087:大写乌克兰 YI(capital Ukrainian YI)。

其他符号和标点

  • 91 E28098:左单引号(left single quotation mark)。
  • 92 E28099:右单引号(right single quotation mark)。
  • 93 E2809C:左双引号(left double quotation mark)。
  • 94 E2809D:右双引号(right double quotation mark)。
  • 95 E280A2:项目符号(bullet)。
  • 96 E28093:短破折号(en dash)。
  • 97 E28094:长破折号(em dash)。

特殊符号和货币符号

  • 99 E284A2:商标符号(trade mark sign)。
  • A0 C2A0:不断开空格(non-breaking space)。
  • A4 C2A4:货币符号(currency sign)。
  • A6 C2A6:破折号(broken bar)。
  • A7 C2A7:节选符(section sign)。
  • A9 C2A9:版权符号(copyright sign)。
  • AE C2AE:注册商标符号(registered trademark sign)。

这些映射是在 Web 服务器和 Web 应用之间处理不同语言和符号时非常重要,确保正确显示和处理文本数据。