在〈認識預定義型態〉中略略談過字串,表面看來,用雙引號("
)或反引號(`)括起來的文字就是字串,預設型態為 string
,實際在 Go 中,字串是由唯讀的 UTF-8 編碼位元組所組成。
字串入門
先從簡單的開始,在 Go 原始碼中,如果你撰寫 "Go語言"
這麼一段文字,那麼會產生一個字串,預設型態為 string
,字串是唯讀的,一旦建立,就無法改變字串內容。
使用 string
宣告變數若無指定初值,預設是空字串 ""
,可以使用 +
對兩個字串進行串接,由於字串是唯讀的,因此實際上串接的動作,會產生新的字串,如果想比較兩個字串的相等性,可以使用 ==
、!=
、<
、<=
、>
、>=
依字典順序比較。
package main
import "fmt"
func main() {
text1 := "Go語言"
text2 := "Cool"
var text3 string
fmt.Println(text1 + text2) // Go語言Cool
fmt.Printf("%q\n", text3) // ""
fmt.Println(text1 > text2) // true
}
上面的例子中,由於使用 fmt.Println
顯示空字串時看不到什麼,因此改用 fmt.Printf
,並使用 %q
來脫離無法顯示的字元。
使用 ""
時不可換行,如果你的字串想要換行,方法之一是分兩個字串,並用 +
串接。例如:
text := "Go語言" +
"Cool"
另一個方式是以重音符 ` 定義字串,例如:
package main
import "fmt"
func main() {
text := `Go語言
Cool`
fmt.Printf("%q\n", text) // "Go語言\n Cool"
}
使用 ` 定義的字串,會完全保留換行與空白,因此,在上頭你可以看到被保留的換行與空白字元,如果使用 fmt.Println(text)
,顯示時也會看到對應的換行與空白。使用 ` 定義的字串,也不會轉譯字元,例如:
package main
import "fmt"
func main() {
text := `Go語言\nCool`
fmt.Println(text) // Go語言\nCool
}
在這個例子中可以看到,使用 ` 時,不會對 \n
做轉譯的動作,因此,你會直接看到顯示了「Go語言\nCool」。
在 Go 中可以使用的轉譯有:
\a
:U+0007,警示或響鈴\b
:U+0008,倒退(backspace)\f
:U+000C,饋頁(form feed)\n
:U+000A,換行(newline)\r
:U+000D,歸位(carriage return)\t
:U+0009,水平 tab\v
:U+000b,垂直 tab\\
:U+005c,反斜線(backslash)\"
:U+0022,雙引號\ooo
:位元組表示,o 為八進位數字\xhh
:位元組表示,h 為十六進位數字\uhhhh
:Unicode 點點表示,使用四個 16 進位數字\Uhhhhhhhh
:Unicode 點點表示,使用八個 16 進位數字
唯讀位元組片段
那麼,想知道一個字串的長度該怎麼做呢?Go 中有個 len
函式,當它作用於字串時,結果可能會令一些從其他程式語言,像是 Java 過來的人感到訝異:
package main
import "fmt"
func main() {
fmt.Println(len("Go語言")) // 8
}
顯示的結果是 8 而不是 3,給個提示,Go 的字串實作使用 UTF-8,是的!len
傳回的是位元組長度,因為 Go 的字串,本質上是 UTF-8 編碼後的位元組組成,如果你使用 fmt.Printf("%x", "Go語言")
,會顯示 476fe8aa9ee8a880,47 是「G」的位元組以 16 進位數字表示的結果,6f 是 o,e8aa9e 是「語」的三個位元組分別以 16 進位數字表示的結果,e8a880 是「言」。
不單是如此,Go 中可以使用 []
與索引來取得字串的位元組資料,是的,位元組!傳回的型態是 byte
(uint8
),"Go語言"[0]
取得的是 G 的位元組資料,"Go語言"[1]
取得的是 o 的位元組資料,"Go語言"[2]
呢?取得的是「語」的 UTF-8 實作中,第一個位元組資料,也就是 e8。可以用以下這個程式片段來印證:
package main
import "fmt"
func main() {
text := "Go語言"
for i := 0; i < len(text); i++ {
fmt.Printf("%x ", text[i])
}
}
雖然還沒正確介紹 for
迴圈,不過程式應該很清楚,用迴圈遞增的 i
值來取得指定索引處的資料,結果是顯示「47 6f e8 aa 9e e8 a8 80 」。
這個位元組序列是怎麼決定的?當你寫下 "Go語言"
,你的 .go 原始碼檔案是什麼編碼呢?是的!UTF-8,Go 就是從這當中取得 "Go語言"
位元組序列,每個位元組就是 UTF-8 的一個碼元(code unit)。
雖說字串是唯讀的位元組片段,不過,實際的位元組是隱藏在字串底層,如果你想取得,必須轉為 []byte
,例如:
package main
import "fmt"
func main() {
text1 := "Go語言"
bs := []byte(text1)
bs[0] = 103
text2 := string(bs)
fmt.Println(text1) // Go語言
fmt.Println(text2) // go語言
}
注意,你不是真的取得字串底層的位元組資料,只是取得複本,因此,在範例中可以看到,雖然對 text2
的位元組做了修改,text1
是不受影響的,記得,字串是唯讀的,一旦建立,沒有方式可以改變其內容。
string 與索引
實際上,Go 的字串支援片段操作,slice 操作時的索引是針對位元組,然而,傳回的型態還是 string
,例如,"Go語言"[0:2]
,傳回 "Go"
,因為指定要切割出索引 0 開始,索引 2 結束(但不包括 2)的部份,也就是 47 與 6f 這兩個位元組,但是以 string
傳回。
那麼,如果是 "Go語言"[2:3]
呢?嗯,傳回的字串是 "\xe8"
!這是什麼?事實上,Go 中的字串可以是任意位元組片段,因此,你可以如下定義字串:
package main
import "fmt"
func main() {
text := "\x47\x6f\xe8\xaa\x9e\xe8\xa8\x80"
fmt.Println(text) // Go語言
}
片段操作時,如果省略冒號之後的數字,則預設取得至字串尾端的子字串,例如 "Go語言"[3:]
會傳回 "\xaa\x9e\xe8\xa8\x80"
的字串,如果省略冒號之前的數字,預設從索引 0 開始,例如 "Go語言"[:2]
會取得 "Go"
的字串,也就是 "\x47\x6f"
的字串,如果是 "Go語言"[:]
,那麼就是取得全部字串內容了。
strings
套件 中有不少字串可用的方法,想做字串操作時,可以多加利用,不過要看清楚是針對什麼在操作。例如 strings.Index
:
package main
import "fmt"
import "strings"
func main() {
text := "Go語言"
fmt.Printf("%d\n", strings.Index(text, "言")) // 5
}
傳回的索引值是 5 而不是 3,這是因為 "言"
的第一個位元組,是在 "Go語言"
UTF-8 編碼後的位元組組成中第 5 個索引位置。
問題來了,如果對於 "Go語言"
,想逐一取得 'G'
、'o'
、'語'
、'言'
該怎麼辦?當然不能用 text[n]
,這只會取得第 n 個位元組,可以將字串型態轉換為 []rune
:
package main
import "fmt"
func main() {
text := "Go語言"
cs := []rune(text)
fmt.Printf("%c\n", cs[2]) // 語
fmt.Println(len(cs)) // 4
}
字串型態轉換為 []rune
時,會將 UTF-8 編碼的位元組,轉換為 Unicode 碼點,在這個例子中可以看到,cs[2]
確實地取得了第三個文字「語」,而 len
也確實取得數量 4。
如〈認識預定義型態〉中談過的,在 Go 中並沒有字元對應的型態,只有碼點的概念,rune
為 int32
的別名,可用來儲存 Unicode 碼點(code point),如果使用 fmt.Printf("%d\n", cs[2])
,會顯示 35486,這就是「語」的 Unicode 碼點,35486 的 16 進位表示是 8a9e,因此,如果你寫 '\u8a9e'
,也會得到一個 rune
代表著「語」,fmt.Printf("%c", '\u8a9e')
也會顯示「語」,當然,直接寫 '語'
也是可以得到一個 rune
。
想從 rune
得到一個 string
,可以直接寫 string('語')
就可以了。如果想以 rune
為單位來走訪字串,而不是以位元組走訪,可以使用 for range
,例如:
package main
import "fmt"
func main() {
text := "Go語言"
for index, runeValue := range text {
fmt.Printf("%#U 位元起始位置 %d\n", runeValue, index)
}
}
可以看到,for range
可以同時取得每個 rune
在字串中的位元起始位置,以及 rune
值,%U
可以用 16 進位顯示 rune
,如果是 %#U
,還會一併顯示碼點的列印形式。
這個程式的執行結果會顯示:
U+0047 'G' 位元起始位置 0
U+006F 'o' 位元起始位置 1
U+8A9E '語' 位元起始位置 2
U+8A00 '言' 位元起始位置 5
總而言之,Go 的字串是由 UTF-8 編碼的位元組構成,在〈Strings, bytes, runes and characters in Go〉談到了這麼設計的理由是,「字元」的定義太模稜兩可了,Go 為了避免模稜兩可,就將字串定義為 UTF-8 編碼的位元組構成,而 rune
用於儲存碼點。
PS. 這大概也是為何,我會整理出〈亂碼 1/2〉的原因 … XD