无码人妻熟妇久久久久,国产美女一级a在线,加勒比女海盗

TensorFlow 現(xiàn)在可以支持 Unicode，這是一種標(biāo)準(zhǔn)編碼系統(tǒng)，可以表示幾乎所有語(yǔ)言的字符。處理自然語(yǔ)言時(shí)，了解字符的編碼方式非常重要。在像英語(yǔ)這樣的小字符集的語(yǔ)言中，每個(gè)字符都可以使用 ASCII 進(jìn)行表示。但是這種方法對(duì)于其他語(yǔ)言來(lái)說(shuō)并不實(shí)用，例如中文，這些語(yǔ)言有數(shù)千個(gè)字符。即使處理英文文本，Emojis 等特殊字符也不能用 ASCII 表示。

定義字符及其編碼的最常用標(biāo)準(zhǔn)是 Unicode，它幾乎支持所有語(yǔ)言。對(duì)于 Unicode，每個(gè)字符使用唯一的整數(shù) code point 表示，其值介于 0 和 0x10FFFF 之間。當(dāng)按順序放置 code point 時(shí)，將形成 Unicode 字符串。

Unicode tutorial colab展示了如何在 TensorFlow 中表示 Unicode 字符串。使用 TensorFlow 時(shí)，有兩種標(biāo)準(zhǔn)方式來(lái)表示 Unicode 字符串：

作為整數(shù)向量，其中每個(gè)位置包含單個(gè) code point

作為字符串，使用字符編碼將 code point 序列編碼到字符串中。有許多字符編碼，其中一些最常見的是 UTF-8，UTF-16 等

以下代碼分別使用 code point、UTF-8 和 UTF-16 顯示字符串 “語(yǔ)言處理” 的編碼。

當(dāng)然，您可能需要在各種表示方式之間進(jìn)行轉(zhuǎn)換，而 TensorFlow 1.13 已添加了執(zhí)行此操作的函數(shù)：

tf.strings.unicode_decode: 將字符串標(biāo)量轉(zhuǎn)換為 code point 的向量（https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode）

tf.strings.unicode_encode: 將 code point 向量轉(zhuǎn)換為字符串標(biāo)量（https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode）

tf.strings.unicode_transcode: 將字符串標(biāo)量轉(zhuǎn)換為不同的編碼（https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_transcode）

因此，如果要將上述示例中的 UTF-8 解碼為 code point 向量，則可以執(zhí)行以下操作：

當(dāng)解碼包含多個(gè)字符串的 Tensor 時(shí)，字符串可能具有不同的長(zhǎng)度。 unicode_decode 將結(jié)果作為 RaggedTensor 返回，其中內(nèi)部維度的長(zhǎng)度根據(jù)每個(gè)字符串中的字符數(shù)而變化。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼

編碼

+關(guān)注

關(guān)注
6

文章
944

瀏覽量
54843
Unicode

Unicode

+關(guān)注

關(guān)注
0

文章
24

瀏覽量
12580
tensorflow

tensorflow

+關(guān)注

關(guān)注
13

文章
329

瀏覽量
60537

原文標(biāo)題：TensorFlow 支持 Unicode 編碼

文章出處：【微信號(hào)：tensorflowers，微信公眾號(hào)：Tensorflowers】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

RTT使用unicode編碼，編譯不通過是為什么？

1、我們?yōu)榱嗽O(shè)備兼容俄語(yǔ)，就需要使用到unicode編碼，將字符串保存文件保存為unicode編碼，但是編譯之后出現(xiàn)一大堆錯(cuò)誤。 2、編譯器

發(fā)表于 03-27 08:01

一種新的IEEE 802.16系統(tǒng)調(diào)制編碼模式切換方案

IEEE 802.16系統(tǒng)支持多種調(diào)制編碼模式以實(shí)現(xiàn)通信質(zhì)量和傳輸速率最優(yōu)化.為了降低無(wú)線信道衰減時(shí)變性和隨機(jī)性的影響,提高系統(tǒng)的最大吞吐量,提出了一種新的調(diào)制

發(fā)表于 05-13 09:11

STM32是否支持漢字的Unicode碼儲(chǔ)存？？

在STM32里儲(chǔ)存一個(gè)“中”字，是不是按Unicode碼儲(chǔ)存的？例如“冰”字，是不是51B0？如果是，那是不是分開51與B0兩個(gè)字節(jié)來(lái)儲(chǔ)存？如果不支持，那它支持哪

發(fā)表于 08-18 15:50

Unicode和GB2312編碼互轉(zhuǎn)VI

因?yàn)樵趯慓SM短信收發(fā)數(shù)據(jù)上位機(jī)軟件，需要用到Unicode和GB2312編碼轉(zhuǎn)換。搞了很長(zhǎng)時(shí)間，一直沒頭序。后來(lái)參考網(wǎng)上一個(gè)例程，基于查表方式，自己修改了終于成功了。

發(fā)表于 03-21 17:09

Labview GBK字符轉(zhuǎn)Unicode編碼（支持混合字符）

labview字符控件中的漢字編碼是GBK，應(yīng)用中如需用到Unicode編碼，labview沒有直接的函數(shù)可以調(diào)用，現(xiàn)分享下我編寫的基于查表方式實(shí)現(xiàn)互轉(zhuǎn)的程序。先前做的版本只

發(fā)表于 10-28 11:50

TensorFlow常用Python擴(kuò)展包

安裝： OS：這包括在基本的 Python 安裝中。它提供了一種使用操作系統(tǒng)相關(guān)功能（如讀取、寫入及更改文件和目錄）的簡(jiǎn)單便攜方式。Pandas：這提供了各種數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具。使用 Pandas

發(fā)表于 07-28 14:35

一種基于GSM和Zigbee技術(shù)的無(wú)線安防系統(tǒng)

和接收短消息，利用GSM模塊和手機(jī)之間進(jìn)行信息交換，首先就要對(duì)信息進(jìn)行PDU格式的編碼和解碼。本系統(tǒng)采用Unicode的編碼形式。Unicode

發(fā)表于 12-01 09:36

一種安全的糾錯(cuò)網(wǎng)絡(luò)編碼

該文利用消息空間的所有子空間上的一種度量，給出了一種安全的糾錯(cuò)網(wǎng)絡(luò)編碼。首先，此度量下的最小距離譯碼法可以糾正一定維數(shù)的錯(cuò)誤。另外，在此

發(fā)表于 11-09 13:32 ?19次下載

UNICODE,GBK,UTF-8區(qū)別

Unicode編碼，簡(jiǎn)要解釋UCS、UTF、BMP、BOM等名詞。這是一篇程序員寫給程序員的趣味讀物

發(fā)表于 03-28 10:28 ?2430次閱讀

Unicode編碼介紹

Unicode有兩套標(biāo)準(zhǔn)，一套叫UCS-2(Unicode-16)，用2個(gè)字節(jié)為字符編碼，另一套

發(fā)表于 04-18 08:35 ?1521次閱讀

字符Unicode標(biāo)準(zhǔn)編碼計(jì)算器免費(fèi)下載

字符標(biāo)準(zhǔn)編碼計(jì)算器可以計(jì)算出任意字符的Unicode碼，尤其是漢字的Unicode碼計(jì)算對(duì)我們的實(shí)際開發(fā)有

發(fā)表于 09-16 10:14 ?41次下載

基于雙向MIMO中繼系統(tǒng)的一種預(yù)編碼策略

為了克服已有的雙向MIMO中繼系統(tǒng)模型中預(yù)編碼技術(shù)計(jì)算量大的缺點(diǎn)，提出了一種基于雙向MIMO系統(tǒng)的三時(shí)段預(yù)編碼策略，給出了該策略的模型和算法

發(fā)表于 06-09 16:39 ?34次下載

一種實(shí)現(xiàn)在FPGA的編碼器設(shè)計(jì)方法

咨詢委員會(huì)（CCSDS）也將其推薦為應(yīng)用于深空通信的信道編碼方式。香農(nóng)指出，對(duì)于任何信道，只要采用隨機(jī)性編、譯碼方式，編碼長(zhǎng)度接近無(wú)限大，在其信息傳輸速率不超過信道容量時(shí)，采用最佳的似然譯碼方案，必然存在一種

發(fā)表于 10-31 14:07 ?3次下載

ascii和utf8的區(qū)別_ASCII編碼與UTF-8的關(guān)系

UTF-8是一種針對(duì)Unicode的可變長(zhǎng)度字符編碼，又稱萬(wàn)國(guó)碼。由Ken Thompson于1992年創(chuàng)建。現(xiàn)在已經(jīng)標(biāo)準(zhǔn)化為RFC 362

發(fā)表于 01-30 13:34 ?3w次閱讀

unicode如何轉(zhuǎn)GBK字庫(kù)制作

UTF-8（8 位元，Universal Character Set/Unicode Transformation Format）是針對(duì) Unicode 的一種可變長(zhǎng)度字符編碼。UC

發(fā)表于 08-14 10:45 ?14次下載