pīnyīn (v4)

pīnyīn, 中文漢字拼音轉換工具。

轉換中文字符爲拼音。可以用於漢字注音、排序、檢索。

注：這個版本同時支持在 Node 和 Web 瀏覽器環境運行，

Python 版請關注 mozillazg/python-pinyin

特性

根據詞組智能匹配最正確的拼音。
支持多音字。
簡單的繁體支持。
支持多種不同拼音風格。

安裝

via npm:

npm install pinyin --save

用法

開髮者：

import { pinyin } from "pinyin";

console.log(pinyin("中心"));    // [ [ 'zhōng' ], [ 'xīn' ] ]

console.log(pinyin("中心", {
  heteronym: true,              // 啟用多音字模式
}));                            // [ [ 'zhōng', 'zhòng' ], [ 'xīn' ] ]

console.log(pinyin("中心", {
  heteronym: true,              // 啟用多音字模式
  segment: true,                // 啟用分詞，以解決多音字問題。默認不開啟，使用 true 開啟使用 Intl.Segmenter 分詞庫。
}));                            // [ [ 'zhōng' ], [ 'xīn' ] ]

console.log(pinyin("中心", {
  segment: "@node-rs/jieba",    // 指定分詞庫，可以是 "Intl.Segmenter", "nodejieba"、"segmentit"、"@node-rs/jieba"。
}));                            // [ [ 'zhōng' ], [ 'xīn' ] ]

console.log(pinyin("我喜歡你", {
  segment: "segmentit",         // 啟用分詞
  group: true,                  // 啟用詞組
}));                            // [ [ 'wǒ' ], [ 'xǐhuān' ], [ 'nǐ' ] ]

console.log(pinyin("中心", {
  style: "initials",            // 設置拼音風格。
  heteronym: true,              // 即使有多音字，因爲拼音風格選擇，重複的也會合並。
}));                            // [ [ 'zh' ], [ 'x' ] ]

console.log(pinyin("華夫人", {
  mode: "surname",              // 姓名模式。
}));                            // [ ['huà'], ['fū'], ['rén'] ]

命令行：

$ pinyin 中心
zhōng xīn
$ pinyin -h

類型

IPinyinOptions

傳入給 pinyin 方法的第二個參數的選項類型。

export interface IPinyinOptions {
  style?: IPinyinStyle; // 拼音輸出形式
  mode?: IPinyinMode, // 拼音模式
  // 指定分詞庫。
  // 爲了兼容老版本，可以使用 boolean 類型指定是否開啟分詞，默認開啟。
  segment?: IPinyinSegment | boolean;
  // 是否返回多音字
  heteronym?: boolean;
  // 是否分組詞組拼音
  group?: boolean;
  compact?: boolean;
}

IPinyinStyle

輸出拼音格式。可以從直接使用以下字符串或數字，也兼容 v2 版本中 pinyin.STYLE_TONE 這樣的形式。

export type IPinyinStyle =
  "normal" | "tone" | "tone2" | "to3ne" | "initials" | "first_letter" | "passport" | // 推薦使用小冩，和輸出的拼音一緻
  "NORMAL" | "TONE" | "TONE2" | "TO3NE" | "INITIALS" | "FIRST_LETTER" | "PASSPORT" | // 方便老版本遷移
  0        | 1      | 2       | 5       | 3          | 4;               // 兼容老版本

IPinyinMode

拼音模式，默認普通模式，可以指定人名模式。

// - NORMAL: 普通模式
// - SURNAME: 姓氏模式，優先使用姓氏的拼音。
export type IPinyinMode =
  "normal" | "surname" |
  "NORMAL" | "SURNAME";

IPinyinSegment

分詞方式。

默認關閉 false，
也可以設置爲 true 開啟，Web 和 Node 版中均使用 "Intl.Segmenter" 分詞。
也可以聲明以下字符串來指定分詞算法。但目前 Web 版隻支持 "Intl.Segmenter" 和 "segmentit" 分詞。

export type IPinyinSegment = "Intl.Segmenter" | "nodejieba" | "segmentit" | "@node-rs/jieba";

API

方法 `<Array> pinyin(words: string[, options: IPinyinOptions])`

將傳入的中文字符串 (words) 轉換成拼音符號串。

options 是可選的，可以設定拼音風格，或打開多音字選項。

返回二維數組，第一維每個數組項位置對應每個中文字符串位置。第二維是各個漢字的讀音列表，多音字會有多個拼音項。

方法 `Number compare(a, b)`

按拼音排序的默認算法。

方法 `string[][] compact(pinyinResult array[][])`

將拼音多音字以各種可能的組合排列變換成緊湊形式。參考 options.compact

參數

`<Boolean|IPinyinSegment> options.segment`

是否啟用分詞模式，中文分詞有助於極大的降低多音字問題。但性能會極大的下降，內存也會使用更多。

默認不啟用分詞。
如果 segemnt = true，默認使用 Intl.Segmenter 分詞。
可以指定 "Intl.Segmenter"、"nodejieba"、"segmentit"、"@node-rs/jieba" 進行分詞。

`<Boolean> options.heteronym`

是否啟用多音字模式，默認關閉。

關閉多音字模式時，返回每個漢字第一個匹配的拼音。

啟用多音字模式時，返回多音字的所有拼音列表。

`<Boolean> options.group`

按詞組分組拼音，例如：

我喜歡你
wǒ xǐhuān nǐ

`<IPinyinStyle> options.style`

指定拼音風格。可以使用以下特定字符串或數值指定：

IPinyinStyle =
  "normal" | "tone" | "tone2" | "to3ne" | "initials" | "first_letter" | "passport" | // 推薦使用小冩，和輸出的拼音一緻
  "NORMAL" | "TONE" | "TONE2" | "TO3NE" | "INITIALS" | "FIRST_LETTER" | "PASSPORT" | // 方便老版本遷移
  0        | 1      | 2       | 5       | 3          | 4;               // 兼容老版本

`NORMAL`, `normal`

普通風格，即不帶聲調。

如：pin yin

`TONE`, `tone`

聲調風格，拼音聲調在韻母第一個字母上。

注：這是默認的風格。

如：pīn yīn

`TONE2`, `tone2`

聲調風格 2，即拼音聲調以數字形式在各個拼音之後，用數字 [0-4] 進行表示。

如：pin1 yin1

`TO3NE`, `to3ne`

聲調風格 3，即拼音聲調以數字形式在注音字符之後，用數字 [0-4] 進行表示。

如：pi1n yi1n

`INITIALS`, `initials`

聲母風格，隻返回各個拼音的聲母部分。對於沒有聲母的漢字，返回空白字符串。

如：中國 的拼音 zh g

注：聲母風格會區分 zh 和 z，ch 和 c，sh 和 s。

注意：部分漢字沒有聲母，如 啊，餓 等，另外 y, w, yu 都不是聲母，這些漢字的拼音聲母風格會返回 ""。請仔細考慮你的需求是否應該使用首字母風格。詳情請參考 [爲什麼沒有 y, w, yu 幾個聲母](#爲什麼沒有 -y-w-yu- 幾個聲母)

`FIRST_LETTER`, `first_letter`

首字母風格，隻返回拼音的首字母部分。

如：p y

`PASSPORT`, `passport`

護照風格。轉換成大冩形式，並且 ü 會以 YU 形式輸出。

國家移民管理局門戶網站於2021年9月29日髮佈了《關於內地居民拼音姓名中字母“ü”在出入境証件中打印規則的公告》（以下簡稱公告），根據《中國人名漢語拼音字母拼冩規則》和《關於機讀旅行証件的相關國際通用規範》，內地居民申辦出入境証件，出入境証件上打印的持証人拼音姓名中，Lü（呂等字）、Nü（女等字）中的字母“ü”應當轉換爲“YU”，LüE（略等字）、NüE（虐等字）中的字母“ü”應當轉換爲“U”。

options.mode

拼音模式，默認 "NORMAL" 普通模式。如果你明確的在姓名場景下，可以使用 "SURNAME" 讓姓氏使用更準確的拼音。

NORMAL：普通模式，自動識別讀音。
SURNAME：姓名模式，對於明確的姓名場景，可以更準確的識別姓氏的讀音。

options.compact

是否返回緊湊模式，默認 false，按標準格式返回。如果設置爲 true，則將多音字可能的各種組合排列後返回。例如：

pinyin("你好嗎", { compact:false });
> [[nǐ], [hǎo,hào], [ma,má,mǎ]]

pinyin("你好嗎", { compact:true });
> [
>   [nǐ,hǎo,ma], [nǐ,hǎo,má], [nǐ,hǎo,mǎ],
>   [nǐ,hào,ma], [nǐ,hào,má], [nǐ,hào,mǎ],
> ]

你也可以必要時使用 compact() 函數處理 pinyin(han, {compact:false}) 返回的結果。

Test

npm test

Q&A

關於 Web 版如何使用

首先，我建議大家應該優先考慮在服務端一次性轉換拼音並將結果持久化，避免在客戶端每次轉換損耗性能和體驗。

如果你堅持在客戶端使用，你可以考慮使用 Webpack + Babel 來轉換成低端瀏覽器的可執行代碼。

實在不想折騰，可以試試 https://www.jsdelivr.com/package/npm/pinyin

爲什麼沒有 `y`, `w`, `yu` 幾個聲母？

聲母風格（INITIALS）下，“雨”、“我”、“圓”等漢字返回空字符串，因爲根據《漢語拼音方案》， y，w，ü (yu) 都不是聲母，在某些特定韻母無聲母時，才加上 y 或 w，而 ü 也有其特定規則。

如果你覺得這個給你帶來了麻煩，那麼也請小心一些無聲母的漢字（如“啊”、“餓”、“按”、“昂”等）。這時候你也許需要的是首字母風格（FIRST_LETTER）。

如何實現按拼音排序？

pinyin 模塊提供了默認的排序方案：

const pinyin = require('pinyin');

const data = '我要排序'.split('');
const sortedData = data.sort(pinyin.compare);

如果默認的比較方法不能滿足你的需求，你可以自定義 pinyinCompare 方法：

const pinyin = require('pinyin');

const data = '我要排序'.split('');

// 建議將漢字的拼音持久化存儲起來。
const pinyinData = data.map(han => ({
  han: han,
  pinyin: pinyin(han)[0][0], // 可以自行選擇不同的生成拼音方案和風格。
}));
const sortedData = pinyinData.sort((a, b) => {
  return a.pinyin.localeCompare(b.pinyin);
}).map(d => d.han);

node 版和 web 版有什麼異同？

pinyin 目前可以同時運行在 Node 服務器端和 Web 瀏覽器端。 API 和使用方式完成一緻。

但 Web 版較 Node 版稍簡單，拼音庫隻有常用字部分，沒有使用分詞算法，並且考慮了網絡傳輸對詞庫進行了壓縮處理。

由於分詞和繁體中文的特性，部分情況下的結果也不儘相同。

特性	Web 版	Node 版
拼音庫	常用字庫。壓縮、合並	完整字庫。不壓縮、合並
分詞	沒有分詞	使用分詞算法，多音字拼音更準確。
拼音頻度排序	有根據拼音使用頻度優先級排序。	同 Web 版。
繁體中文	沒有繁體中文支持。	有簡單的繁簡漢字轉換。

由於這些區別，測試不同運行環境的用例也不儘相同。

捐贈

如果這個模塊有幫助到您，請 Star 這個倉庫。

你也可以選擇使用支付寶或微信給我捐贈：

許可証

MIT

pīnyīn (v4)#

特性#

安裝#

用法#

類型#

IPinyinOptions#

IPinyinStyle#

IPinyinMode#

IPinyinSegment#

API#

方法 <Array> pinyin(words: string[, options: IPinyinOptions])#

方法 Number compare(a, b)#

方法 string[][] compact(pinyinResult array[][])#

參數#

<Boolean|IPinyinSegment> options.segment#

<Boolean> options.heteronym#

<Boolean> options.group#

<IPinyinStyle> options.style#

NORMAL, normal#

TONE, tone#

TONE2, tone2#

TO3NE, to3ne#

INITIALS, initials#

FIRST_LETTER, first_letter#

PASSPORT, passport#

options.mode#

options.compact#

Test#

Q&A#

關於 Web 版如何使用#

爲什麼沒有 y, w, yu 幾個聲母？#

如何實現按拼音排序？#

node 版和 web 版有什麼異同？#

捐贈#

許可証#