两个跟中文相关的资源工具介绍

【导读】平常为大家推荐的资源中,以英语语言占据大多数。今天 特别要为大家推荐两个跟中文相关的资源工具。先简单介绍下这两个资源工具都是什么。第一个,汉字转拼音的工具——即将中文字符转换成它的拼音。除了支持 javascript,还可以支持 python、go、rust 等多种语言。可以说是非常 nice 的一个中文资源工具了。第二个是新华字典的 api,收录包括 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语。有需要的同学可以收藏留着用,觉得不错记得分享点赞。
汉字转拼音工具
▌功能
将中文字符转换为拼音。可用于汉字注音、排序、检索任务。
▌特性
根据词组智能匹配最正确的拼音。
支持多音字。
简单的繁体支持, 注音支持。
支持多种不同拼音/注音风格。
▌支持版本
1.node.js/javascript 版
注:这个版本同时支持在 node 和 web 浏览器环境运行;
作者:hotoo;来源:github
https://github.com/hotoo/pinyin
2.python 版
作者:mozillazg;来源:github
https://github.com/mozillazg/python-pinyin
3.go 版
作者:mozillazg;来源:github
https://github.com/mozillazg/go-pinyin
4.rust 版
作者:mozillazg;来源:github
https://github.com/mozillazg/rust-pinyin
▌一些注意事项
1.为什么没有 y, w, yu 几个声母?
1>>>frompypinyinimportstyle,pinyin2>>>pinyin('下雨天',style=style.initials)3[['x'],[''],['t']]
因为根据《汉语拼音方案》, y,w,ü (yu) 都不是声母。
声母风格(initials)下,“雨”、“我”、“圆”等汉字返回空字符串,因为根据《汉语拼音方案》, y,w,ü (yu) 都不是声母,在某些特定韵母无声母时,才加上 y 或 w,而 ü 也有其特定规则。 —— @hotoo
如果你觉得这个给你带来了麻烦,那么也请小心一些无声母的汉字(如“啊”、“饿”、“按”、“昂”等)。 这时候你也许需要的是首字母风格(first_letter)。 —— @hotoo
参考:
hotoo/pinyin#57,#22,#27,#44
如果觉得这个行为不是你想要的,就是想把 y 当成声母的话,可以指定strict=false, 这个可能会符合你的预期,详见strict 参数的影响
1>>>frompypinyinimportstyle,pinyin2>>>pinyin('下雨天',style=style.initials)3[['x'],[''],['t']]4>>>pinyin('下雨天',style=style.initials,strict=false)5[['x'],['y'],['t']]
2.拼音数据
单个汉字的拼音使用pinyin-data的数据
词组的拼音使用phrase-pinyin-data的数据
3.node 版和 web 版有什么异同?
pinyin目前可以同时运行在 node 服务器端和 web 浏览器端。 api 和使用方式完成一致。但 web 版较 node 版稍简单,拼音库只有常用字部分,没有使用分词算法, 并且考虑了网络传输对词库进行了压缩处理。
由于分词和繁体中文的特性,部分情况下的结果也不尽相同。由于这些区别,测试不同运行环境的用例也不尽相同。
更多详细安装与使用教程可访问 github 链接进行访问~
各版本 github 地址:
https://github.com/hotoo/pinyin
https://github.com/mozillazg/python-pinyin
https://github.com/mozillazg/go-pinyin
https://github.com/mozillazg/rust-pinyin
新华字典 api
▌介绍
作者本来的目的是想可以实现成语接龙,苦于没有现成可用的数据库,自己就从各个网站抓取整理了一份。所有的数据都作者从网上找的。放在 github 是为了方便自己的使用,同时也能方便有类似需求的人不用去做这些 trival 的工作。所有抓取数据的脚本都在仓库里。
中华新华字典数据库和 api 。收录包括 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语。所有的数据放在 data/ 目录。
▌数据库与 api 介绍
1.成语(idiom.json)
2.词语(ci.json)
3.汉字(word.json)
4.歇后语(xiehouyu.json)

安全代币产品与去中心化网络之间有啥区别
2019年CES上 人工智能仍然是备受关注的焦点之一
全国5G基站开通了12.6万个,网络提速降费任务超额完成
新唐科技MS51XC0AE控制器简介
数据中心与智能电网如何协同发展
两个跟中文相关的资源工具介绍
GOS、RSSI、Eb/No、Eb/Io的概念
了解蓝牙音箱最初的样子 蓝牙音箱详细拆解
常见的电容器类型有哪些
TMI6030/B线性稳压器产品说明
【启扬方案】畅享智能生活,快递末端配送解决方案
乐森星际特工机器人引领教育机器人新时代
CoinAll Star Project 精选上币 智能合约新秀Precium全球首发
Versal启动文件简述
基于 Sub-1 GHz 欧洲智能电网的 RF 通信
组合逻辑电路中的竞争冒险
商务笔记本电脑哪种好?看看轻薄性能好的笔记本灵越
ThreadLocal基本内容与用法
气相质谱仪(GCMS)的工作原理、特点及应用
浅析Tower硅光子平台结合光纤与硅芯片连接技术及量子点激光器