Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

如何做一个取名产品? #23

Open
wainshine opened this issue Dec 31, 2019 · 1 comment
Open

如何做一个取名产品? #23

wainshine opened this issue Dec 31, 2019 · 1 comment

Comments

@wainshine
Copy link
Owner

wainshine commented Dec 31, 2019

1、GitHub下载 中文人名语料库 的数据。

2、将120万数据导入数据库,并将数据拆分成“姓名、姓、名字、单字人名用字、双字人名用字前、双字人名用字后”,然后分别统计字频。

3、由于badcase已经被我删除,这里出现的人名用字都是吉字、和中性字,可以放心使用。

4、通过字频,可以计算一个新词组的人名成词概率,给这个概率设置一个区间(拍脑袋就行),作为判断一个词组是不是人名的标准。

5、Unicode.org有一个汉字的库,里面有汉字的拼音、笔画、康熙部首;如果找不到就退而求其次,去爬汉典网的数据。

6、字意五行标记,金刀戈等属于金属、或兵器的部首,属金,其他类推。

7、释义,可以先用汉典或萌典的数据。

8、性别标记,库里有,或自己重新计算。

9、成语5万个,库里有;诗词,自己去找,GitHub上有很多。自己匹配。

会遇见哪些问题?

1、人名成词概率高,但是他可能也是一个地名,如杨萌路、杨庄。

2、人名成词概率高,但是他可能也是一个机构名/机构简写/品牌名,如范思哲、谭木匠。

3、人名成词概率高,但是他可能也是一个常用词,如高原、金星。

@wainshine
Copy link
Owner Author

会遇到哪些问题?
4、你以为他是个繁体字,其实他只是按规定不做类推简化,也就是得把他当做简体字处理。
5、他是繁体也有简化字,但是你的字符集只支持cjk基础汉字20902字,而这个简化字刚好在基础集之外: ) ,最后还得当他简体字处理。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant