Dzisiaj dłuższy tekst dotyczący problemu, który napotkaliśmy podczas składu naszych dotychczas wydanych słowników papierowych (problem nie dotyczy słowników elektronicznych, bo bazy danych nie muszą być posortowane w żadnej szczególnej kolejności, aby wyszukiwanie działało). Problem dotyczy słowników papierowych, gdzie zastosowaliśmy sortowanie haseł na podstawie pinyinu; sposób ten jest według nas bardziej naturalny i lepiej przyswajalny przez Polaków.

Otóż w języku chińskim występuje znaczna ilość znaków, które wymawia się na więcej niż jeden sposób (多音字 duō yīn zì). Mogą one też być pierwszym znakiem w wieloznakowym słowie. Gdy posortujemy listę haseł w słowniku fonetycznie (na podstawie pinyin) używając na przykład Worda lub Excela, hasła rozpoczynające się od znaku, który ma więcej niż jeden sposób wymowy zostaną posortowane tylko na podstawie jednego sposobu wymowy, co będzie błędem. W poniższym przykładzie przyjrzyjmy się słowom rozpoczynającym się od 行, pozostałe hasła podane zostały dla lepszego zilustrowania sortowania alfabetycznego na podstawie pinyinu:

多少 duōshǎo
列 hángliè
使 xíngshǐ
xíngwéi
业 hángyè
人口 rénkǒu
重 zhòng
作为 zuòwéi 

Jak widać hasła 行使 oraz 行为 są w nieprawidłowym miejscu biorąc pod uwagę sortowanie alfabetyczne na podstawie pinyinu. Gdybyśmy pozostawili je w takim miejscu, to użytkownik słownika papierowego nigdy by ich nie odnalazł! Zatem w trakcie składu musimy pamiętać o takich hasłach, ręcznie je wyszukać i również ręcznie przenieść w odpowiednie miejsce. Niestety nie znamy narzędzia, które robi to automatycznie, podejrzewam, że chińskie wydawnictwa coś takiego mają, my będziemy musieli takie stworzyć.

Problem z ręcznym przenoszeniem haseł wiąże się z tym, że trzeba o wszystkich takich hasłach specjalnej troski pamiętać. A co, jeżeli słownik ma 30 tys. haseł… lub więcej (a ambicje mamy spore)? Dzięki naszej praktykantce, Magdalenie Włoch, która pobrała z czeluści chińskiego internetu listę znaków o różnej wymowie, częściowo rozwiązaliśmy problem. Mamy teraz do dyspozycji listę wszystkich chińskich heterofonów (podaję na końcu tekstu). Teraz pozostało nam jedynie stworzyć szybki programistyczny sposób na porównywanie listy heterofonów z listą haseł do danej publikacji słownikowej. Uporaliśmy się z tym w Excelu! Zobacz załączone poniżej zdjęcie przykładu.

Możemy teraz łatwo identyfikować hasła w słowniku przeznaczonym do druku, które zawierają heterofony. Jedyne ciągle ręczne zadanie to przenoszenie tychże haseł do odpowiedniego miejsca w pliku przeznaczonym do druku.

Udało nam się też zoptymalizować nieco proces poprzez wyeliminowanie heterofonów, które różnią się jedynie tonem zaś litery alfabetu pozostają niezmienne, np. 采  cǎi, cài. Niemal o połowę zmniejszyła się ilość heterofonów, a co za tym idzie hasła tzw. „false positive”** nie muszą być ręcznie weryfikowane. Ostatnią optymalizacją, której nie udało nam się rozwiązać, jest wyeliminowane haseł, których pierwszym znakiem nie jest heterofon, bo możemy śmiało założyć, że zostały one z dużym prawdopodobieństwem posortowane prawidłowo. Jeżeli ktokolwiek potrafi podpowiedzieć odpowiednią funkcję w Excelu, będziemy bardzo wdzięczni.

A może my tu wyważamy otwarte drzwi? Jeżeli ktoś coś, to tu proszę!

* W języku polskim zjawisko to nie występuje, nawet sam termin spolszczam, bo nie mogłem znaleźć odpowiednika (chin. Wikipedia oraz ang. Wikipedia).
** Hasła, które zawierają heterofon, ale nie muszą być przeniesione, bo alfabetycznie znajdują się w prawidłowym miejscu.

CHIŃSKIE HETEROFONY (ZNAKI Z WIELOMA WYMOWAMI)

(Podajemy w formacie z przecinkami dla łatwiejszego modyfikowania, np. poprzez funkcję Znajdź i zamień.)

阿,ā,ē
啊,ā,á,ǎ,à,a
奥,ào,yù
把,bǎ,bà
罢,bà,ba,pí
吧,bā,ba
薄,báo,bó,bò
北,běi,bèi
背,bèi,bēi
被,bèi,pī
奔,bēn,bèn
臂,bì,bei
便,biàn,pián
别,bié,biè
并,bìng,bīng
伯,bó,bǎi,bà
不,bù,fǒu
采,cǎi,cài
参,cān,shēn,cēn,sān
藏,cáng,zàng
侧,cè,zè,zhāi
曾,zēng,céng
查,chá,zhā
差,chà,chā,chāi,cī
厂,chǎng,ān,hàn
场,cháng,chǎng
朝,zhāo,cháo
车,chē,jū
称,chēng,chèn,chèng
乘,chéng,shèng
尺,chǐ,chě
冲,chōng,chòng
仇,chóu,qiú
处,chǔ,chù
传,chuán,zhuàn
创,chuàng,chuāng
刺,cì,cī
从,cóng,zòng
答,dá,dā
打,dǎ,dá
大,dà,dài,tài
待,dài,dāi
担,dān,dàn,dǎn
单,dān,shàn,chán
弹,dàn,tán
当,dāng,dàng
倒,dǎo,dào
得,dé,děi,de
的,dí,dì,de
底,dǐ,de
地,dì,de
弟,dì,tì,tuí
都,dū,dōu
斗,dǒu,dòu
毒,dú,dài
读,dú,dòu
度,dù,duó
恶,è,wù,ě,wū
发,fā,fà
番,fān,pān
分,fēn,fèn
份,fèn,bīn
风,fēng,fěng
佛,fó,fú,bì,bó
否,fǒu,pǐ
夫,fū,fú
服,fú,fù
父,fù,fǔ
副,fù,pì
盖,gài,gě,hé
干,gān,gàn
港,gǎng,jiǎng
个,gè,gě
各,gè,gě
给,gěi,jǐ
更,gēng,gèng
共,gòng,gōng
供,gōng,gòng
骨,gǔ,gū
观,guān,guàn
广,guǎng,ān
过,guò,guo,guō
哈,hā,hǎ,hà
还,huán,hái
行,háng,xíng
好,hǎo,hào
号,hào,háo
喝,hē,hè,yè
合,hé,gě
何,hé,hē,hè
和,hé,hè,huó,huò,hú
核,hé,hú
横,héng,hèng
红,hóng,gōng
侯,hóu,hòu
糊,hū,hú,hù
划,huá,huà
华,huá,huà,huā
化,huà,huā
会,huì,kuài
混,hùn,hún
几,jī,jǐ
纪,jì,jǐ
济,jì,jǐ
家,jiā,jia,jie
贾,gǔ,jiǎ
假,jiǎ,jià
价,jià,jiè,jie
间,jiān,jiàn
监,jiān,jiàn
见,jiàn,xiàn
渐,jiàn,jiān
将,jiāng,jiàng
降,jiàng,xiáng
角,jiǎo,jué
觉,jué,jiào
教,jiào,jiāo
节,jié,jiē
结,jié,jiē
解,jiě,jiè,xiè
仅,jǐn,jìn
尽,jìn,jǐn
劲,jìn,jìng
禁,jīn,jìn
景,jǐng,yǐng
净,jìng,chēng
句,jù,gōu
据,jù,jū
卷,juàn,juǎn
卡,qiǎ,kǎ
看,kàn,kān
可,kě,kè
空,kōng,kòng,kǒng
括,kuò,guā
拉,lā,lá
啦,lā,la
郎,láng,làng
乐,lè,yuè,yào,lào
勒,lè,lēi
了,liǎo,le
累,léi,lěi,lèi
丽,lì,lí
凉,liáng,liàng
量,liáng,liàng
令,líng,lǐng,lìng
六,liù,lù
露,lòu,lù
论,lùn,lún
络,luò,lào
落,là,luò,lào
率,shuài,lǜ
绿,lǜ,lù
吗,má,mǎ,ma
冒,mào,mò
么,mó,ma,me,yāo
没,méi,mò
蒙,mēng,méng,měng
秘,mì,bì
模,mó,mú
莫,mò,mù
哪,nǎ,něi,na,né
那,nà,nǎ,nèi,nā
娜,nà,nuó
南,nán,nā
难,nán,nàn,nuó
呢,ní,ne
内,nèi,nà
能,néng,nài
宁,níng,nìng,zhù
弄,nòng,lòng
女,nǚ,rǔ
排,pái,pǎi
旁,páng,bàng
跑,pǎo,páo
片,piàn,piān
票,piào,piāo
迫,pò,pǎi
仆,pū,pú
妻,qī,qì
期,qī,jī
齐,qí,jì,zī,zhāi
其,qí,jī
奇,qí,jī
岂,qǐ,kǎi
强,qiáng,qiǎng,jiàng
抢,qiāng,qiǎng,chēng
悄,qiǎo,qiāo
切,qiē,qiè
且,qiě,jū
亲,qīn,qìng
区,qū,ōu
曲,qū,qǔ
趣,qù,cù
任,rèn,rén
若,ruò,rě
塞,sāi,sài,sè
散,sàn,sǎn
扫,sǎo,sào
沙,shā,shà
上,shàng,shǎng
稍,shāo,shào
少,shǎo,shào
舍,shě,shè
射,shè,yè,yì
什,shí,shén
沈,shěn,chén
甚,shèn,shén
省,shěng,xǐng
盛,shèng,chéng
石,shí,dàn
识,shí,zhì
食,shí,sì,yì
氏,shì,zhī
似,sì,shì
适,shì,kuò
熟,shú,shóu
属,shǔ,zhǔ
术,shù,shú,zhú
数,shù,shǔ,shuò
说,shuō,shuì,yuè
思,sī,sāi
苏,sū,sù
孙,sūn,xùn
缩,suō,sù
她,tā,jiě
台,tái,tāi
提,tí,dī,dǐ
体,tǐ,tī
挑,tiāo,tiǎo
条,tiáo,tiāo
调,tiáo,diào,zhōu
跳,tiào,táo
同,tóng,tòng
头,tóu,tou
吐,tǔ,tù
瓦,wǎ,wà
万,wàn,mò
亡,wáng,wú
王,wáng,wàng
为,wéi,wèi
委,wěi,wēi
吾,wú,yù
洗,xǐ,xiǎn
戏,xì,hū
系,xì,jì
吓,xià,hè
鲜,xiān,xiǎn
县,xiàn,xuán
相,xiāng,xiàng
校,xiào,jiào
些,xiē,suò
邪,xié,yá,yé,yú,xú
信,xìn,shēn
兴,xīng,xìng
休,xiū,xǔ
许,xǔ,hǔ
血,xiě,xuè
压,yā,yà
呀,yā,ya
研,yán,yàn
燕,yàn,yān
要,yào,yāo
叶,yè,xié
疑,yí,nǐ
隐,yǐn,yìn
应,yīng,yìng
有,yǒu,yòu
与,yǔ,yù,yú
予,yú,yǔ
雨,yǔ,yù
语,yǔ,yù
员,yuán,yún,yùn
远,yuǎn,yuàn
约,yuē,yāo
载,zǎi,zài
咱,zán,zá,zǎ
责,zé,zhài
择,zé,zhái
泽,zé,shì
扎,zā,zhā,zhá
占,zhān,zhàn
长,cháng,zhǎng
召,zhào,shào
折,zhē,zhé,shé
这,zhè,zhèi
着,zhuó,zháo,zhāo,zhe
正,zhèng,zhēng
只,zhī,zhǐ
枝,zhī,qí
知,zhī,zhì
织,zhī,zhì
中,zhōng,zhòng
种,zhǒng,zhòng,chóng
重,zhòng,chóng
朱,zhū,shú
助,zhù,chú
著,zhù,zhuó,zhe
转,zhuǎn,zhuàn,zhuǎi
追,zhuī,duī
纵,zòng,zǒng

(Źródło obrazka tytułowego: http://blog.sina.com.cn/s/blog_52edaa110102w6ml.html)