Dzisiaj bardzo krótki wpis informacyjny. Dodaliśmy do Słownika Bohan prawie 150 haseł wraz z przykładami zdań, które opracowała nasza praktykantka z KULu, Klaudia Drzazga. Mały obrazek z przykładowymi hasłami tradycyjnie obok wpisu.

Dzisiaj na chińskie Święto Narodowe (68 rocznica proklamowania Chińskiej Republiki Ludowej) aktualizujemy słowniki o ponad 1000 haseł i blisko 600 przykładów zdań wraz z tłumaczeniami.

~700 haseł do Słownika Bohan opracowali praktykanci Agnieszka Suchcicka i Piotr Dajczak
~300 haseł do Słownika Bohan Pro (dziedzina: religia) opracowały praktykantki Hanna Jazgarska i Anna Sulima

W najbliższych tygodniach i miesiącach planujemy sporo aktualizacji; cel 100 tys. haseł*!

中华人民共和国万岁!波兰共和国万岁!

* W jednej parze językowej (chiński-polski), gdy policzymy obie pary językowe, to przebijamy 200 tys.!

Jedna z użytkowniczek zgłosiła nam o bardzo poważnym błędzie na nowej stronie Bohan. Już zarejestrowany użytkownik nie miał możliwości zasubskrybowania Bohan Pro. Jedynym wyjściem było założenie nowego konta. To niewybaczalne przeoczenie zostało już naprawione poprzez dodanie do strony nowego modułu z Menu użytkownika. Teraz każdy z Was ma możliwość zarządzania swoim kontem, subskrypcjami, historią zakupów w Sklepie Bohan oraz edycją danych (ta opcja była zawsze dostępna, ale z innego miejsca).

Dziękujemy za proaktywne zgłaszanie nam problemów z Bohan!

Dzisiaj dłuższy tekst dotyczący problemu, który napotkaliśmy podczas składu naszych dotychczas wydanych słowników papierowych (problem nie dotyczy słowników elektronicznych, bo bazy danych nie muszą być posortowane w żadnej szczególnej kolejności, aby wyszukiwanie działało). Problem dotyczy słowników papierowych, gdzie zastosowaliśmy sortowanie haseł na podstawie pinyinu; sposób ten jest według nas bardziej naturalny i lepiej przyswajalny przez Polaków.

Otóż w języku chińskim występuje znaczna ilość znaków, które wymawia się na więcej niż jeden sposób (多音字 duō yīn zì). Mogą one też być pierwszym znakiem w wieloznakowym słowie. Gdy posortujemy listę haseł w słowniku fonetycznie (na podstawie pinyin) używając na przykład Worda lub Excela, hasła rozpoczynające się od znaku, który ma więcej niż jeden sposób wymowy zostaną posortowane tylko na podstawie jednego sposobu wymowy, co będzie błędem. W poniższym przykładzie przyjrzyjmy się słowom rozpoczynającym się od 行, pozostałe hasła podane zostały dla lepszego zilustrowania sortowania alfabetycznego na podstawie pinyinu:

多少 duōshǎo
列 hángliè
使 xíngshǐ
xíngwéi
业 hángyè
人口 rénkǒu
重 zhòng
作为 zuòwéi 

Jak widać hasła 行使 oraz 行为 są w nieprawidłowym miejscu biorąc pod uwagę sortowanie alfabetyczne na podstawie pinyinu. Gdybyśmy pozostawili je w takim miejscu, to użytkownik słownika papierowego nigdy by ich nie odnalazł! Zatem w trakcie składu musimy pamiętać o takich hasłach, ręcznie je wyszukać i również ręcznie przenieść w odpowiednie miejsce. Niestety nie znamy narzędzia, które robi to automatycznie, podejrzewam, że chińskie wydawnictwa coś takiego mają, my będziemy musieli takie stworzyć.

Problem z ręcznym przenoszeniem haseł wiąże się z tym, że trzeba o wszystkich takich hasłach specjalnej troski pamiętać. A co, jeżeli słownik ma 30 tys. haseł… lub więcej (a ambicje mamy spore)? Dzięki naszej praktykantce, Magdalenie Włoch, która pobrała z czeluści chińskiego internetu listę znaków o różnej wymowie, częściowo rozwiązaliśmy problem. Mamy teraz do dyspozycji listę wszystkich chińskich heterofonów (podaję na końcu tekstu). Teraz pozostało nam jedynie stworzyć szybki programistyczny sposób na porównywanie listy heterofonów z listą haseł do danej publikacji słownikowej. Uporaliśmy się z tym w Excelu! Zobacz załączone poniżej zdjęcie przykładu.

Możemy teraz łatwo identyfikować hasła w słowniku przeznaczonym do druku, które zawierają heterofony. Jedyne ciągle ręczne zadanie to przenoszenie tychże haseł do odpowiedniego miejsca w pliku przeznaczonym do druku.

Udało nam się też zoptymalizować nieco proces poprzez wyeliminowanie heterofonów, które różnią się jedynie tonem zaś litery alfabetu pozostają niezmienne, np. 采  cǎi, cài. Niemal o połowę zmniejszyła się ilość heterofonów, a co za tym idzie hasła tzw. „false positive”** nie muszą być ręcznie weryfikowane. Ostatnią optymalizacją, której nie udało nam się rozwiązać, jest wyeliminowane haseł, których pierwszym znakiem nie jest heterofon, bo możemy śmiało założyć, że zostały one z dużym prawdopodobieństwem posortowane prawidłowo. Jeżeli ktokolwiek potrafi podpowiedzieć odpowiednią funkcję w Excelu, będziemy bardzo wdzięczni.

A może my tu wyważamy otwarte drzwi? Jeżeli ktoś coś, to tu proszę!

* W języku polskim zjawisko to nie występuje, nawet sam termin spolszczam, bo nie mogłem znaleźć odpowiednika (chin. Wikipedia oraz ang. Wikipedia).
** Hasła, które zawierają heterofon, ale nie muszą być przeniesione, bo alfabetycznie znajdują się w prawidłowym miejscu.

Moi drodzy, tempo ostatnio większe dzięki naszym praktykantkom. Magdalena Włoch opracowała łącznie 370 haseł z zakresu turystyki, a Hanna Jazgarska opracowała łącznie 126 haseł z zakresu religii. Niewielki wycinek z tychże haseł w załączonym obrazku. Hasła oczywiście już są dostępne w Słowniku Bohan Pro - zapraszamy do korzystania.

Tempa zmniejszać nie zamierzamy. Oprócz stałego zespołu Bohan otrzymaliśmy kolejne zgłoszenia dotyczące praktyk i pracy wolontaryjnej. Jest dobrze, słownik rośnie, jest z każdym hasłem coraz bardziej przydatny dla wszystkich Was.

Dziękujemy!