Как сделать корейский алфавит
Многие начинающие изучать корейский язык задаются вопросом: "Как установить корейскую клавиатуру на компьютер?". В windows 7 и 8 это делается очень просто. Однако не все ещё об этом знают. Поэтому предлагаем вашему вниманию подробную пошаговую инструкцию.
Кликаем по языковой панели, находящейся в правом нижнем углу монитора, правой кнопкой мыши.
В открывшемся окне выбираем "Параметры".
В открывшемся окне "Языки и службы текстового ввода" выбираем "Добавить".
Откроется список языков, в котором нужно выбрать Корейский и нажать на "+" слева от названия языка. Затем нажать на "+" слева от слова "Клавиатура". И поставить галочку перед словом Microsoft IME. Затем нажать на "Оk" в правом верхнем углу окна.
В окне "Языки и службы текстового ввода" отобразилась корейская клавиатура. Теперь нажимаем "Ok" в нижней части окна.
Корейская клавиатура установлена. Однако сразу же вы столкнётесь с тем, что текст будет набираться латиницей. Для того, чтобы перейти на хангыль, необходимо кликнуть по букве "А", находящейся на языковой панели рядом с пометкой о том, что включена корейская клавиатура ("Ko").
Впрочем, это действие может заменить нажатие клавиши alt, находящейся на клавиатуре справа.
Буква "А" превращается в слог '가'. Теперь можно печатать хангылем.
У меня такая проблема: на телефоне Alcatel One Touch 992D, не отображается корейский язык, клавиатура есть, писать могу, но в браузере Google Chrome пустое место вместо хангыль, даже в вашем паблике ничего не видно, пустое пространство. Что делать?
Спасибо огромное за такое понятное объяснение, а то до этого пыталась и не выходило. Сделала как вашем описании , и получилось
Жанна, тогда не знаю чем и помочь. Может ты ещё раз попробуй, может что-то упустила, бывает ведь такое
Здравствуйте. Я сделала всё как нужно. Не могла печатать так, чтобы слова собирались в слоги. Нашла решение поставить галочку напротив 2 Beolsik (фото 1) и теперь слоги собираются. Однако возникла другая проблема. Многие аудиотреки отображаются вот таким образом (фото 2). И если я "копирую"-"вставляю" слово написанное правильно и ровно - оно все равно отображается и вставляется вот таким корявым образом. Что же мне делать, помогите пожалуйста.
Lola, лично у меня стоит галочка напротив Delete by Jasu Unit. Попробуйте тоже поставить, может получится..
Ahrin, оно и в ворде и в обычном блокноте так получается. печатается то оно нормально, но вот некоторые названия невозможно поменять, пока вручную не перепечатываешь. если скопировать-вставить название в гугл транслейт оно становится нормальным. и если это нормальное написание скопировать-вставить обратно - оно все равно остается корявым как было. Т.е. это не просто неправильно написанное название. Это именно какой-то косяк языка системы наверное. :(
Lola, если только с названиями песен - то оно нормально, часто в названиях этих сбивается кодировка, то в строчку хангылем пишет, то вообще какие-то зюки выдаёт. Так что если печатает во всех программах нормально и нормально всё отображает, кроме некоторых названий, то волноваться не о чем. Можете их вручную все нормально набрать или просто не обращать внимание)
Главная Полезные ссылки
ВТОРНИК, 26 ИЮНЯ 2012 Г.
Всем привет. Начинаем наш 1 Урок:
В корейском языке 24 буквы (14 согласных, 10 гласных) , 11 дифтонгов (сложные гласные) и 5 сдвоенных согласных.
Берешь и учишь не советовала бы учить по вышепоказанной картинке, так как транскрипция не совсем правильна. лучше учить через аудио-видео уроки чтобы слышать произношение
А теперь, берем тетрадь в клетку, прописываем и одновременно проговариваем произношение около 10 раз (+\- бесконечность) каждую букву в правильном порядке написания как написано в таблицах, стараемся попасть в квадрат из 4-ёх клеток.
*Таблицы позаимствованы из учебника Вон гван.
P/S при сильном желании учится за один вечер. Удачи!
Чтобы Вы долго не задерживались на алфавите, просто уделите ему один день максимум, и оставьте эту вкладку открытой (закрепите в браузере) и потом посматривайте и повторяйте. Таким образом, Вы выучите алфавит в ходе практики последующих уроков.
Внимание! Содержание всех уроков будет в разделе: Корейский язык: Введение
Гласные:
ЗАДАНИЕ №1
Писать нужно слева направо, сверху вниз…
Напишите каждую букву по две строчки, порядка написания — потом сфотографируйте, и загрузите фото в комментариях к этой статье. Практикуем:
오이 (ои) — огурец
아이 (аи) — ребёнок
우유 (ую) — молоко
여우 (ёу) — лиса
Практикуем:
왜 (вэ) — почему?
위 (ви) — желудок
Согласные:
ㄱ — киёк ( г, к )
ㄴ — ниын ( н )
ㄷ — тигыт ( д, т )
ㄹ — риыль ( р, л, ль )
ㅁ — миым ( м )
ㅂ — биып ( б, п )
ㅅ — щиот ( с, щ )
ㅇ — иынг ( нг ( ng )) – также, если слог начинается с гласной, обязательно
ставится иынг перед гласной
ㅈ – джиыт ( дж )
ㅊ — чиыт ( ч )
ㅋ — кхиык ( кх )
ㅌ — тхиыт ( тх )
ㅍ — пхиып ( пх )
ㅎ — хиыт ( х )
*ㅊ ㅋ ㅌ ㅍ – являются придыхательными согласными, они производные от
ㅈ ㄱ ㄷ
*ㅇ ㅎ – гортанные согласные
ЗАДАНИЕ №2
Писать нужно слева направо, сверху вниз…
Напишите каждую букву по две строчки, порядка написания — потом сфотографируйте, и загрузите фото в комментариях к этой статье.
Сдвоенные согласные:
Песня Ка-На-Да / Ganada song
Повторяйте за диктором
На сегодняшний день сделать распознавание корейских символов может любой студент, прослушавший курс по нейросетям. Дайте ему выборку и компьютер с видеокартой, и через некоторое время он принесёт вам сеть, которая будет распознавать корейские символы почти без ошибок.
Но такое решение будет обладать рядом недостатков:
Во-первых, большое количество необходимых вычислений, что влияет на время работы или требуемую энергию (что очень актуально для мобильных устройств). Действительно, если мы хотим распознавать хотя бы 3000 символов, то это будет размер последнего слоя сети. А если вход этого слоя равен хотя бы 512-ти, то получаем 512 * 3000 умножений. Многовато.
Во-вторых, размер. Тот же самый последний слой из предыдущего примера будет весить 512 * 3001 * 4 байт, то есть около 6-ти мегабайт. Это только один слой, вся сеть будет весить десятки мегабайт. Понятно, для настольного компьютера это проблема небольшая, но на смартфоне не все будут готовы хранить столько данных для распознавания одного языка.
В-третьих, такая сеть будет давать непредсказуемый результат на изображениях, которые не являются корейскими символами, но тем не менее используются в корейских текстах. В лабораторных условиях это не трудно, но для практического применения технологии этот вопрос придётся как-то решать.
И в-четвёртых, проблема в количестве символов: 3000, скорее всего, хватит чтобы, например, отличить в меню ресторана стейк от жареного морского огурца, но порой встречаются и более сложные тексты. Обучить сеть на большее количество символов будет сложно: она будет не только более медленной, но и возникнет проблема со сбором обучающей выборки, так как частота символов падает приблизительно экспоненциально. Конечно, можно доставать изображения из шрифтов и аугментировать их, но для обучения хорошей сети этого недостаточно.
И сегодня я расскажу, как нам удалось решить эти проблемы.
Как устроена корейская письменность
Каждый блок может состоять из двух, трёх или четырёх букв. При этом первой всегда идёт согласная, затем одна или две гласных, и в конце может стоять ещё одна согласная. Существует несколько разных способов объединения букв в блоки, то есть в разных блоках вторая буква, например, будет стоять в разных местах.
Источник изображения: Википедия.
Модифицируем блок хангыля
То есть получается, что один блок хангыля можно описать формулой: Ci V [V] [Cf], где Ci — начальная согласная (возможно, сдвоенная), V — гласная буква, а Cf — финальная согласная (тоже может быть сдвоенной). Такое представление неудобно для распознавания, поэтому изменим его.
Во-первых, объединим обе гласные. Получим формулу Ci V' [Cf], где V’ — все возможные варианты объединения букв, считая отсутствие второй буквы. Поскольку в языке 10 гласных, можно было бы ожидать, что в результате получим 10 * (10 + 1) вариантов, но на практике не все они возможны, получается всего 21.
Конструируем сеть
картинка кликабельная
Обучаем, запускаем на отдельной выборке. Качество хорошее, сетка быстрая, да и весит мало. Попробуем вынести её из лабораторных условий в реальный мир.
Решаем проблемы
Первую проблему получим сразу: порой на вход попадают изображения, которые вообще не являются корейскими символами, и сеть на них ведёт себя крайне непредсказуемо. Можно, конечно, обучить ещё одну сеть, которая будет отличать корейские блоки от всего остального, но мы сделаем проще.
Сделаем то же самое, что сделали с третьей группой букв: добавим выход для отсутствия буквы. Тогда формула символа будет иметь такой вид: Ci* V’* Cf*. А в обучающую выборку добавим всякого мусора — китайских иероглифов, неправильно порезанных символов, европейских букв, и будем учить сеть отмечать на ней три пустые буквы.
Обучаем, тестируем. Работает, но проблемы остались. Оказывается, достаточно часто в сетку попадают, например, такие изображения:
Обучили. Плохо получается у такой сетки распознавать пунктуаторы: запятую от скобки она отличает, а вот от точки уже с трудом. Можно увеличить сложность сетки, но не хочется. Распознаванием пунктуаторов займёмся потом, а пока будем просто выдавать, есть там что-то или нет. Этому сетка научилась хорошо.
С приклеенными пунктуаторами разобрались, но что делать, если наоборот, на изображении отсутствует часть ключа? Было такое вот слово из двух символов, но мы порезали его на символы неправильно:
Сеть тут без особых проблем определяет центральную букву. Это было бы очень полезным качеством, если бы нашей задачей было распознавать только выборку символов, но в реальном мире от этого вред: когда мы неправильно порезали строку на символы, мы должны передать эту информацию выше, так как иначе оставшийся кусочек потом распознается как какой-нибудь пунктуатор, и в результирующем тексте будет лишний символ.
Для решения этой задачи воспользуемся тем, что осталось от каких-то старых экспериментов многолетней давности. Идея распознавать корейские символы по буквам появилась ещё очень давно, и первые попытки были сделаны ещё до эпохи нейросетей, но практического применения эти решения не нашли. Зато с тех пор осталась интересные вещи:
- Разметка того, где у каждого блока какая буква стоит.
- Качественная, пусть и небыстрая вырезалка этих букв из символов.
Всё, с разпознаванием корейских символов проблем больше нет, но жизнь снова вставляет палки в колёса.
Дело в том, что помимо символов хангыля корейские тексты состоят ещё из большого количества других символов: пунктуаторы, европейские символы (как минимум цифры) и китайские иероглифы. Но встречаются они, естественно, значительно реже. Разделим их на две группы: иероглифы и всё остальное, и обучим для каждой из них свою сетку. И сделаем простенький классификатор, который по результатам работы сети для распознавания корейских символов и по некоторым другим признакам (геометрическим, в первую очередь) будет отвечать, нужно ли хотя бы одну из них запускать, и если да, то какую. Европейских символов нужно распознавать немного, так что сетка будет маленькой, а для иероглифов… Спасает то, что в текстах они встречаются редко, поэтому закрутим наш классификатор так, чтобы он очень редко предлагал их распознавать.
Вообще, с этими двумя сетками возникает проблема адекватного ответа на изображениях, не являющихся символами, на которых её обучали, но о том, как решать эту проблему, мы расскажем в другой раз.
Проводим эксперименты
Первый. Есть две базы изображений, условно назовём их Real и Synthetic. Real состоит из реальных изображений, которые получены из отсканированных документов, а Synthetic — изображения, полученные из шрифтов. В первой базе присутствуют изображения для 2374-х блоков (остальные очень редкие), а из шрифтов мы достали все возможные 11172 символа. Попробуем обучить сеть на тех блоках, которые есть в Real (сами изображения будем брать из обеих баз), а протестируем на тех, которые есть только в Synthetic. Результаты:
То есть, примерно в 60% случаев сеть способна распознать те блоки, примеры которых она вообще не видела при обучении. Качество могло бы быть и выше, если бы не одна проблема: среди финальных букв присутствуют очень редкие, и при обучении сеть увидела очень мало изображений блоков в ними. Этим и объясняется низкое качество в последнем столбце. Если бы можно было выбрать 2374 блока, на которых мы обучаемся, по-другому, то качество, скорее всего, было бы заметно выше.
То есть даже если ограничиться распознаванием только 2374-х блоков, наша сеть оказывается быстрее и на том же уровне по качеству.
Третий. Предположим, что мы смогли где-то достать огромную базу всех 11172-х корейских блоков. Если мы на ней обучим сеть с софтмаксом, сколько она будет работать по времени? Все эксперименты проводить затратно, поэтому рассмотрим только сеть с размерами скрытых слоёв 256:
Получаем результаты
Без них ничего бы не получилось
Выражаю признательность моему коллеге Юре Чулинину, первоначальному автору идеи. Она запатентована в России, и, кроме того, аналогичная заявка подана в американское патентное ведомство (USPTO). Большое спасибо разработчику Мише Зацепину, который всё это реализовал и провёл все эксперименты.
Читайте также: