Учебно-методический комплекс по дисциплине дв 2 Компьютерные технологии в лингвистических исследованиях




Скачать 496.18 Kb.
НазваниеУчебно-методический комплекс по дисциплине дв 2 Компьютерные технологии в лингвистических исследованиях
страница3/4
Дата публикации04.10.2014
Размер496.18 Kb.
ТипУчебно-методический комплекс
shkolnie.ru > Информатика > Учебно-методический комплекс
1   2   3   4
^

Оценка качества онлайн перевода - Translation Looks Like (TLL)


Качество онлайн перевода зависит от тематики и стиля исходного текста, от грамматической, синтаксической и лексической родственности языков. При оценке качества перевода, как правило, учитывают ряд объективных и субъективных факторов. Формализовать процесс оценки качества перевода возможно только с учетом объективных факторов. Таковыми являются допущенные при переводе ошибки (смысловые, грамматические, стилистические). При оценке качества перевода, каждому типу ошибки назначается вес в баллах или процентах. Подсчитывается общее количество баллов и определяется качество переведенного текста. При таком понимании процесса, процедура оценки качества переводов сводится к выявлению ошибок в тексте и определению их типа. Если определить грамматические и, с натяжкой, стилистические ошибки возможно с помощью электронных словарей и системы правил, то формализовать алгоритм поиска смысловых ошибок невозможно. Соответственно, создать алгоритм автоматической оценки качества перевода точными методами тоже невозможно.

Конечно, мы представляем себе абсурдность идеи автоматического определения качества перевода, но все же мы нашли одно интересное решение.

Во-первых, мы забыли о точных методах. Другими словами, сколько будет 2+2 - открытый вопрос. Мы применили принцип обучения системы, которая оценивает качество перевода, и предложили ответить на этот вопрос человеку, который, в общем-то, ответа может не знать. Оценивая перевод "на глазок", мы получали некоторые числа (TLL), которые послужили исходными данными для формализации процесса оценки качества перевода. Число TTL показывает, насколько, по мнению человека, хорош перевод, выполненный онлайн-переводчиком.

Во-вторых, мы приняли за эталон перевод, выполненный профессиональным переводчиком-человеком, и на основе меткок переводов разработали алгоритм, вычисляющий зеркальную идентичность текстов - TLL (число, выраженное в процентах). TLL равное 100 процентам соответствует двум абсолютно идентичным текстам, 0% означает, что тексты абсолютно разные. Было выявлено, что, если предложить эксперту оценить два разных набора текстов (оригинал-перевод), оказалось, что тот перевод, у которого TLL выше, большинству экспертов кажется лучше, т.е. более качественным и близким по смыслу к эталону. Используя этот алгоритм оценки качества онлайн перевода, мы получили наборы оценок каждого перевода и смогли провести исследование, которое выявило интересные закономерности и позволило сделать не менее интересные выводы. Мы предлагаем вам самостоятельно познакомиться с результатами.
^

Исследование онлайн-переводчиков


В исследовании были протестированы следующие онлайн-переводчики:

  • Translate.Ru Translate.Ru – сервис онлайн-перевода компании ПРОМТ, предоставляющий услуги автоматизированного перевода информации для основных европейских языков. Позволяет переводить тексты на 24 языка: английский, арабский, болгарский, голландский, греческий, датский, испанский, итальянский, китайский традиционный, китайский упрощенный, корейский, немецкий, норвежский, польский, португальский, румынский, русский, финский, французский, хинди, хорватский, чешский, шведский, японский.

  • Google Translate Перевод текстов, веб-страниц и документов от компании Google. В большинстве современных коммерческих систем машинного перевода используется подход на основе правил. В translate.google.ru применяется другой подход. В нее загружаются тексты очень большого объема. Это могут быть как материалы на языке готового перевода, так и двуязычные тексты, содержащие предложения на исходном языке и соответствующие им переводы, выполненные вручную. Затем для построения модели перевода применяются методы самообучения на основе статистического анализа.

  • Babel Fish Онлайн-переводчик Babel Fish (babelfish.yahoo.com) - сервис Yahoo, позволяет переводить отрывки текста до 150 слов или веб-страницы, заданные адресом (URL). Перевод возможен на 12 языков, в разных комбинациях. Выбор языковой пары сделан неудобно, нет автоматического определения исходного языка. С русским языком работает только в направлении английский-русский, русский-английский. Работать с переводчиком не удобно, переведенный текст отображается над переводом. Работает быстро. Нет подключаемых словарей и выбора темы текста. Возникает ощущение "универсального онлайн-перевода".

  • Pragma 5.x Онлайн переводчик Pragma 5.x поможет с переводом с английского, русского, украинского и других популярных языков.

  • Reverso Онлайн переводчик (www.reverso.net) разработан для перевода коротких текстов.

  • Trident Переводчик от компании Trident Software (http://www.trident.com.ua/ru/translation/on-line/), основанный на технологиях программы-переводчика Pragma. 5 языков перевода: английский, латышский, русский, украинский, французский.

  • WorldLingo Переводчик текста, документов и сайтов WorldLingo. Языки перевода: английский, арабский, голландский, греческий, итальянский, испанский, китайский, корейский, немецкий, португальский, русский, французский, шведский, японский. Но есть абсурдные страницы, см. ниже: WorldLingo обеспечивает профессионала, переводов highquality от и к Slovenian. Наши словенские услуги по переводу помогут вам увеличить ваше глобальную стратегию. Для quote перевода, сделать заказ заказ или спросить больше информации о переводе WorldLingo словенском, контакт мы сегодня используя форму на верхней части этой страницы или вызываем нас дальше.

  • InterTran Переводчик от компании InterTran. Перевод небольших текстов и словосочетаний. 27 языков перевода: английский, болгарский, валлийский, венгерский, голландский, греческий, датский, исландский, испанский, испанский (европейский), испанский (латиноамериканский), итальянский, немецкий, норвежский, польский, португальский (бразильский), португальский (европейский), румынский, русский, сербский, словенский, финский, французский, хорватский, чешский, шведский, японский.

  • Linguatec Переводчик текста немецкой компании Linguatec. Компания занимается разработкой систем перевода и программного обеспечения. 7 языков перевода: английский, итальянский, испанский, китайский, немецкий, португальский, французский. Русского языка в бесплатной версии нет!

  • Voila Переводчик текста и сайтов Voila (http://tr.voila.fr/traduire-un-texte.php). Основан на технологиях компании ПРОМТ. За один раз можно перевести текст длиной не более 300 символов. 6 языков перевода: английский, итальянский, испанский, немецкий, португальский, французский.

  • Applied Language Solutions Онлайн-переводчик Applied Language Solutions (http://www.appliedlanguage.com/free_translation.shtml) 12 языков перевода: английский, арабский, голландский, испанский, итальянский, китайский, корейский, немецкий, португальский, русский, французский, японский.

  • SYSTRANet Автоматический перевод текстов, веб-страниц и файлов. Компания занимается разработкой и реализацией программного обеспечения для автоматизированного перевода.

  • SDL FreeTranslation Бесплатный онлайн-переводчик текстов и сайтов. Тут же предлагают профессиональные ручные переводы www.onehourtranslation.com. Работает онлайн-переводчик очень быстро, В паре с английским языком есть все популярные европейские и восточные языки, с русским языком есть не много: английский, немецкий, фрвнцузский, испанский. Но по результатам перевода на русский язык - переводчик оказался одним из худших.

  • ImTranslator Бесплатный онлайн-переводчик.

  • Translate Online Переводчик текстов онлайн

  • Windows Live Translator Bing Бесплатная служба перевода в сети от Microsoft. Позволяет предоставлять встроенные переводы в режиме реального времени для своего веб-сайта. Онлайн-переводчик очень удобен в использовании. Есть автоопределение языка, за все время работы, ни разу не ошибся, определял язык даже по небольшим (20-30 слов) отрывкам текста. Переводит быстро. Много языковых пар. Показалось, что есть затруднение с переводами с немецкого языка. Интересная особенность - после перевода просят оценить перевод (плохо, хорошо, оскорбительно). Показалось странным, что нет подключаемых словарей, или, хотя бы указания глобальной темы текста (бизнес, медицина, техника).

  • Transer Портал переводчиков и лингвистов. Для онлайн перевода использует технологии Google Translate.

  • Tqstart Мультиязычный бесплатный онлайн переводчик Заявлено множество языковых пар. О проекте ни слова. Сайт принадлежит Краснодарскому бюро переводов. Есть подозрение, что используется движок Google Translate, но упоминания об этом на сайте нет. Сайт онлайн переводчика: www.tqstart.com

  • META переводчик Мультиязычный онлайн переводчик текстов поддерживает направления перевода для языков: украинский, русский, английский, польский, немецкий, латышский, французский


Лабораторная работа № 11. ^ Метод статистического анализа.
Статистические данные – это количественные сведения о какой-либо совокупности объектов, которые имеют общие признаки, способные изменяться качественно и количественно.

^ Статистический метод – это комплекс приемов и принципов, согласно которым производятся сбор, систематизация, обработка и интерпретация статистических данных с целью получения научных и практических выводов.

Математическое содержание приемов и принципов статистического метода образует математическая статистика, которая является отраслью прикладной математики. Основными категориями математической статистики являются вероятность, частота, случайная величина, выборка, корреляция и др.

В традиционной статистике различаются две группы методов:

- описательные методы,

- методы оценивания.

^ Задача описательных методов – представить исходные данные в компактной и наглядной форме (в виде таблиц, графиков) и описать эти данные с помощью разного рода статистик (мер связи, мер концентрации, мер центральной тенденции).

^ Методы оценивания распадаются на две группы: методы оценивания неизвестных параметров распределения и методы проверки статистических гипотез.

Статистический метод – это универсальный метод познания действительности. Он имеет несомненные преимущества по сравнению с другими научными методами, например, такие как объективность и беспристрастность, строгость и процедурность. Поэтому метод статистического анализа в разных науках активно используется для компактного представления, анализа, обобщения и интерпретации данных наблюдения и эксперимента.

Использование статистических методов в лингвистике не является простой процедурой. Эти две науки требуют «приспособления» друг к другу. Адаптация статистического метода к решению филологических проблем осуществляется в двух направлениях:

- лингвистическое переосмысление статистических категорий (выборка, корреляция и др.);

- статистическое переосмысление лингвистических категорий («язык», «речь», «текст» и др.).

Использование метода статистического анализа требует от лингвиста владения как лингвистической проблематикой, так и аппаратом математической статистики.
Лабораторная работа № 12-13. ^ Лингвостатистический метод.
В основе создания лингвостатистического метода лежит представление о том, что наука достигает совершенства лишь тогда, когда использует точные математические методы.

Теоретическое обоснование методов количественного анализа и создание алгоритмов их практического применения в лингвистике – это предмет особой отрасли науки о языке, получившей название лингвостатистики.

Суть лингвостатистического метода заключается в установлении количественных изменений, вызывающих качественные преобразования языковых явлений. Благодаря использованию математических методов исследования языка в рамках лингвостилистики было выявлено, что частота появления тех или иных языковых элементов в речи подчиняется определенным статистическим законам (закономерностям). Это позволяет на основе статистических данных сформулировать определенные закономерности функционирования единиц языка и построения текста.

Лингвостатистический метод широко применяется в современной лексикологии и стилистике. Он используется для изучения как явлений языка, так и явлений речи. Например, с помощью лингвостатистического метода лингвисты изучают количественные характеристики словарного состава в разных стилевых и авторских разновидностях речи. В результате лингвостатистического изучения языка появились частотные словари.

Количественное описание подъязыков науки и техники используется для автоматической обработки языковой информации (создания информационно-поисковых систем), а также в методике преподавания языков.
2.5. Методические обеспечение самостоятельной работы студентов

На самостоятельную работу студентов в течение семестра отводится 46 часов.

Тема 1. Прикладная лингвистика как научное направление (5 часов).
Тема 2. Компьютерная лингвистика как одно из направлений прикладной лингвистики (5 часов).
Тема 3. Компьютерные словари (9 часов).
Тема 4. Системы компьютерного перевода (9 часов).
Тема 5. Математическое моделирование в лингвистике: метод статистического анализа (9 часов).

Тема 6. Лингвостатистический метод и его особенности (9 часов).
^ 2.6. Оценочные средства для текущего контроля успеваемости, промежуточной аттестации по итогам освоения дисциплины
2.6.1. Организация текущего контроля
1) На лабораторных занятиях оценивается работа студентов на местах при самостоятельном выполнении упражнений. Критериями оценок являются познавательная активность студента при выполнении задания, наличие необходимых знаний и умений. Содержание заданий и упражнений определяется планом проведения лабораторного занятия.

2) На каждом лабораторном занятии студенты получают задание на самостоятельную работу, цель которой закрепить отрабатываемые на занятии умения. Содержание этого задания определяется планом проведения лабораторного занятия. Регулярно проверяется ее выполнение, периодически в начале следующего лабораторного занятия может быть проведена проверочная работа (на оценку, без предупреждения студентов о предстоящем проведении проверочной работы) по заданиям, входящим в содержание самостоятельной работы. Цель таких проверочных работ – обеспечить регулярное выполнение студентами самостоятельной работы по отработке практических умений по дисциплине.

3) Периодически в начале лекции может проводиться короткий письменный опрос студентов по основным понятиям, рассмотренным на предыдущей лекции (о проведении такого опроса лектор предварительно предупреждает студентов), в том числе в тестовой форме. Цель опросов – обеспечить регулярную подготовку студентов к лекциям, последовательное закрепление основных теоретических фактов курса.

4) В ходе изучения дисциплины студенты (по желанию) могут выполнить творческий инициативный проект, оценка которого осуществляется в рамках балльно-рейтинговой системы. Деятельность по выполнению проекта может приобрести научно-исследовательский характер, в этом случае результатом становится выступление с докладом на студенческой научной конференции, публикация результатов, участие в студенческом конкурсе. Цель выполнения проектов – индивидуализация обучения, раскрытие творческого потенциала студентов, формирование навыков исследовательской работы. Время на выполнение проекта выделяется в рамках времени на СРС по соответствующей теме, т.е. студент может быть освобожден от выполнения отдельных заданий на СРС по этой теме.
1   2   3   4

Похожие:

Учебно-методический комплекс по дисциплине дв 2 Компьютерные технологии в лингвистических исследованиях iconУчебно-методический комплекс по дисциплине « В. 3»
Учебно-методический комплекс (далее умк) по дисциплине «Профессиональные компьютерные программы» разработан в соответствии с требованиями...
Учебно-методический комплекс по дисциплине дв 2 Компьютерные технологии в лингвистических исследованиях iconУчебно-методический комплекс по дисциплине « В. Од. 2»
«Компьютерные технологии в науке и образовании» разработан в соответствии с требованиями фгос впо (федеральный компонент) к обязательному...
Учебно-методический комплекс по дисциплине дв 2 Компьютерные технологии в лингвистических исследованиях iconУчебно-методический комплекс курс по выбору по дисциплине « дв4»
Учебно-методический комплекс по дисциплине " Технические и аудиовизуальные средства обучения"
Учебно-методический комплекс по дисциплине дв 2 Компьютерные технологии в лингвистических исследованиях iconУчебно-методический комплекс по дисциплине д 2 «Компьютерные сети»
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
Учебно-методический комплекс по дисциплине дв 2 Компьютерные технологии в лингвистических исследованиях iconУчебно-методический комплекс по дисциплине « Б2»
Учебно-методический комплекс (далее умк) по дисциплине «Информатика» разработан в соответствии с требованиями фгос впо к обязательному...
Учебно-методический комплекс по дисциплине дв 2 Компьютерные технологии в лингвистических исследованиях iconУчебно-методический комплекс по дисциплине «Информатика»
Учебно-методический комплекс по дисциплине «Использование современных информационных и коммуникационных технологий» разработан в...
Учебно-методический комплекс по дисциплине дв 2 Компьютерные технологии в лингвистических исследованиях iconУчебно-методический комплекс по дисциплине «Информатика»
Учебно-методический комплекс по дисциплине «Использование современных информационных и коммуникационных технологий» разработан в...
Учебно-методический комплекс по дисциплине дв 2 Компьютерные технологии в лингвистических исследованиях iconУчебно-методический комплекс по дисциплине « дв6»
Учебно-методический комплекс по дисциплине " Технические и аудиовизуальные средства обучения"
Учебно-методический комплекс по дисциплине дв 2 Компьютерные технологии в лингвистических исследованиях iconУчебно-методический комплекс по дисциплине « дв12»
Учебно-методический комплекс по дисциплине " Технические и аудиовизуальные средства обучения"
Учебно-методический комплекс по дисциплине дв 2 Компьютерные технологии в лингвистических исследованиях iconУчебно-методический комплекс по дисциплине « дв6»
Учебно-методический комплекс по дисциплине " Технические и аудиовизуальные средства обучения"
Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2014
shkolnie.ru
Главная страница