Ученые говорят, что человеческий мозг - это уникальный когнитивно-аналитический инструмент. Его возможности в познании, оценке и анализе окружающей информации еще очень долго не будут доступны для компьютеров в том же объеме и с тем же качеством. Больше других ученых интересую когнитивные возможности нашего мозга - исследователи хотят понять как наш мозг способен отличать речь от других звуков, классифицировать источник и направление звука.
Физики из Института им Макса Планка в немецком Лейпциге давно работают над системами, позволяющими компьютерам распознавать человеческую речь и транслировать ее в текст, однако успехи исследователей на этой почве были невелики. Сейчас здесь разработана новая математическая модель, способная улучшить автоматические процесс разпознавания и обработки человеческой речи. Авторы методики говорят, что в недалеком будущем такие алгоритмы приблизят машины к человеческому мозгу.
Немецкие инженеры говорят, что многие люди знают, что сложно компьютерам иметь дело с человеческой речью. "Человек, которому приходится общаться с автоматической телефонной системой, должен запастись терпением. Если вы говорите слишком быстро или слишком медленно, если ваше произношение не идеально четкое или если рядом с вами находится источник шума, то система вас не поймет", - говорит Стефан Кибель из Института Макса Планка.
Проблема современных систем распознавания голоса заключается в том, что они очень чувствительны к изменениям. Когда нынешние системы пытаются понять, что говорит человек, то они анализируют свою базу знаний, сравнивают частоты и звуковые комбинации, таким образом пытаясь найти совпадения.
"Очевидно, что наш мозг работает иначе. Мы полагаем, что мозг опирается на временные последовательности. Многие наши мозговые стимулы состоят из временных последовательностей. Музыка и речь являются упорядоченными последовательностями с разной длиной, но иерархически упорядоченные. Полагаем, что наш мозг классифицирует разные сигналы от маленьких и быстро меняющихся компонентов (букв) до больших и медленно меняющихся (тем)", - говорит ученый.
Немецкие ученые говорят, что их исследования доказывают значение информации, разбитой на разные временные уровни восприятия. "Мозг постоянно ищет временные структуры в окружающей среде, чтобы можно было сделать логический вывод о том, что последует дальше. Таким образом, мозг может часто предсказывать следующий звук на основе медленно меняющейся информации", - говорит он.
Иными словами, наш мозг на подсознательном уровне способен как-бы предугадывать слова в зависимости от контекста разговора.
Чтобы проверить эту гипотезу, исследователи создали математическую модель, которая в упрощенном виде имитирует нервные процессы, происходящие для осмысления речи. Нервные процессы были описаны алгоритмами, которые обрабатываются на различных временных уровнях. Модель могла обрабатывать как отдельные звуки речи, так и слоги или слова. Если система делала неверный прогноз о слове или контексте, то модель обнаруживала ошибку.
В качестве языка ученые использовали упрощенную модель из четырех гласных букв а, е, я, о, которые объединялись в слоги. "В первую очередь мы хотели проверить верность самой концепции, в дальнейшем на этой базе можно строить более сложные системы, приближенные к естественному языку", - говорит Кибель.
"С неврологической точки зрения самым важным для нас были реакции, похожие на те, что происходят в головном мозге", - рассказывает ученый.
|