Примерно 4 000 лет назад древняя цивилизация, жившая в долине реки Инд (современные Индия и Пакистан), составляла 10 процентов населения Земли. Хотя об этой группе людей сохранилось мало записей, археологи обнаружили, что они были достаточно развиты, чтобы иметь собственную письменность, которую до сих пор не удалось расшифровать.
Известный как письменность долины Инда, загадочный текст десятилетиями озадачивал учёных, лингвистов и даже криптографов. Всего несколько сотен символов были классифицированы, поскольку исследователи так и не нашли ключ для расшифровки этого неизвестного языка.
Последние достижения в области искусственного интеллекта, включая большие языковые модели, такие как ChatGPT, могут позволить получить новые сведения о древних цивилизациях.
Хотя цивилизация долины Инда была официально обнаружена в 1920-х годах, первые фрагменты её письменности были найдены лишь в 1999 году. На печатях, керамике и даже костях были начертаны странные символы, сопровождаемые фигурами животных. Эти сложные надписи делали открытие ещё более заманчивым, а секреты этого сложного общества - недосягаемыми.
"Письмена помогут нам многое узнать об этой древней цивилизации, их образе жизни и знаниях о мире. Всё это - закрытая информация, к которой у нас сейчас нет доступа.", - говорит Сатиш Паланиаппан, учёный в области прикладного машинного обучения из Microsoft.
Разгадка письменности долины Инда
Сатиш Паланиаппан - один из многих исследователей, использующих алгоритмы искусственного интеллекта для того, чтобы попытаться расшифровать письменность. Вместе с коллегой он разработал алгоритм для выявления похожих символов в тексте, ища закономерности в частоте символов (согласно недавно опубликованной работе в журнале PLOS). Затем учёные могут использовать эти частоты символов для создания ключа для расшифровки.
Фото: cyrillitsa.ru
Другие древние языки, например, древнеегипетский, были расшифрованы с помощью многоязычного ключа - Розеттского камня. В этом случае камень соединил уже расшифрованную речь (греческий алфавит) с нерасшифрованной (египетские иероглифы), что позволило археологам расшифровать неизвестный язык. Но поскольку в языке долины Инда отсутствует многоязычный ключ, это заставляет таких исследователей, как Паланиаппан, творчески подходить к поиску связей между письменностью долины Инда и другими языками.
"Благодаря последним достижениям в области обработки человеческого языка, особенно с помощью больших языковых моделей, таких как ChatGPT-3 и ChatGPT-4, мы можем попытаться уточнить или предоставить больше контекста для языков, которые, как мы считаем, произошли от письменности долины Инд, например, письменности Брахми, и посмотреть, смогут ли эти генеративные модели проявить творческий подход и понять, что означает каждый символ и как они вписываются в структуру языка", - говорит он.
Аналогичным образом Питер Ревесс, профессор информатики в Университете Небраски-Линкольна, пытается связать письменность долины Инда с другими языками. Как и Паланиаппан, Ревесс вместе со студенткой Шрути Даггумати сгруппировал символы в письме долины Инда и сравнил их с похожими символами в письме Брахми и финикийском алфавите, корни которого уходят в минойскую культуру. В работе 2018 года Ревесс и Даггумати используя алгоритм ИИ обнаружили, что знаки письма долины Инд похожи на некоторые символы финикийского алфавита с вероятностью 90%.
"Мы можем думать об этом как о версии Шёлкового пути бронзового века", - говорит Ревесс, подчёркивая связь между двумя культурами. "Возможно, что использование весов, гирь и письменности распространилось через эти торговые пути. Следовательно, письменность долины Инда и линейная письменность А могут быть связаны. Я разрабатываю алгоритмы искусственного интеллекта, которые помогут исследовать эту возможность, что станет ключом к расшифровке письма долины Инда".
Расшифровка манускрипта Войнича
В отличие от письменности долины Инд, загадочный позднесредневековый текст, известный как "Манускрипт Войнича", предлагает археологам и лингвистам множество символов для анализа. Написанный около 600 лет назад, 240-страничный текст написан с использованием 25-30 неизвестных букв и знаков.
Наряду с текстом на страницах рукописи имеется 126 красочных иллюстраций растений, 124 из которых были идентифицированы на основании строения цветка, листа или корня растения. Аналогичный процесс ещё предстоит проделать с текстом манускрипта, который ставит в тупик криптографов и лингвистов с момента его обнаружения в 1912 году.
"Расшифровка рукописи Войнича может дать некоторое историческое представление о средневековой жизни", - говорит Кевин Найт, бывший профессор информатики в Университете Южной Калифорнии. "Но не это побуждает людей пытаться расшифровать её. Они делают это принимая интеллектуальный вызов. Было бы здорово стать первым человеком за 500 лет, который прочитает и поймёт такой загадочный документ".
Может ли ИИ расшифровать эти древние тексты
Найт и другие учёные считают, что "Манускрипт Войнича" был написан как шифр, возможно, даже как анаграмма, что делает её расшифровку ещё более загадочной. По мнению Найта, именно здесь может помочь алгоритм искусственного интеллекта.
«Если я покажу вам длинный шифр, вы можете заметить, что за "P" всегда следует "D"», - говорит Найт. «Вы можете догадаться, что "P" и "D" означают "Q" и "U" соответственно, потому что так происходит в английском языке. Когда вы узнаете, что "D" означает "U", вы можете искать закономерности, связанные с "U". Компьютер может использовать такую логику быстрее и лучше, чем человек».
Однако средневековый язык, зашифрованный в манускрипте Войнича, может быть более старой версией английского, французского или латыни, что делает расшифровку более сложной. Найт продолжает использовать алгоритмы ИИ, чтобы попытаться расшифровать "Манускрипт Войнича".
"Вообще говоря, GPT хорошо справляется с простыми задачами", - говорит Найт. "Например: сложение чисел, перевод предложения, подсчёт слов, написание статьи на любую тему и т.д. Однако он менее хорош в решении сложных головоломок. Но, конечно, будущие версии GPT вполне могут научиться делать подобные вещи".
Манускрипт Войнича и письменность долины Инда - одни из самых сложных языковых головоломок. Поэтому многие учёные во всём мире, несомненно, будут с нетерпением ждать развития ИИ, который может помочь раскрыть тайны этих древних текстов.