0:00
[МУЗЫКА]
[МУЗЫКА] [МУЗЫКА] С ростом
информации важнейшей задачей становится управление объемом данной информации.
Информационная маршрутизация, фильтрация, идентификация нежелательных материалов,
структурированный поиск / просмотр, идентификация темы и многое другое — это
все актуальные задачи управления информацией.
Исследование поиска информации занимается разработка алгоритмов и
моделей для извлечения информации из коллекции документов.
Поиск информации можно рассматривать как естественную подзадачу обработки
естественного языка.
Поскольку он относится к конкретному применению обработки естественного языка.
В режиме поиска пользователь вводит запрос, описывающий требуемую информацию,
а затем система возвращает список документов.
Существует две основные модели: это так называемые точные системы и системы
ранжирования.
Опишем здесь подход к автоматическому индексированию и поиску.
Он предназначен для преодоления фундаментальной проблемы,
которая наносит вред существующим методам поиска,
которые пытаются сопоставить слова запроса со словами документов.
Проблема заключается в том,
что пользователи хотят получать семантически выверенную информацию.
А подходы, основанные на поиске по отдельным словам, являются ненадежными.
Обычно существует много способов выразить данную концепцию.
Поэтому буквальные термы в запросе пользователя могут не
соответствовать таковым в соответствующем документе.
Кроме того, необходимо справляться с классическими проблемами,
возникающими в естественных языках, такими, как синонимы и омонимы.
Синонимия относится к случаю, когда два разных слова имеют одинаковое значение,
и поскольку представление векторного пространства не позволяет нам
зафиксировать взаимосвязь между синонимичными термами.
Следовательно, вычисленное сходство между запросом и документом,
содержащим данный синоним, недооценивает истинное сходство данных документов.
С другой стороны, полисемия относится к случаю,
когда слово имеет несколько значений, так,
что вычисленное сходство между запросом и документом переоценивает данное сходство.
В скрытом семантическом анализе используется разложение по сингулярным
значениям.
Мы берем терм-документную матрицу и строим семантическое пространство,
в котором термы и документы, которые тесно связаны, расположены друг с другом.
Сингулярное разложение позволяет расположить пространство для отражения
основных ассоциативных паттернов в данных и игнорировать меньшие,
менее важные влияния.
Позиция в пространстве затем служит в качестве нового типа семантической
индексации, а поиск продолжается с использованием термов в запросе для
определения точки в пространстве,
а документы в ее окрестностях возвращаются пользователю.
В латентно-семантическом индексировании используется векторная модель семантики,
основанная на совпадении слов.
Предполагается, что слова, которые имеют тенденцию встречаться вместе или
имеют тенденцию встречаться с похожими словами считаются семантически подобными.
Документы рассматриваются как семантически сплоченный набор слов без поддержания
внутренней структуры документа.
Так называемая модель «мешка слов».
Для создания модели LSA сначала создается матричное представление документа,
в которой строки соответствуют словам в словаре, а столбцы — документам.
Каждая запись матрицы представляет собой взвешенную частоту соответствующего члена
в соответствующем документе.
Это взвешивание заключается в уменьшении влияния часто встречающихся терминов,
таких, как «функциональные слова».
Отметим, что скалярное произведение векторов строк является сходство
словосочетаний, а скалярное произведение векторов столбцов — сходство документов.
Любая прямоугольная матрица, в частности терм-документная матрица A,
может быть представлена в виде произведения трех других матриц.
Данное представление вы можете увидеть на формуле,
где матрица U и V — тортгональные матрицы, матрица Σ — это диагональная.
В свою очередь,
матрицу U и V также называют как матрицы левого и правого сингулярных векторов.
А матрица Σ — это диагональная матрица сингулярных значений.
В общем случае сингулярного разложения матрицы U,
Vᵀ и Σ должны иметь полный ранг, однако красота сингулярного разложения
заключается в том, что она позволяет использовать простую стратегию
приближенного соответствия с использованием меньших матриц.
Если сингулярные значения в матрице Σ упорядочены,
можем сохранить только первый k наибольших сингулярных значений,
а остальные мы можем приравнять к нулю.
Произведением результирующих матриц будет являться уже некая новая матрица A с
индексом k, которая приблизительно будет равна исходной терм-документной матрице A,
и при этом она будет иметь ранг, равный k.
Так как мы ввели нули в диагональную матрицу Σ,
то данное представление можно упростить, удалив нулевые строки и столбцы матрицы Σ,
чтобы получить новую диагональную матрицу Σ с индексом k,
а затем удалить соответствующие столбцы из матрицы U и Vᵀ, чтобы получить новые
соответствующие матрицы Uₖ и Vᵀₖ соответственно.
В итоге, мы получаем так называемую сокращенную модель сингулярного
разложения, которая является моделью ранга k с наилучшевозможным
наименьшим квадратом, соответствующий исходной терм-документной матрице A.
Таким образом, слова и документы представлены гораздо более компактно по
сравнению с исходным представлением.
Для лучшего понимания сингулярного разложения полезна геометрическая
интерпретация данного метода.
Геометрическая интерпретация подчеркивает различия
между традиционным векторным подходом и латентно-семантическим анализом.
Модель векторного поиска имеет естественную геометрическую интерпретацию,
как показано на рисунке.
А именно: то есть термы образуют базис, или оси — пространство.
А документы представлены в виде векторов в этом терминальном пространстве.
Причем записи в терм-документной матрице определяют длину и направление данных
векторов.
Заметим, что в этом представлении термы — ортогональны,
поскольку образуют оси пространства.
И важным следствием этого является то, что если документ не содержит данного терма,
то запрос состоящий только из этого терма, приведет к нулевому результату.
Геометрическое представление латентно-семантического анализа
представлено на рисунке.
Оси получены из сингулярного разложения.
Они являются линейными комбинациями термов.
Термы и документы представлены в виде векторов в камерном пространстве LSA.
В этом представлении производные,
индексирующие измерения, являются ортогональными, но термы — нет.
И расположение векторов термов отражает корреляцию между документами.
Важным следствием уменьшения размерности является то, что термы больше не
являются независимыми, и из-за этого запрос может соответствовать документам,
даже если документы не содержат условий данного запроса.
Для анализа текстов важны три сравнения.
А именно: «насколько похожи термы i и j?», «насколько похожи документы i и j?»,
и сравнение термы и документы, то есть «как связаны терм i и документ j?».
В стандартных подходах поиска для таких сравнений используется сравнение двух
строк, столбцов или рассматриваются отдельные ячейки исходной терм-документной
матрицы A.
А здесь осуществляются аналогичные сравнения,
но используется матрица сокращенная — Aₖ.
Как мы отметили ранее,
для задачи поиска информации является важным сравнение таких величин, как термы,
документы, термы и документы, поэтому используя новую сокращенную модель,
нам необходимо получить новые зависимости для сравнения тех или иных характеристик.
Для более подробного ознакомления с этими формулами вы можете обратиться к
материалам для самостоятельного обучения.
Скрытый семантический анализ обладает многими полезными свойствами,
которые делают его широкоприменимым во многих задачах.
А именно: документы и слова у нас теперь принадлежат одному пространству понятий.
И в этом пространстве мы можем кластеризовать документы и слова.
И самое главное — посмотреть, как эти кластеры соотносятся,
и поэтому мы можем получить документы на основе слов и наоборот.
Семантическое пространство значительно меньше размеров по
сравнению с исходной матрицей.
И мало того, но измерения были выбраны специально,
потому что они содержат наибольшую информацию и меньше шум.
Одним из основных преимуществ данного алгоритма в приложениях поиска
и фильтрации информации является то, что документы можно получить,
даже если они не соответствуют запросам.
Однако есть несколько ограничений, которые необходимо учитывать при принятии
решения о том, следует ли использовать данный алгоритм.
А именно: LSA не может эффективно обрабатывать многозначность.
То есть он предполагает, что одно и то же слово имеет ту же семантику.
То есть в каком-то смысле он представляет как бы средневзвешенное значение различных
значений того или одного и того же терма.
LSA сильно зависит от сингулярного разложения,
который является дорогим с вычислительной точки зрения и трудно обновляется
по мере появления новых документов.
Данный алгоритм имеет множество своих приложений.
Одним из примеров его использования на практике можно привести следующий.
В университете в Америке для проверки множества письменных работ
была запущена специальная система, основанная полностью на данном алгоритме.
Суть ее заключалась в следующем: каждый студент присылал свою письменную работу на
сайт университета, и система должна была автоматически выставить оценку.
При этом данной системе был предложен уже ряд работ с оценками, где непосредственно
были проверены рядом преподавателей определенное количество работ.
И на практике показало, что данная система очень неплохо справилась с автоматической
проверкой документов.
Данный алгоритм является первым с точки зрения подхода
семантического анализа текстов и является, наверное,
самым простым для своего понимания и изучения данной проблематики.
С более подробной информацией по данному алгоритму вы можете
познакомиться в материалах для самостоятельного обучения,
где также разобран пример работы данного алгоритма.
Хочу поблагодарить вас за ваше внимание и надеюсь,
что наш материал был полезен для вас.