Слайд 2
Поиск экспертов и извлечение компетенций
Задачи не имеют четкой
постановки, так как существуют различные определения, что такое компетенции.
В одних работах это область интересов человека (+ уровень компетентности в каждой)
В других это навыки человека (что конкретно умеет делать, выражается отглагольным существительным)
Что часто понимают под компетенциями
Область знания (управление рисками, формальная логика)
Инструментальное средство (среда SPSS, пакет Matlab)
Модель, теория, понятие (модель Эрроу-Дебре, дефлятор ВВП)
Умение, навык (обработка древесины, разработка под iOS)
Слайд 3
Источники
Balog, K and others: Expertise Retrieval, (2012). State-of-the-Art
overview
TREC Enterprise Track [Balog et al., 2008]
Expert finding
on DBLP data [Deng et al., 2008]
Fang, H., Zhai, C.: Probabilistic models for expert finding. Advances in Information Retrieval. (2007).
Serdyukov, P., Hiemstra, D.: Modeling documents as mixtures of persons for expert finding. (2008).
Fomichov, V.: Semantics-Oriented Natural Language Processing (2009).
Wei, X., Croft, W.B.: LDA-based document models for ad-hoc retrieval. (2006).
Momtazi, S., Naumann, F.: Topic modeling for expert finding using latent Dirichlet allocation, (2013).
Baroni, M., Lenci, A.: Distributional memory: A general framework for corpus-based semantics, (2010).
Thomas L. Griffiths, Mark Steyvers: Finding scientific topics, (2004).
Thomas Minka, John Lafferty: Expectation-propagation for the generative aspect model. (2002).
Слайд 4
Поиск экспертов и извлечение компетенций
Поиск экспертов
Дано: компетенции
Найти: эксперта
удовлетворяющего требованиям
Извлечение компетенций
Дано: эксперт и результат его деятельности
Найти: какими
компетенциями обладает эксперт
Слайд 5
Извлечение компетенций. Приложения
Системы управления компетенциями
Управления знаниями на
предприятии
Составление профиля сотрудника
Выбор рецензента для проекта или статьи
Рекомендательные системы
для выбора
работы
претендента
веб сайтов, блогов, статей
Слайд 6
Извлечение компетенций –
сложная задача
Слайд 7
Извлечение компетенций
Kivimki I., Panchenko A., Dessy A., Verdegem
D., Francq P., Bersini H. and Saerens M. "A
Graph-Based Approach to Skill Extraction from Text". In Proceedings of the 8thWorkshop TextGraphs-8 Graph-based Methods for Natural Language Processing. EMNLP 2013: Conference on Empirical Methods in Natural Language Processing. Seattle, USA, October 18-21, 2013
http://aclweb.org/anthology/W/W13/W13-5011.pdf
Слайды Alexander Panchenko www.slideshare.net/alexanderpanchenko/presentations
Слайд 8
Извлечение компетенций
Цель работы системы:
Сопоставить профессиональные компетенции с людьми
на основе текстов, которые те пишут (электронная почта, блоги,
форумы, статьи и так далее).
Инструменты:
Список компетенций извлеченный из LinkedIn.
Компетенции связанные ссылками со страницами Википедии.
Метод:
1 Найти страницу Википедии релевантную входному документу
2 Использовать активизацию широкой сети на сети ссылок Википедии, чтобы найти компетенции, близкие или центральные для релевантных страниц.
Слайд 9
Извлечение компетенций системой Elisit
Исследуется извлечение компетенций из текста,
то есть ассоциация компетенций с текстовым документом.
Что тут называется
компетенциями? То, что называется «Skills» в системе Linkedin
Метод: Нахождение страницы Wikipedia релевантной профилю и Spreading activation на сети ссылок между страницами
Слайд 10
Оценка работы системы
Производится оценка того, на сколько хорошо
система находит компетенции, отмеченные в LinkedIn
Слайд 11
Оценка работы системы
Например, если брать топ 5 наиболее
часто активируемых компетенций (из 27000) встречаются 1-2 релевантные компетенции
из <=20 отмеченных.
Слайд 12
Поиск экспертов
Человек может сам может не знать до
конца своих способностей
Слайд 13
Профилеориентированный метод
Формируется профиль эксперта, объединяющий все написанные им
тексты
По профилю строится языковая модель персоны
Кандидат представляется в виде
многомерной функции распределения терминов в словаре.
По входному запросу определяется наиболее вероятная модель персоны, для генерации запроса
Слайд 14
Поиск экспертов
Candidate Generation Models
P(d|q) – вероятность на сколько
документ d релевантен
запросу q
Слайд 15
Использование семантического анализа для поиска специалистов
Semantics-Oriented Natural Language
Processin. Vladimir A. Fomichov (2012)
Usage of Semantic Analysis of
Texts for Finding Specialists with Required Competencies. Igor V. Zakhlebin (2014)
Используется профиле-ориентированный подход
Слайд 16
Использование семантического анализа для поиска специалистов
Предложен метод семантического
поиска специалистов по набору составленных ими текстов
В систему загружаются
тексты: анкеты, резюме, проф. переписка, статьи и т.п.
Для поиска пользователь вводит запрос определенной структуры (прил + сущ, сущ + сущ,)
Система ищет специалистов, у которых в связанных с ними текстах присутствуют релевантные словосочетания. Чем большему числу критериев удовлетворяет специалист, тем выше он располагается в ранжировании.
Слайд 17
Построение семантического представления (СП)
Выделение морфологических признаков и лексемы
К
существительным применяется лексико-семантический словарь
По начальной форме сопоставляются семантические значения
(sem) и набор характеристик или сортов (st)
К существительным применяется семантико-синтаксические шаблоны. Prep – предлог, Grc – падеж Rel – отношение.
В результате выполнения алгоритма формируется СП фрагмента текста – ориентированное дерево, в вершинах которых находятся Sem и ребра заданы Rel. (Триплеты Sem Rel Sem)
Слайд 18
Пример построения семантического представления (СП)
Слайд 19
Документоориентированный метод
Входной запрос сравнивается сначала с документом, а
через него ассоциируется с автором
Формируем набор признаков для документа
Новый
объект классифицируем по методу ближайшего соседа (k соседей)
При этом признаки документов могут быть всевозможными:
TF-IDF
LogEntropy
LSA
LDA
Слайд 20
Документо-ориентированный метод
Слайд 21
Person-Centric Expert Finding
Человеко-ориентированный метод может быть рассмотрен как
гибридный метод, объединяющий параметры документо-ориентированного и профиле-ориентированного метода.
Ключевое
допущение состоит в том, что уровень экспертизы может быть определен как совокупность ранжированных документов относящихся к персоне.
Слайд 22
Поиск экспертов на основе скрытых топиков
Цель: поиск экспертов
для
формирования проектных команд
рецензирования проектов и статей
Экспертных оценок и комментариев
Методология: Topic modeling for expert finding using latent Dirichlet allocation.
Saeedeh Momtazi and Felix Naumann (2013)
Слайд 23
Поиск экспертов на основе скрытых топиков
LDA модель
Распределение вероятности
слов по топикам:
Распределение вероятностей топиков по документам в коллекции
Идея
метода состоит в том, чтобы рассматривать экспертов не отдельно от вероятностной модели LDA, а непосредственно внутри ее, так как имена экспертов это тоже слова
Слайд 24
Поиск экспертов на основе скрытых топиков
Запрос Q обозначим
как do - новый документ, Используя обученную модель LDA
можем построить для него распределение вероятностей по топикам
Слайд 25
Применение модели
Оценка точности работы алгоритма – порядка 0.3
на основе базы TREC 08
Для русского языка апробация с
использованием корпоративной базы публикаций сотрудников НИУ ВШЭ