Специалисты исследовательского центра компании Xerox во Франции разработали поисковую систему нового типа, которая, как ожидается, позволит существенно повысить эффективность отбора нужной информации из большого объема текстовых документов.
Программный комплекс Xerox получил название FactSpotter. Система пытается проанализировать содержимое документа, а не просто выдать список результатов в соответствии с заданными ключевыми словами. FactSpotter, например, способен определить, что словосочетания "Билл Гейтс" и "основатель Microsoft" внутри одного и того же документа, вероятнее всего, указывают на одного человека. При этом система FactSpotter также должна "понимать", что фразы "Билл Гейтс сказал..." и "Друг Билла Гетса сказал..." указывают на высказывания различных людей.
Как сообщает InfoWorld, в основу FactSpotter положен специальный метаязык, описывающий особенности грамматики. Сама система написана на языке С, а благодаря дополнительным модулям на основе Java и Python комплекс FactSpotter может взаимодействовать с другими приложениями. Поисковик, в частности, может быть совмещен со средствами распознавания речи для анализа аудиоданных.
Систему FactSpotter планируется интегрировать в программное обеспечение e-Discovery, предназначенное для юристов и судебных экспертов. Предполагается, что благодаря комплексу FactSpotter сотрудники следственных органов смогут гораздо более быстро анализировать большие объемы документов, электронных писем и прочих файлов, которые могут иметь отношение к рассматриваемому делу. В перспективе, возможно, FactSpotter найдет применение и в других областях.