УЗНАЙ ЦЕНУ

(pdf, doc, docx, rtf, zip, rar, bmp, jpeg) не более 4-х файлов (макс. размер 15 Мб)


↑ вверх
Тема/ВариантПолнотекстовый поиск для системы Aworks
ПредметПрограммирование
Тип работыкурсовая работа
Объем работы22
Дата поступления12.12.2012
890 ₽

Содержание

АННОТАЦИЯ 3 1. ВВЕДЕНИЕ 3 1.1. ОПИСАНИЕ ПРЕДМЕТНОЙ ОБЛАСТИ 3 1.1.1. Проблема полнотекстового поиска в файлах различных типов 3 1.1.2. Полнотекстовый поиск в системе AWorks 3 1.2. НЕФОРМАЛЬНАЯ ПОСТАНОВКА ЗАДАЧИ 4 1.3. ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ 4 1.3.1. Аналогичные (конкурирующие) решения 4 1.3.2. Описание предшествующих работ 6 1.3.3. Вывод 7 1.4. ПЛАН РАБОТЫ 7 2. ТРЕБОВАНИЯ К ОКРУЖЕНИЮ 8 2.1. ТРЕБОВАНИЯ К АППАРАТНОМУ ОБЕСПЕЧЕНИЮ 8 2.2. ТРЕБОВАНИЯ К ПРОГРАММНОМУ ОБЕСПЕЧЕНИЮ 8 2.3. ТРЕБОВАНИЯ К ПОЛЬЗОВАТЕЛЯМ 8 2.4. ОРГАНИЗАЦИОННЫЕ ТРЕБОВАНИЯ 8 3. АРХИТЕКТУРА СИСТЕМЫ 9 4. СПЕЦИФИКАЦИЯ ДАННЫХ 10 4.1. ОПИСАНИЕ ФОРМАТА ИЛИ СТРУКТУРЫ ДАННЫХ 10 4.1.1. Формат входных данных 10 4.1.2. Внутренний формат данных 10 4.2. ОПИСАНИЕ СУЩНОСТИ 11 5. ФУНКЦИОНАЛЬНЫЕ ТРЕБОВАНИЯ 11 5.1. ТРЕБОВАНИЯ К СЕРВИСАМ ИНДЕКСАЦИИ И ПОИСКА 11 6. ТРЕБОВАНИЯ К ИНТЕРФЕЙСУ 12 7. ПРОЧИЕ ТРЕБОВАНИЯ 12 7.1. ТРЕБОВАНИЯ К НАДЁЖНОСТИ 12 7.2. ТРЕБОВАНИЯ К ПРОИЗВОДИТЕЛЬНОСТИ 12 7.3. ТРЕБОВАНИЯ К ПРАВАМ ДОСТУПА 12 8. ПРОЕКТ 13 8.1. СРЕДСТВА РЕАЛИЗАЦИИ 13 8.2. МОДУЛИ И АЛГОРИТМЫ 14 8.3. СТРУКТУРЫ ДАННЫХ 16 8.4. ПРОЕКТ ИНТЕРФЕЙСА 17 В СИЛУ ТОГО, ЧТО СИСТЕМА ВНЕДРЯЕТСЯ В СИСТЕМУ AWORKS, ТО ИНТЕРФЕЙС ОБРАБОТКИ ПОИСКОВЫХ ЗАПРОСОВ ПОЛНОСТЬЮ ИДЕНТИЧЕН ИНТЕРФЕЙСУ КОНЕЧНОЙ СИСТЕМЫ (СМ. РИС 2). 17 9. РЕАЛИЗАЦИЯ И ТЕСТИРОВАНИЕ 17 ЗАКЛЮЧЕНИЕ 18 СПИСОК ЛИТЕРАТУРЫ 19 ПРИЛОЖЕНИЕ 1 20 ПРИЛОЖЕНИЕ 2 22

Введение

Аннотация Разрабатываемая система – UNIX ориентированная система организации полнотекстового поиска среди файлов популярных форматов (doc, rtf, ppt, pdf, html, xls), как в обычном виде, так и внутри rar, zip и 7z архивов. Основной акцент сделан на высокой производительности и минимальной затрате ресурсов. 1. Введение 1.1. Описание предметной области 1.1.1. Проблема полнотекстового поиска в файлах различных типов В процессе работы и развития электронно-вычислительных систем на их базе создается и хранится различное число всевозможных видов данных. Тем самым для подавляющего числа систем становится актуальной проблема эффективного поиска нужной информации. В настоящее время все многообразие электронных данных представляет собой файлы различных типов и назначения. Что заметно усложняет отмеченную проблему за счет того, что алгоритмы получения необходимой информации из файлов отличны для каждого типа в отдельности. Один из распространенных вариантов организации эффективного полнотекстового поиска по файлам заключается в предварительном индексировании каждого файла [16], как расположенного локально, так и удаленно (например, WEB-страницы [5]) Данный вариант зачастую дает ощутимый прирост в скорости поиска при сравнительно малой ресурсопотребляемости, что немаловажно для систем, скорость для которых – один из главных параметров. К таковым можно отнести WEB-системы. 1.1.2. Полнотекстовый поиск в системе AWorks Система учета и хранения студенческих работ AWorks [18] Института Математики и Компьютерных Наук ДВГУ – WEB-система, база данных которой постоянно пополняется новыми работами. На данный момент в AWorks отсутствует полнотекстовый поиск. Что лишает пользователей системы возможности поиска работ по ключевым фразам. Подобный вид поиска немаловажен, так как зачастую заранее неизвестно название работы, имя автора, тема, год создания и так далее. Потому, существует реальная необходимость организовать эффективную систему полнотекстового поиска и внедрить ее в систему AWorks, учитывая тот факт, что количество работ растет с каждым учебным семестром.

Литература

Список литературы [1] Aksyonoff A. Sphinx 0.9.8.1 reference manual, 2008, http://sphinxsearch.com/docs/ [2] atool home, http://www.nongnu.org/atool/ [3] Christiansen T, Torkington N. Perl Cookbook, 2nd Edition, August 2003 [4] CNSearch - поисковая система для сайтов, http://www.cn-software.com/ru/cnsearch/, 2008 [5] Dipcompany.com – студия веб дизайна Индексация страниц и разделов сайта поисковыми роботами Яндекс, http://www.dipcompany.com/texts/news8ot0.html [6] Extensible Markup Language (XML) 1.0 (Fifth Edition), W3C Recommendation, http://www.w3.org/TR/2008/REC-xml-20081126/26, 26.11.2008 [7] Man page of catdoc - Debian GNU/Linux Documentation, http://www.debian-doc.org/man/1/c/catdoc.html, 2008 [8] pdftotext(1) - Linux man page, http://linux.die.net/man/1/pdftotext [9] Proc::Daemon - Run Perl program as a daemon process - search.cpan.org, http://search.cpan.org/~ehood/Proc-Daemon-0.03/Daemon.pm [10] Proc::PID::File - a module to manage process id files - search.cpan.org, http://search.cpan.org/~ecalder/Proc-PID-File-1.24/File.pm [11] SearchInform - the best full-text-indexer software. Desktop and Corporate Full Text Search Engine, Information and Data Retrieval, Full Text Search, Web Search, http://www.searchinform.com, 2006 [12] SourceForge.net: 7-Zip, http://sourceforge.net/projects/sevenzip/ [13] Sphinx::Search - Sphinx search engine API Perl client - search.cpan.org, http://search.cpan.org/~jjschutz/Sphinx-Search-0.19/lib/Sphinx/Search.pm [14] SWISH++. Simple Web Indexing System for Humans: C++ version, http://homepage.mac.com/pauljlucas/software/swish/, 2002 [15] The CPAN Search Site - search.cpan.org, http://search.cpan.org/~rudenko/Lingua-DetectCyrillic-0.02/DetectCyrillic.pm [16] Гарскова И. М. Проблемы индексирования и поиска тематических электронных ресурсов, Москва, Исторический Департамент. [17] Жарко В. А. Разработка системы управления централизованной индексацией файлов, курсовая работа, Апрель 2007 [18] Кафедра информатики, http://imcs.dvgu.ru/works/about.html [19] Краткое описание проекта Solarix Intellectronix - поисковая машина, http://www.solarix.ru/fulltext-search-tool-ru.shtml, 2008 [20] Официальный сайт Debian, http://debian.org [21] Поисковая утилита FAIND: управление индексной базой, http://www.solarix.ru/for_users/download_them/faind/index-db.shtml#indexer, 2008
Уточнение информации

+7 913 789-74-90
info@zauchka.ru
группа вконтакте