Екстракція структурованих даних з Web-ресурсів

Автор(и)

  • Світлана Ігорівна Шаповалова доцент кафедри автоматизації проектування енергетичних процесів і систем НТУУ «КПІ», Ukraine

DOI:

https://doi.org/10.20535/1560-8956.21.2012.30683

Ключові слова:

Web-системи, екстракція даних, асинхронні запити, MongoDb

Анотація

В статті запропоновано опис і обґрунтування програмного інструментарію на основі асинхронних можливостей платформи .NET та динамічної структури бази даних MongoDb для екстракції даних з Web-ресурсів в форматі HTML. Проведено аналіз методів  і засобів вирішення задачі екстракції Web-контенту. Обґрунтовано використання ASP.NET MVC для вирішення завдання конфігурування програмного інструментарію, методу аналізу DOM дерева для завдання парсингу, MongoDB для вирішення завдання збереження даних. Інструментарій може використовуватися в корпоративних системах агрегування даних.

Посилання

WebHarvy // WebHarvy. [2011—2013]. Дата оновлення: 17.01.2013. URL: http://www.webharvy.com (дата звернення: 27. 03.2013).

WebSundew // WebSundew. [2005—2013]. Дата оновлення: 24.03.2013. URL: http://www.websundew.com (дата звернення: 27.03.2013).

Бэнкер К. MongoDB в действии. / Пер. с англ. Слинкина А. А. - М.: ДМК Пресс, 2012. - 394с. – Москва, 2012 – С. 394.

Bibeault B., Katz Y. jQuery in Action, Second Edition // O’Reilly Media, Inc. — 2010. — CT 06901. — P. 488.

Рихтер Д. CLR via С#. Программирование на платформе Microsot .NET Framework 4.0 на языке С#. 3-е изд // Джеффри Рихтер — СПб.: Питер, 2012. —928 с.

Freeman A. Pro .NET 4 Parallel Programming in C# // Adam Freeman. – 2010. — P. 295.

Фримен Э., Сьерра К., Бейтс Б. Паттерны проектирования // Фримен Э., Сьерра К., Бейтс Б. — СПб.: Питер, 2011. — 656 е.: ил.

##submission.downloads##

Опубліковано

2012-11-22