Екстракція структурованих даних з Web-ресурсів
DOI:
https://doi.org/10.20535/1560-8956.21.2012.30683Ключові слова:
Web-системи, екстракція даних, асинхронні запити, MongoDbАнотація
В статті запропоновано опис і обґрунтування програмного інструментарію на основі асинхронних можливостей платформи .NET та динамічної структури бази даних MongoDb для екстракції даних з Web-ресурсів в форматі HTML. Проведено аналіз методів і засобів вирішення задачі екстракції Web-контенту. Обґрунтовано використання ASP.NET MVC для вирішення завдання конфігурування програмного інструментарію, методу аналізу DOM дерева для завдання парсингу, MongoDB для вирішення завдання збереження даних. Інструментарій може використовуватися в корпоративних системах агрегування даних.
Посилання
WebHarvy // WebHarvy. [2011—2013]. Дата оновлення: 17.01.2013. URL: http://www.webharvy.com (дата звернення: 27. 03.2013).
WebSundew // WebSundew. [2005—2013]. Дата оновлення: 24.03.2013. URL: http://www.websundew.com (дата звернення: 27.03.2013).
Бэнкер К. MongoDB в действии. / Пер. с англ. Слинкина А. А. - М.: ДМК Пресс, 2012. - 394с. – Москва, 2012 – С. 394.
Bibeault B., Katz Y. jQuery in Action, Second Edition // O’Reilly Media, Inc. — 2010. — CT 06901. — P. 488.
Рихтер Д. CLR via С#. Программирование на платформе Microsot .NET Framework 4.0 на языке С#. 3-е изд // Джеффри Рихтер — СПб.: Питер, 2012. —928 с.
Freeman A. Pro .NET 4 Parallel Programming in C# // Adam Freeman. – 2010. — P. 295.
Фримен Э., Сьерра К., Бейтс Б. Паттерны проектирования // Фримен Э., Сьерра К., Бейтс Б. — СПб.: Питер, 2011. — 656 е.: ил.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.
3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.