Праца па здабычы дадзеных прадугледжвае сканаванне сеткі, выкарыстоўваючы такія інструменты, як Nutch і іншыя адпаведныя праграмы.
Праца таксама ўключае ў сябе мноства вэб-скрабкоў, выкарыстання Python і іншых звязаных з ім інструментаў, клапоцячыся пра розныя сітуацыі - сцэнары, такія як Javascripts або Ajax, выкарыстоўваюцца на сайце.
Вялікі аналіз дадзеных з выкарыстаннем такіх інструментаў, як Hadoop, таксама з'яўляецца часткай гэтай працы.
Мы выкарыстоўваем базу дадзеных MongoDB для большасці нашых мэтаў захоўвання дадзеных. Такім чынам, патрабаванне, каб распрацоўшчык інтэлектуальнага аналізу дадзеных меў добрыя ўмовы выкарыстання аўтаномнага MongoDB і інтэграцыі яго з іншымі праграмамі.
Акрамя іншых MongoDB, праца таксама ўключае ў сябе іншыя вялікія базы дадзеных, якія патрабуюцца для вырашэння праблем.
Праца па здабычы дадзеных таксама ўключае ў сябе чытанне дакументацыі API іншых асоб, а затым інтэграцыю функцыянальнасці ў ўласную праграму кампаніі.
Праца таксама ўключае ў сябе напісанне кадавання на аснове статыстычных канцэпцый, таму распрацоўшчык здабычы дадзеных, як чакаецца, будзе мець добрае веданне статыстыкі.
Яшчэ адным патрабаваннем любога кандыдата, які прэтэндуе на гэтую працу, з'яўляецца веданне праграмнага забеспячэння для кантролю версій, як Git, і звязаных з імі тэм, паколькі мы шырока іх выкарыстоўваем.
Версія Linux Ubuntu выкарыстоўваецца ў нашай кампаніі для распрацоўкі праграмнага забеспячэння. Такім чынам, вы, як чакаецца, будуць вельмі знаёмыя, выкарыстоўваючы яго.
Вы не павінны ведаць усе тэмы, згаданыя вышэй. Але вы павінны былі, па меншай меры, Python-кодэр на працягу некаторага часу, каб пераканацца, што вы сапраўды захопленыя распрацоўшчыкам здабычы дадзеных.
Калі вас цікавіць вышэйзгаданае апісанне нашай працы па адкрыцці дадзеных, звярніцеся да яе ніжэй.