Другое > Hard'n'Soft
Как ограббить сайт?
(1/2) > >>
ToledO:
Ребята, нужна программа позволяющая выкачивать картинки с сайта... Есть сайт, там сканы обложек с разных консолей, прелесть в том что там максимально полное собрание, включая сканы с японских игр. Но вручную каждую картинку сохранять долго и муторно... раньше пользовался программой HTTrack, но с этим сайтом не получилось ее настроить... подскажите годную программку!
Planestranger:
Offline Explorer в помощь. Что угодно выкачивает автоматически. Потом только подобрать из его рабочей директории.
ALEX_230_VOLT:
ну по идее, можно сохранить вэб страницу стандартным Internet Explorer и он создаст к странице папку "название страницы_ files" где и будут все рисунки с этой страницы

P.s. название темы немного странное. я думал будут спрашивать как сделать сайты для выкачивания с посетителей денег  :lol:
GalaxyBot_00:
Только они будут как превьюшки в говно качестве
SILENT_Pavel:

--- Цитата: я ---чтобы легко скопировать сайт типа небольшой вики, нужна утилита Wget Windows версия, отсюда:
http://gnuwin32.sourceforge.net/packages/wget.htm
http://users.ugent.be/~bpuype/wget/
Тут написано на русском как копировать сайт целиком, проверял, работает идеально (все команды с линукса пашут на вин порту):
http://pingvinus.ru/note/wget-download-sites
--- Конец цитаты ---
Lance_K:
Как написать без ошибок? :neznayu:
Skay:
делал в свое время скрипт га php, в интернете полно примеров. но есть одна проблема. при большой активности - могут забанить. так как это прекрасно видно что упорно долбятся на сайт. а с прокси заморачиваться не хочется. ))
если ссылки однотипные, то можно сгенерировать список и скормить wget'у как выше предложили
[pO$]t@L:
У Download master вместе с программой ставится плагин для браузеров, щелкаешь на страницу правой кнопки мышки и в контекстном меню выбираешь "скачать всё" , там отмечаешь тип файлов который хочешь скачать
Planestranger:

--- Цитата: [pO$ ---t@L]там отмечаешь тип файлов который хочешь скачать
--- Конец цитаты ---

Это если ссылки есть. А если тупо картинки в полный рост на странице? А если страниц 500000? На каждой руками кликать? )

Вот сразу видно кучу народа, которая за сутки целый платный порносайт со всеми его многолетними апдейтами и защитами подчистую не вычищала )
sonygod:
lost_hero, Картинки то легко а вот если видео на другом сервере хранится тут уже ничего не сделаешь.
Skay:
а ссылка то на сайт где? :)

Добавлено позже:
sonygod, с картинками тоже не все так просто)) огни могуть быть прямые, внешние, и относительные. (я имею ввиду в хтмлке). если самому писать парсер то не все просто)
roxer:
рекомендую для начала потренироваться на караванах, ну а затем набравшись опыта браться за сайты!  :D
cptPauer:
Пользовался когда-то Teleport Pro. Двое суток выкачивало один форум... Зато выкачало и я уверен, что ценная инфа с него не пропадёт  :)
Вот эта софтина-
https://dl.dropboxusercontent.com/u/41545394/temp/Teleport%20Pro.7z
(не гарантирую, что он работает. Просто этим когда-то пользовался)
Потом всё это дело скомпилировал чем-то в CHM, можно было читать через Firefox с CHM-плагином, вполне нормально.  Остальной софт, от обилия тысяч файлов тупо зависал. Даже винде становилось плохо от того, что в папке лежит тысяч 30 файлов. Если открыть такую папку, Эксплорер вис (может быть и развис бы, через пол часа).

Кстати да, это дело можно заблокировать. Обычно на стороне сервера, в htaccess пописывают правила для блокировки известных грабберов (по крайне мере, я прописывал), ну и надстройки ставятся на движки, которые банят за такую активность, дабы неповадно было. Но это, на самом деле, не часто.
Сам админ может заметить, если виртуальный или частный сервер (а форумы обычно на таких и ставят), что определенный IP тянет много трафа и грузит серв. Но админы ленивые же, как правило, чтобы смотреть статистику и логи, каждый день.

Как админ, добавляешь для такого граббальщика в htaccess, например:
ErrorDocument 403 http://site.ru/403/403.htm
order allow,deny
deny from  188.40.
allow from all
и он больше не побеспокоит (пока не настроит VPN)
SILENT_Pavel:
cptPauer, а что за "скомпилировал чем-то в CHM" - первый раз о таком слышу в применении к телепорт про, который мягко сказать вообще не актуален.

Кстати может ли админ запретить скачивание через консольный вгет разве?
cptPauer:

--- Цитата ---который мягко сказать вообще не актуален
--- Конец цитаты ---
Кого это волнует, если он выполнил то, что от него требовалось? Сграббить vbulletin, в частности.
У меня вообще нет понятия актуальный и неактуальный софт. Есть подходящий и неподходящий, в разной степени.

--- Цитата ---а что за "скомпилировал чем-то в CHM" - первый раз о таком слышу в применении к телепорт про
--- Конец цитаты ---
Термины компиляция и что такое CHM, я думаю, пояснять не нужно, ибо общеизвесты и гугл есть.
CHM же к телепорту не причем. Получилось много страниц и файлов. Мне было удобнее хранить это одим файлом, а не папкой с 30тыс файлов, которые даже копировать будет хрен знает сколько. Обычно, сохраняю отдельную страничку в MHT или Scrapbook, но тут не подходит, файлов же сгенерило тысячи.
В поисках формата, который лучше бы подошёл для "всё-в-одном", я для себя выбрал CHM. Кроссплатформенно, благодаря Firefox+chmfox, просто и сердито. А, при необходимости, можно снова вытащить из него. Кроме того, нашлась утилита, которая без проблем могла упаковать тысячи html в один CHM и не поперхнутся. Это было то, что нужно.
Конечно, я искал варианты с zip, но все они были такими кривыми, что пришлось остановится на CHM. Даже встроенный в Win  CHM-вьювер такое открывал, но на каждой странице ругался на скрипты.
Kyasubaru:

--- Цитата: ToledO от 02 Апрель 2014, 22:56:11 ---Ребята, нужна программа позволяющая выкачивать картинки с сайта...

--- Конец цитаты ---
Через вот эту программу можно грабить ресурсы с сайтов.  Выбираешь в тип загрузки картинки и выкачиваешь.
http://soft.oszone.net/program/358/Internet_Download_Manager/
cptPauer:
Кстати.. Выкачивал я 2 года назад. Тогда, Телепорт.про был еще актуальным. Я несколько софтин попробовал, но вернулся к нему.
Форумы на чем сейчас? Имхо, большинство на Simple Machines, остальные на PHPbb, особенно торрент-трекеры шароварные. Кто побогаче, ставит Vbulletin. Кто техничеки подкованнее, знает английский и любит ковырятся в движке, ставит MyBB. Остальные более редкие.
Всё это отлично граббится, даже старыми прогами. С Vbulletin точно картинки тащились.
Skay:
а мне вот не понравилось как работает телепорт и подобные. ввиду особенности сайта у меня в итоге вышло, что он одни и те же страницы по несколько раз качал (а учитывая что страниц было около 2х500к то размер существенно выростал) благо ссылки были однотипны, запустил цикл с wget переберая адреса(манялись в адресе только цифры). в один поток конечно было долго,  но зато только то что тнужно) и не валилось все в одну папку)
Надо все же сесть, распарсить в базу.  руки никак не дойдут.
sonygod:
А как можно определить где находится видео на сайте платника?. А то есть у меня любимая моделька а сайт у нее платный и видео толи на одном сервере толи совсем на другом. В общем как можно ограбить платники?.
Skay:
поискать на соответствующем трекере/дваче уже собрание видео с моделькой) что есть паки целых сайтов) а так обычно оплачивает кто то акт и уже смотрит структуру страницы и т.д. насилии повезет - можно найти кпк детектить ссыль. тогда выкачиваешь нужные страницы выдираешь ссылки и довнлоадменеджеру кому нибудь кормить.
в общем хз) лучше поискать для таких вопросов тех кто эти стабильно занимается).
самому посмотреть где можно через браузер с firebug (фаерфокс, хром) а так же есть аддоны которые вылавливают ссылки на видео.  такой ставит давнлоадмастер к примеру.
Навигация
Главная страница сообщений
Следующая страница

Перейти к полной версии