Помогите разобраться в дампах enwiki

Specter sea

Прижился
Регистрация
12.01.2014
Сообщения
34
Реакции
0
Хочу сделать копию enwiki http://dumps.wikimedia.org/enwiki/20141106/ на своем сайте, но полный бэкап слишком много весить да и там слишком много не нужного.

Это вроде точно не нужно:
All pages with complete edit history (все страницы с полной историей изменений)*
All pages with complete page edit history (все страницы с историей полная страница Edit)
This contains a row for each flagged revision, containing who flagged it, when it was flagged, reviewer comments, the flag values, and the quality tier those flags fall under. (Она содержит строку для каждого флагом пересмотра, содержащий кто попадает в его, когда он был помечен, рецензент комментарии, значения флагов, а качество ярус эти флаги подпадают под.)
This contains a row for each flagged article, containing the stable revision ID, if the lastest edit was flagged, and how long edits have been pending. (Это содержит строку для каждого флагом статьи, содержащие стабильную идентификатора версии, если Последнее изменение: флаг, и как долго правки были в ожидании.)
Log events to all pages and users. (журнал событий для всех страниц и пользователей.)
Recombine first-pass for page XML data dumps (рекомбинируют первый проход для свалок данных страницы XML) Вроде не нужно, слишком много весит и что это вообще?
Recombine extracted page abstracts for Yahoo (рекомбинируют, извлеченные рефераты страницы для Yahoo) Вроде не нужно.
Interwiki link tracking records (интервики слежения ссылку записей)
Nonexistent pages that have been protected. (несуществующие страницы, которые были защищены.)
Base per-page data (id, title, old restrictions, etc). (основания на странице данных (ID, название, старые ограничения, и т.д.) Что это?
User group assignments. (задания группе пользователей.)
Set of defined interwiki prefixes and links for this wiki. (набора определенных интервики префиксов и ссылки на этой вики.)
Wiki interlanguage link records. (Межъязыковая ссылка записей.)
Wiki external URL link records. (ссылка записей внешний URL-адрес.)
A few statistics such as the page count. (некоторые статистические данные, такие как количество страниц.)
Это нужно:
Articles, templates, media/file descriptions, and primary meta-pages, in multiple bz2 streams, 100 pages per stream enwiki-20141106-pages-articles-multistream.xml.bz2 11.3 GB enwiki-20141106-pages-articles-multistream-index.txt.bz2 156.3 MB (Статьи, шаблоны, описания медиа / файлов, а также первичные мета-страниц, в несколько потоков bz2, 100 страниц в потоке) Вроде нужно, но что такое первичные мета-страницы?
Recombine all pages, current versions only. (рекомбинируют все страницы, только текущие версии.)
Recombine articles, templates, media/file descriptions, and primary meta-pages. enwiki-20141106-pages-articles.xml.bz2 10.6 GB (статьи рекомбинируют, шаблоны, описания медиа / файлов, и первичные мета-страниц.) Снова не понятно, что за первичные мета-страницы такие и чем отличаеться enwiki-20141106-pages-articles-multistream.xml.bz2 (многопоточные) от enwiki-20141106-pages-articles.xml.bz2 Нужно оба устанавливать?
List of all page titles (Список всех заголовок) Если устанавливать все сттраницы (только текущие версии), то там не будет всех заголовок?
Redirect list (список перенаправлений)
Category information.
Wiki template inclusion link records.
(шаблонов включение ссылка записей.)
Wiki media/files usage records. (использования мультимедиа / файлы записи.)
Metadata on current versions of uploaded media/files. (метаданных о текущих версиях загруженных СМИ / файлов.)

С этим не понятно, что это такое:
List of page titles in main namespace (Список названий страниц в основном пространстве) Я понял, что это связано с https://ru.wikipedia.org/wiki/Википедия:Пространства_имён , но нужно это или нет, не знаю.
Name/value pairs for pages. (пар имя / значение для страниц.) Не понятно что это.
Newer per-page restrictions table. (Новее ограничений таблица на странице.)
Wiki category membership link records. ( категории членства ссылка записей.)
Wiki page-to-page link records. (страниц в странице ссылка записей Wiki)

*Переводил все с помощь гугло-переводчика.
 
Но зачем?
 
Идея-фикс потом все это перевести :D
 
Назад
Верх