htmldumper

Parsoid HTML dump script for RESTBase APIs like https://rest.wikimedia.org/.

Installation

npm install

Usage

Usage: node ./htmldumper
Example: node htmldumper.js --domain en.wikipedia.org \
  --ns 0 --apiURL http://en.wikipedia.org/w/api.php \
  --saveDir /tmp

Options:
  --apiURL       [required]
  --domain       [required]
  --ns           [required]
  --host         [required] [default: "http://rest.wikimedia.org"]
  -d, --saveDir  Directory to store a dump in (named by domain) [default: no saving]
  --db, --dataBase  SQLite database name [default: no saving]

Filesystem output

With --saveDir as specified in the example above, a directory structure like this will be created:

/tmp/
  en.wikikpedia.org/
    Aaa/
      123456
    Bbbb/
      456768

The directory names for articles are percent-encoded using JavaScript's encodeURIComponent(). On a repeat run with the same --saveDir path, only updated articles are downloaded. Outdated revisions are deleted. These incremental dumps speed up the process significantly, and reduce the load on the servers.

SQLite database output

With --dataBase set to someSQLiteDB.db, a database will be created / updated. The schema currently looks like this:

REATE TABLE data(
    title TEXT,
    revision INTEGER,
    body BLOB,
    bigendian_v1_uuid text,
    page_id INTEGER,
    namespace INTEGER,
    timestamp TEXT,
    comment TEXT,
    user_name TEXT,
    user_id INTEGER,
    PRIMARY KEY(title ASC, revision DESC)
);

Name		Name	Last commit message	Last commit date
Latest commit History 45 Commits
.jshintrc		.jshintrc
PromiseStream.js		PromiseStream.js
README.md		README.md
filestore.js		filestore.js
htmldumper-generator.js		htmldumper-generator.js
htmldumper.js		htmldumper.js
package.json		package.json
sqlitestore.js		sqlitestore.js

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

htmldumper

Installation

Usage

Filesystem output

SQLite database output

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 4

Uh oh!

Languages

wikimedia/htmldumper

Folders and files

Latest commit

History

Repository files navigation

htmldumper

Installation

Usage

Filesystem output

SQLite database output

About

Resources

Code of conduct

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 4

Uh oh!

Languages

Packages