codedump: sanae.site/README annotate

annotate sanae.site/README @ 135:0c3cd90e91f7

*: add sanae.site scraper scripts

author	Paper <paper@tflc.us>
date	Sat, 24 Jan 2026 15:10:05 -0500
parents
children

rev	line source
135 0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	1 These two scripts were used to scrape files and metadata off sanae.site, a
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	2 short-lived file-upload service ran by vhoda. He completely killed off any
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	3 access from the sanae.site domain, but it was still accessible via
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	4 donsebagay.mom, and that's what the ROOT variables contain.
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	5
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	6 The first script "scrape.py" was used just to download all of the files.
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	7 These were the most important to save after all. After this, I wrote
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	8 "guess.py" which scraped all of the metadata (as the filename implies,
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	9 this was originally going to "guess" the file extension for each file,
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	10 but the servers were still up so I just scraped the metadata)
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	11
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	12 The "guess.py" script requires the lxml package, which you will probably
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	13 already have installed. This is only used to strip off <script> and <style>
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	14 tags from the file.
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	15
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	16 The resulting files from these scripts should be of the format:
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	17 "[id] - [filename w/ extension]"
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	18 "[id] - [filename w/ extension].json"
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	19
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	20 Of which the latter is a JSON object that may or may not contain any of the
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	21 following fields:
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	22 "filename" -- original filename, HTTP 'Content-Disposition' header
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	23 "date" -- the date and time of upload, ISO format
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	24 "visibility" -- "public" if accessible from a user's page, "unlisted"
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	25 if not. private videos cannot be accessed as this
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	26 script has no login details nor cookies.
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	27 "yturl" -- the original YouTube URL, if this is a YouTube download
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	28 "username" -- the username of the uploader; this includes the "!"
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	29 prefix. this will be "Anonymous" if the website
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	30 provided it as that.
0c3cd90e91f7 : add sanae.site scraper scripts Paper <paper@tflc.us>* parents: diff changeset	31 for some files, e.g. FLAC, this is not available :(

Mercurial > codedump

annotate sanae.site/README @ 135:0c3cd90e91f7