PixelMeltのKindleウェブデオブフスケーターの改善

この記事では、PixelMeltによって公開されたAmazonのKindle書籍のDRMなしでのダウンロード方法について説明しています。この方法は、ウェブブラウザを偽装し、JSONファイルをダウンロードし、SVGファイルを復元してOCRを実行する流れから成り立っています。しかし、OCRの精度に問題があり、文字の位置や改行の処理に難がありました。著者は、ページ全体をOCR処理する新しいアプローチを採用し、各文字を適切にスケーリングしてページに配置し、最終的にTesseract 5を使ってテキストを抽出しました。ただし、画像は依然としてダウンロードできず、いくつかのエラーが発生することもあるため、完全ではありません。