PDFの縦書き部分からテキスト抽出


最近続けているPDFの読み込み処理。縦書きPDFのテキスト抽出ができるようになってきた。

スクリーンショットは、縦書き表示があるPDFを読み込んで、PDF Kitと独自処理実装でテキスト抽出したもの。PDF Kitでは文字はとれるものの文章の体をなしていなけど、独自実装ではちゃんと文章になっている。

まだ問題はあるけど、まあ目処がついてきたかな。実装は、OS XとiOSに対応。

    • きりんりき
    • 2013年 1月30日

    この処理を利用したアプリ?プラグイン?があれば縦書PDFもspotlightの検索対象となるのでしょうか?
    人任せな発言ばかりで申し訳ございません。

      • mkino
      • 2013年 1月31日

      Spotlight対応は、できますね。
      どう展開していくかは、考え中です。

        • きりんりき
        • 2013年 1月31日

        宜しくお願いいたします。

  1. トラックバックはまだありません。