PDFと格闘中


久しぶりに、PDFと格闘中。

遠い昔に、PDFからテキストを抽出するという話を書いた事があるけど、その続きって感じですな。

Adobeから取って来れるPDFの仕様書を、ひたすら読む。まずは、座標系の話を中心に読む。あと、テキスト座標系と、グリフ座標系と。しっかりとした仕様書を読むのは楽しい。

    • きりんりき
    • 2013年 1月15日

    縦書PDFの内容もspotlightの検索対象と成るようなspotlightのプラグイン?を作成される予定は無いでしょうか。
    spotlightが機能し始めた当初は様々なファイル種別に対するプラグインを発表されていた気がしますが最近はとんと、見ません。必要な物はもう、出揃ったということなのでしょうか?

      • mkino
      • 2013年 1月15日

      これって、縦書きテキストをいかに上手にPDFから抜き出すかがポイントになります。PDFの仕様で、テキストの描画方向を縦に指定してあるやつなら、そこそことれるんだろうけど、たぶん多くの縦書きPDFは、一文字ずつ文字位置を指定する感じになっていると推測します。これだと、あんまりうまくいかないんじゃないかと思います。
      PDFとSpotlightというよりは、縦書きPDFを書き出すソフトウェアに問題があるんではないかと。
      その辺を吸収するには、日本語をメインに使っている人たちががんばんないといけないんですよね。

      ちなみに、縦書きPDFのSpotlight対応って、そんなに需要ありますかね?

        • きりんりき
        • 2013年 1月15日

        > ちなみに、縦書きPDFのSpotlight対応って、そんなに需要ありますかね?
        只今、昔の雑誌(ダ・ビンチ)を自炊してText付きPDFにしようとしています。
        二の足を踏んでいるのはSpotlightが縦書きPDFに対応していないためです。
        ScanSnap S1500M には「Adobe Acrobat Reader」が付属しており。これで縦書PDFを開き、検索すると難なく検索してくれるので、そのうちどなたかが作ってくれるだろうなぁと期待していました。

        Adobe製品で作成したPDFに対してAdobe製品で検索しているから容易なのでしょうか。

        こんな事がしたいって人、あまりいないのでしょうか。

          • mkino
          • 2013年 1月15日

          自炊したやつですか。なるほど。
          OCRの書き出し次第だよなぁ。

  1. 2013年 1月22日