Friday, March 16, 2012

paper4Kindle 介绍

http://gatherlight.info/blog/?p=1638

写这个程序的动机:
如果你没有Kindle3, 或者正在犹豫是买花几百快钱买个Kindle3, 还是花大价钱搞一个Kindle DX, 你可以看看下面的这段内容.
读博士期间, 每天都要读很多论文. 即便对的是液晶屏幕, 看了几个小时之后, 两只眼睛还是会被满屏幕的密密麻麻的英文小字儿搞得模模糊糊的. 所以, 很多需要反复看的论文, 我都直接打印出来, 在纸上看. 因为PDF文件本身就是为了精确印刷而设计的, 文章印到纸上看, 自然是舒服. 后来, 买了Kindle 3, 小巧轻便的外形, 大容量, 特别是那种媲美纸张的阅读感受, 让我在入手的第一天就惦记着用kindle 3来看PDF文件, 特别是论文.
但是, 实际操作之后我发现, 这不是一件靠谱的事情: Kindle 3的屏幕大小了, 对于A4纸大小的PDF文件来说, 如果要在屏上显示出整页的PDF, 那么文件内容就只能’浏览’了:字还没有芝麻大, 看着还不够费劲的呢. 这个问题是所有6寸电子书产品都要面对的. 有人可能想到了, 10寸的Kindle DX不是够大么? 对于这样的产品来说, 虽然页面够大, 看着也够爽, 但是, 站在使用者的角度看, 你是情愿打出要看的10页PDF拿着呢, 还是愿意捧着1斤多重, 小黑板大小的10寸电子书呢?
由于没有很好的解决办法, 再加上, 我也确实不想为了这样一个”支线任务”耽误太多时间, 所以在Kindle上看A4尺寸PDF的想法就慢慢作罢了. 直到后来一个偶然的机会, 我了解了PDF这种格式的原理和处理过程, 并且知道了原来Python有pyPDF这样一个专门处理pdf文件的库, 我才突然意识到, 这件事情其实并没有我想像的那么复杂. 果然, 仅仅花了几个小时的时间, 我就在Kindle3上相对完美地阅读到A4尺寸的PDF文件, 特别是多栏PDF文章了. 因此, 现在Kindle3 不仅是我生活的最佳调剂, 同时也上升为工作的得力助手.
这个程序能干什么?
你最关心的问题大概就是这个了, 接下来以常见的双栏IEEE 论文为例子, 说说paper4Kindle能做甚.
我在Kindle上的阅读要求不高, 能将每一页中左边一栏分几页, 右边一栏分几页, 然后能够按照论文文字的顺序把整篇论文看完就可以了(如下图). paper4Kindle就是实现了这样一个简单却非常实用的功能.

有个(据说是)韩国人斯密达写的软件:paperCrop, 以及另一个灰常NB的免费软件:k2pdfopt均为了实现这个功能给出了他们的解决方案. 在这两款软件中, 均是利用图像识别中的算法, 将PDF转成图像之后再进行处理, 希望在一定程度上智能地将PDF完美切割成小快, 然后重新组合成页面. 它们的几个不足之处:
  1. 文件处理时间过长, 如果处理一个十来页的Trans 上的文章, 要花上好几分钟
  2. 生成的文件, 内容变成了图像, 因此对PDF的文本操作(例如高亮, 查找)就没戏了
  3. 目前的智能处理, 只能做到90%的样子. 剩下的10%的部分, 就被”智能地”处理成不可思议地SB了(例如挤成一团了一片黑字儿). 如果这10%是文章的关键, 可以说, 整个转换都失败了.
多看系统也有这个功能, 不过, 也有不足:
  1. 我这样的用户就是喜欢用原生系统, 多看都没装. 这个比较无赖, 哈哈! 但是, 考虑的稳定性以及Amazon对Kindle贴心的whisper net推送服务, 坚持用原生系统的人, 应该还是大有人在吧?
  2. 多看的分页不能调, 如果切歪了, 就只能放弃了.
  3. 所有操作都在Kindle上处理, 效率不高
  4. 如果还有其他缺点, 欢迎反馈到多看论坛, 谢谢~~
相对于上述这写软件, paper4Kindle的特点:
  1. 用电脑处理, 保证了处理速度和准确度;
  2. 不对PDF内容做”任何”修改, 生成的PDF文件可以进行标注, 最大限度地保证论文内容不失真.
  3. 剪切的参数可以调节, 任意比例的PDF通吃; 同时, 提供了预设方案, 方便懒人.
  4. 能够批处理, 做一次, 一劳永逸了.
同时, paper4kindle针对论文中跨栏的内容, 例如标题, 图表, 大公式, 采用了一种”笨”的折中的方式:
  1. 可以将论文的首页作为文件的第一页, 从而保证可以准确地了解论文标题, 作者信息, 期刊信息和一些中文论文的跨栏的摘要
  2. 可以将整篇论文加入到整个文件的末尾. 这样碰到了那种整页的大公式, 大图表, 也可以通过参考附上的全文来保证不会遗漏页面切割边缘的信息.
这种”笨”的折中方法, 实际上考虑了如下的事实:
  1. 文章信息的”正确”, “完整”和”可阅读”是最重要的, 排在他们之后的才是美观和效率;
  2. 论文题目, 只是作为封面一样的存在,必要时, 看一下, 并且, 由于论文的标题一般都是非常大的字体, 所以, 整页显示时也能看清无压力; 大公式, 大图表, 也同样能够在整页方式下看清.
  3. 如果需要整页的细节, 只要保存了整页PDF, 可以通过横屏的方式仔细阅读;
  4. 一般论文跨栏的内容比较少, 因此整体上, 经过处理之后, 阅读的效率非常高. 并且, 这些功能是可选的, 全文附在分割后的文章最后, 不会影响整体阅读的流畅度.
  5. 由于PDF的特殊存储结构和处理方式, 将整篇论文附在文章的结尾, 几乎不会增大文件的体积,
因此, 通过使用paper4Kindle, 可以在保证内容准确性和完整性的前提下, 可以最大限度地提高在Kindle上阅读的效率和流畅性, 实现设计的初衷.
转换单个文件的速度, 大约在3页/秒以上.
最后附上处理前后的对比图

哪里下载?
中文版本的下载页面在这里

No comments:

Post a Comment