欢迎您,远方的朋友!

这里是Link Memos网站,如果您想访问Mohan同学的个人网站,请访问https://mohan.hu

2004年7月26日星期一

海量信息搜索-Isys:desktop

厂商:悉尼Isys
网址:http://www.isysusa.com
这是个通用数据搜索引擎,表现在能够深入到包括125种数据格式中建立全文索引,通过统一的查询界面提取有用信息,格式包括 word、excel等office 办公文件,电子邮件,附件, PDF, HTML,压缩文件,数据库和本地的格式电子数据表。支持一系列简单的搜寻方法和高级的布尔逻辑查询,所以用户能够挑选适合他们的需要的方法,诸如自然英语或者菜单帮助。ISYS:desktop 能够在 30 种语言中支持搜寻和能够使用局部地储存的信息,对中文支持良好,也有在网络或者内部网上,或者在外部的网站上搜索的网络版本。
建立索引的速度很快,搜索速度更是飞快,特别适用于长期积累了一批数据文件、word文本档案,需要从海量信息中提取所需内容的状况。
Isys界面简单,易学易用,笔者因长期从事调研和翻译工作积累了近千份word资料和译稿以及电子文档,经常需要查阅过去的数字或文字格式译法,不可能一一打开文件查找,此时Isys发挥重要作用,节省大量时间精力。最方便的是,从查询结果列表中可以直接预览word等文件内容,不用打开原文件。通过不断的资料积累,往往可以从关键词搜索中获得资料间的内在关联,建立所谓“知识库”。
ISYS公司近日赢得苏格兰警察局搜索和修补软件合同,使得该公司在英国警察系统软件占有率达到45%。该公司从去年开始向英国出口软件,至今英国20个警局购买了该公司软件。该软件使调查人员从不同的报告、数据库和其他法律文件中找到相关信息。在澳大利亚,西澳、维州、澳警察总署等都在使用该公司软件。

2004年7月25日星期日

机器辅助翻译-Trados Freelance

TRADOS的翻译记忆
  什么原因促使TRADOS成为专业翻译领域享誉全球的领先厂商呢?说到这里,我们不能不提及TRADOS软件所采用的核心技术——翻译记忆(Translation Memory,简称TM)。翻译记忆(TM)的原理其实非常简单。由于专业翻译领域所涉及的翻译资料数量巨大,而范围相对狭窄。这就必然带来翻译资料的不同程度的重复。据统计,在不同行业和部门,这种资料的重复率达到20%~70%不等。这就意味着译者至少有20%以上的工作是无谓的重复劳动。翻译记忆技术就是从这里着手,首先致力于消除译者的重复劳动,提高工作效率。
  翻译记忆(TM)技术原理是这样的:用户利用已有的原文和译文,建立起一个或多个翻译记忆库(Translation Memory),在翻译过程中,系统将自动搜索翻译记忆库中相同或相似的翻译资源(如句子、段落),给出参考译文,使用户避免无谓的重复劳动,只需专注于新内容的翻译。翻译记忆库同时在后台不断学习和自动储存新的译文,变得越来越“聪明”,效率越来越高。
  TRADOS便是利用翻译记忆技术完成对用户翻译资料的有效管理和利用,进而对整个翻译项目实现统一管理,将专业翻译纳入科学化、标准化的轨道。用户实践证明,使用TRADOS解决方案后,翻译项目的工作效率至少提高30%,成本至少降低30%。如微软在Windows98的本地化过程中,仅在文档翻译部分就提高了60%的效率,而欧盟在许多翻译项目中的效率提升,更达到了100%的惊人成就。
  揭开TRADOS的神秘面纱
  从软件设计开发之初,TRADOS便立足于专业翻译和本地化工业的实际需求和发展趋势,整个软件包完全基于专业的工作流程和项目管理来规划。在最新的5.0版本中,TRADOS更是按用户实际工作特性,将软件按“角色”划分为:项目经理(Project Manager)、技术专员(Specialist)、译员(Translator),这三种相互独立,又密切相关的模块。这一设计实际上已经为企业和行业用户建立了专业级的翻译项目管理架构,所有翻译项目的实施,在不同的成员应用相应的模块后,变得非常顺畅和高效。即使企业采用最复杂的业务模式:内部翻译+外包翻译,在采用这一方案后,无论是内部还是外部的质量和进度管理,都会变得非常清晰、明确。
  TRADOS实现的翻译流程通常是这样的:项目经理在整理所有待翻译文档之后,通过TRADOS的统一管理界面“WorkSpace”,对项目进行分析,得出待翻文档中和现有记忆库重复程度的统计(以句子为比较单位,词为计数单位),生成符合国际翻译行业标准格式的统计报表。然后,TRADOS会将待翻文档中和记忆库完全重复的句子,进行自动翻译,直接将记忆库中的相关译文替换到待翻文档中,以完全避免重复翻译。
  在完成以上准备工作后,项目经理将批量翻译过的原文文档和相关翻译记忆库打包,发送给技术专员,由技术专员进行专业词库提取、整理,以及特殊文档格式的处理(如FrameMaker, PageMaker等等)。
  最后这些处理过的待翻文档、翻译记忆库和专业词库又被发送到译员(Translator)手中,通过“Translator”权限的"WorkSpace",译员可以方便地打开项目文件包进行翻译,同时翻译完的句子会自动储存到后台的翻译记忆库中,供重复利用。在这翻译过程中,后台的翻译记忆库(TM)发挥着重要的辅助翻译作用,除了自动记忆用户的译文之外,还能实时地给出用户相似句子的翻译,即对不完全和库中内容匹配的句子,也能通过模糊匹配,为用户给出相应的参考译文。同时通过局域网协同工作,所有译员都可以同时使用同一个记忆库文件,实现在线的数据共享。
最后完成的译稿和记录着最新翻译内容的项目文件包,又被传回到技术专员,进行文档格式的最后处理。由项目经理完成最后的项目文件校对和数据库整理工作。
  需要指出的是,TRADOS能和微软Word字处理软件无缝集成,全面支持RTF和DOC文件格式的产品。这一优势使得TRADOS用户可以在熟悉的编辑环境中,充分享受到TRADOS翻译技术带来的好处。
  TRADOS支持多种文档格式,使得用户不管翻译何种文档,如DOC、RTF、HTML、XML、FrameMaker、AutoCAD等等,都可以忽略至少60%以上的后期桌面排版(DTP)工作,因为TRADOS强大的文档处理工具,可以完全保留原文的格式。
  通过后台强大神经网络数据库,TRADOS可以方便地对翻译记忆库实现各种条件下的查找、搜索、修改和替换。每一个翻译单元(一句原文加一句译文为一个翻译单元)都被自动标记上时间、作者、行业、用户等特征属性,使记忆库的管理变得轻松而有效。
  翻译记忆的国际标准
  虽然TRADOS目前在全球占有70%的市场份额,但仍有德国Star Transit,西班牙De javud等几个竞争对手也采用翻译记忆技术为用户提供专业翻译解决方案。为了规范翻译记忆技术领域的技术指标,同时使不同TM软件之间能实现数据交换,以方便用户自由选择,多年来国际上已经形成一套严格的考核指标,以此作为评价翻译记忆(TM)软件的基本标准。
  1. 是否支持UNICODE(统一字符编码)
  这是所有翻译记忆产品必备的基本功能,由此TM软件可以支持数十种语言之间的双向互译。如TRADOS支持多达65种语言间的双向互译,甚至包括中日、中韩这些亚洲语言之间的互译。其它国际性的TM软件产品也都至少支持40种语言互译。
  2. 是否以数据库为后台技术实现翻译记忆
  通过数据库,用户在项目开始的时候,便可以为不同水平的翻译人员设置记忆库访问权限,从源头上保证入库内容的质量。在翻译完成后,校对人员还可以方便地将修改过的内容直接更新到记忆库中。甚至在日后,用户还可以直接在数据库中修改原文或译文。由于每一个翻译单元都被标记上了各种属性,用户可以方便地按不同标准,分拆、合并数据库,建立不同标准的翻译记忆子库。这些功能的实现直接决定用户最终的工作质量,所以数据库技术被列为翻译记忆的基本标准也就不足为怪了。
  3. 是否支持所有流行文档格式
  由于现代翻译项目中的30%左右的时间都是用于后期的桌面排版(DTP),翻译记忆软件全面支持流行文档格式,将大大加速项目进度。这里所指的文档格式一般包括:DOC、RTF、HTML、SGML、XML、Excel、Access、PowerPoint、AutoCAD、FrameMaker、PageMaker等等。
  4. 是否拥有独立的术语管理平台
  采用TM技术,用户有两种方式可以得到有效的词库:一是通过TM厂商的术语管理平台,直接建立自己的术语库,这是众多国际企业和组织实行的方法,如微软、欧盟等;二是获得专业词库厂商的词库产品。TM厂商目前针对第二种需求的用户,就从第三方词库厂商处获得高质量的专业词库,免费或部分免费地提供给用户。在这种情况下,独立的术语管理平台,即独立的术语管理软件包,便是TM产品的必备了。有了这一术语平台,用户可以独立地使用里面的电子辞典,也可以和TM翻译平台结合,实时为用户提供术语解释。
  5. 是否支持TMX标准
  以LISA(Localization Industry Standard Association,国际本地化工业标准协会)制定了目前的TMX(Translation Memory exchange,翻译记忆交换)国际标准。所有TM软件的记忆库,都必须符合TMX标准,以方便不同TM产品记忆库的相互交换。目前TRADOS,Star等厂商都已经全面支持TMX标准。

西文光学识别-ABBYY FineReader Professional

俄国著名软件公司ABBYY的OCR多语种文字扫描识别软件的最新版本,兼容MS Office2003和Acrobat 6.0 ,是目前世界上最好的OCR软件。

OCR是Optical Character Recognition的简称,指光学字符识别技术,是自动识别技术研究和应用中的一个重要领域。

ABBYY软件公司是一个世界领先的文档识别和语言技术产品的供应商。ABBYY致力于光学字符识别(OCR),智能字符识别字符识别(ICR),语言学,语义学,和电子词典编纂的研究和开发。ABBYY的主要产品是FineReader系列OCR, ICR 和OMR软件,以及FineReader开发工具。


FineReader 7.0专业版是最新、最准确的ABBYY OCR软件版本。它可以为用户提供最高级别识字精确率,是一个非常节省时间的好方案。FineReader允许你将各种纸张和电子文件转换、编辑以及重新使用。

ABBYY FineReader Professional 是一款真正的专业OCR,它不仅支持多国字符,还支持彩色文件识别、自动保留原稿插图和排版格式以及后台批处理识别功能,使用者再也不用在扫描软件、OCR、WORD、EXCEL之间换来换去了,处理文件会变的就象打开已经存档的文件一般便捷。 ABBYY FineReader Professional 是OCR辨识软件,它有着标准的Windows介面,能够直接在MS Word、MS Excel、WordPerfect及Word Pro中扫描和读取文件、信件或各类表格,并且能存成RTF、TXT、DOC、CSV、XLS或HTML等格式。它能保持表格与图片中原始的多栏页面设计。FineReader Professional在辨识方面支持ADF(自动进纸)扫描仪,批次处理,拼音检查,强大的表格工具,多语言文件,背景运算和学习新的字体。它也完全支持TWAIN扫描仪。 在用OCR进行文本扫描时,ABBYY FineReader软件为您提供了有效的文字识别系统,可以高速、简便地把扫描图像转变成文本文件格式。内置强大的Abbyy FineReader OCR文字识别引擎,可以将丰富的文字精确的转换成可编辑的Word电子文档。使得文档电子化操作简单到只须轻轻一按!ABBYY FineReader Sprint – FineReader 的拼写校对功能,令文字识别功能更容易使用。

Reference:
http://www.abbyy.com
ABBYY FineReader 7.0 is the latest version of ABBYY's award-winning OCR software that delivers superior OCR and PDF conversion capabilities with improved recognition accuracy and format retention.

ABBYY FineReader 7.0 Professional Edition provides users with all the capabilities of a modern OCR application, giving them full control over information management. It is intended for home users and small businesses

在巴黎的每一个街区

他们住在同一个街区,
同一条马路,同一个院子,
她对他微笑……
暗恋着他,却不让他知道。
当一吻定情的那一天终于到来,
她在天空中看到无尽的希望。

在巴黎的每一个街区,
阳光每天都沐浴着一个爱情的梦想。
每天爱情都降临到一个20岁的女孩儿身上,
对她来说一切都变了样,
一切都闪耀着春天的光芒。

在巴黎,
每天太阳都照常升起,
在巴黎,
每一个20岁的人都在每一个街区有着甜美的梦想,
一切都带着爱情的色彩。

终于有一天,
当那些绝望的日子远去,
两个人在傍晚相逢,
相视无语,
幸福就在眼前,
眼神透露了一切。

每一个街区,
每一个夜晚,
每时每刻都有躁动的灵魂拥抱着爱情的梦想。
梦中的幸福无影无踪,
醒来只剩下夜的颜色。

20岁的到来,
让希望照耀着未来,
抹去了过往。
从此,
每一个街区,
每一个夜晚,
每时每刻都有更多的灵魂充满着爱情的梦幻。

2004年7月24日星期六

集软之初体验

  
这世上有许多爱好收藏的人,有的收藏名画,有的集邮,有的集卡,还有许多稀奇古怪的花样。中耳官职,,还是喜欢收藏的人必定也起到共通之处,
其一,对其所收集植物有超乎常人想象的爱好。在别人眼里是平淡无奇的东西,收藏者却能从独特的角度看到她的美丽,看到他的价值。也就是说,收藏者中有一种独到的眼光,从其收藏品身上寄托自己的情趣。
其二,多种多样、富于变化,这是所有收藏品的共性,如果所有的东西只是1种形态,那就没有级的必要了,只有把各式各样的收藏放在17时,才能产生比较,凸显出每样收藏的特点。
其三,收藏品具有时代性。之所以要收藏,很大原因使他往往代表另一个时代、1个发展阶段、1段历史,每当看到他们,就会勾起1段回忆,1段经历,1段人生的足迹,从而引起心灵的共鸣。
其四,收藏的目的不是金钱,收藏品的价值也不是可以用金钱来衡量的,或者说,在真正的收藏者心目中,藏品是无价的。
再来看集软,软件行业发展的今天,无论从数量和质量上都已经到了无以复加的地步,只要有你想得到的用途,就一定有这方面的软件产生,甚至为了同一种用途都会产生成百上千的类似软件。尤其是随着编程可视化和软件网络化,编制软件已非难事,难.转向技术创新和创意设计,而互联网的发展催生了众多免费软件、广告软件、自由软件、许可证软件、共享软件、商业软件等等,其中又可分为个人办、体验版、测试版、演示版、免费版、专业版、商业版、企业版、简化、蓝正版、桌面版,网络版等等,不一而足。这些软件大多能从网上下载,因而为收集创造了必要条件。
我的集软爱好者也是有原则的:
1、尽量搜寻功能最全的完整商业版、零售版;
2、软件必须有独特的创意、专利的技术,而非平庸之作;
3、不求最新,只求最好;不求花少,只求实用;
4、对于共享和演示软件,尽量寻求注册使之成为正式版;
5、不迷信网站推荐,要经过比较适用在作出决定;
6、越是经典的、绝版的、不易获得的软件,越能成为我的收藏。
应该说,完全符合上述条件的软件并不是很多,但是日积月累,未经得到了500多款软件,小则十几倍,大则上百兆,款款精品,以众多软件网站提供的大众化软件强100倍,而且都经过亲手使用,不少都已成为我的装机必备。
集软的乐趣来自15集和使用两个方面。
收集的过程是个高投入、低产出的和,我往往要从确定目标软件入手,经过详细阅读参考文献,在进行比较,上网搜索当前版本,然后确定是否可以下载,是否能够得到完整的版本,是否能够免费注册。这个过程相当耗费时间精力和金钱,归纳起来主要有以下几个困难:
一,正像刚才说的,现在每一个类别的软件都会有几十个甚至上百个,功能上往往大同小异,令人眼花缭乱,因此就必须阅读大量的介绍和评论文章,才能够大致确定哪一块软件才是最优秀的,才是有收藏价值的,有时还必须下载不同软件或者不同的版本进行适用才能够最终确立目标。
二,为了防止盗版,现在越来越多的软件商都不提供完整的可以注册的版本下惨,加密技术也越来越高明,有时找到注册码却找不到相应的可以注册的版本,其实说到底还是因为破解的速度赶不上软件出新版本的速度。因此我就绞尽脑汁从互联网各个角落搜寻这些早期版本,有时候机会稍纵即逝,例如有一次我刚刚下载完一个早期的版本,这个文件就被从服务器上删除了。正因为如此,我收集的软件中有许多都成了孤本,更显得弥足珍贵。
三,破解文件越来越难找,有些文件被严格限制在会员范围内传播,有些甚至要收费,要想获得他有时不得不事处欺骗的把数,骗取王冠的信任才能够找到下载地址。
四,由于目前网上个人网页泛滥,垃圾信息到处都是,尤其是盗链和错链众多,再加上过时信息的误导,因此许多时候都是空欢喜一场,根本找不到下载地址。
不过久而久之,我也总结出一套行之有效的方法:
一,遇到真正好的软件,既是一时找不到破解或者注册码,应该立即下载保存下来,避免日后再也找不到这个版本。
二,尽量直接搜索要下载的文件的文件名,这样可以有效地避免锉链和大连的误导。应为有些大型搜索引擎比如google,能够深入到网站的文件列表中进行搜索,可惜现在google为了支持打击盗版,已经开始限制查找包含.exe,.zip,.rar等字串。
三,注意收集一些可信度高的,信息准确迅速地软件网站和搜索引擎,最好是可以本地下载的软件网站,和一些支持新老版本软件同时下载的软件网站。
不过,我已经逐渐感到,破解和盗版软件的末日快要来了,理由是国际上和国内日益加强清理盗版的力度,加密技术发展很快,开始更多地通过在线注册和在线认证来防止盗版,而不像过去单机时代只需要一个注册码就可以在任何机器上畅通无阻了。更致命的是,越来越多好的软件通过网上支付购买的渠道进行传播,可以下载到的只是一些功能不全,没有破解和使用价值的演示版。可以说,破解软件的时代正在过去,许多著名的破解组织更新速度已经显著减慢,免费的午餐正在成为最后的晚餐,目前的软件技术已经相当成熟,因此现在出品的软件往往都是在这个技术阶段上最成熟最领先的产品,如果不抓住这个最后的机会大捞一笔,再晚就来不及了。
每当我在把玩这些精美强大独具匠心的软件时,我从心里感谢和敬佩他们的设计者,他们将同他们作者的名字一起,如计算机信息科学发展的史册,成为这一百花齐放的时代的见证,也成为免费共享精神的最好注脚。