صفحات الموضوع:   < [1 2]
有没有想一起做翻译服务和翻译软件公司的啊?
ناشر الموضوع: eng2chi
nigerose
nigerose  Identity Verified
الصين
Local time: 09:52
صيني إلى أنجليزي
+ ...
专利 Dec 22, 2012

Loise Hsu wrote:

J.H. Wang wrote:

说实话,我对采用统计方法来实现中英语之间的机器翻译颇为怀疑。采用统计的方法,首先是要有庞大的中英文语料库,而且这些语料的质量要很高才行。否则,语料库本身质量较差,那算法再好恐怕也不行。我觉得建立语料库本身就是一个工作量很大的问题。不管语料来源何处,要用于软件开发,总得先对这些语料的质量进行审查和校订。比如,一个很大的语料库,假设有1亿字,如果要校订的话,需要有高水平的译者来审核校对,比如一个高水平的译者一年加工一百万字,那么就需要100年才能完成。如果用10个人来做,需要10年完成。事实上,真正要找到10名高水平的校对者也不是一件很容易的事。因此,这个工作就相当难做。

不过,我觉得解决语料问题的一个途径是实行各个开发单位、企业之间的大规模协作。大家在算法上可以保密,在语料上实现共享,这样我想对大家都有利。

Google Translate 就是采用统计方法对语料结构进行分析,继而建构语法,进行语言上下文判断,并在同义词中选择最贴近的单词。
基本上,这种以统计为基础的建构方法并不需要任何人工校阅。因为统计是建立在机率与“差不多”的近似值概念上,并不需要一个绝对精确,绝对高水平的语料库,只需要一个“差不多精确”,“差不多完美”,“差不多高水平”的语料库即可。而建立一个差不多高水平的语料库并不需要对收录的每笔语料做精确仔细的校阅,只需要设定搜索领域,挑选高水平的文章,仅收录这些高水平文章到语料库,然后再进行语法和上下文分析即可。因为我们可以假设质量高的文章,如知名作家,学术性文章,政府官方文件等的语言结构和语义表达是“差不多臻至完美”,“差不多精确的”。
我在学校修过认知科学和认知语言学的课程,对这个领域也相当感兴趣。

[Edited at 2012-12-22 07:26 GMT]


我认为总体而言,专利文件不属“质量高的文章,如知名作家,学术性文章,政府官方文件等",无论是中文撰写的专利,还是翻译成中文的专利。


 
Marvin Sun
Marvin Sun  Identity Verified
الصين
Local time: 09:52
أنجليزي إلى صيني
哈哈 Dec 22, 2012

wherestip wrote:

Loise Hsu wrote:

不需要人工校阅



随便挑两句试试 Google 的能力 ...

He failed to yield at the intersection
他没有屈服的交叉点

The theory is all fine and dandy, but the actual results are piss poor
理论是罚款和花花公子,但实际结果是小便不畅


哈哈,这两个例句选得好啊,既风趣幽默又体现了机器翻译的不足之处。

个人感觉,除非有一天机器真具有创作的能力了,自动翻译才有可能从真正意义上实现。

机器翻译无非就是词语意思的组合,只要存在多义词的和多种语言环境,机器就无法做到完美。人类翻译的时候,会斟酌上下文,是用讽刺、是说反话、是比喻、是直白还是另有深意?机器是无法体会到的,即使机器能根据上下文其他词语出现的频率来进行排列组合,进而选择比较接近人工翻译的表达方法。古人“吟安一个字,拈断数茎须”这种痛苦的思维过程,计算机是无法模仿的。

翻译也是一个再创造的过程。必须承认,机器翻译在协助人工翻译方面成效卓著,但是要完全取代, 还为时尚早。要想根除翻译这个行业, 除非地球人都说同一门语言。

当然,机器翻译对翻译行业的确是有威胁的,这主要体现在一些较低的翻译层次上。由于机器翻译的作用,很多不懂英文的中国人可以借助机器翻译大体了解国外邮件的信息,甚至有客户表示,他曾借助机器翻译成功向外商报价并做成一单生意,期间连邮件沟通、发货、确认、收款都通过机器翻译实现。听到这件奇事后,我一边怀疑此君是否在实话实说,一边感叹此君的运气实在太好了。


 
Jinhang Wang
Jinhang Wang  Identity Verified
الصين
Local time: 09:52
أنجليزي إلى صيني
+ ...
不敢苟同 Dec 22, 2012

Loise Hsu wrote:

Google Translate 就是采用统计方法对语料结构进行分析,继而建构语法,进行语言上下文判断,并在同义词中选择最贴近的单词。
基本上,这种以统计为基础的建构方法并不需要任何人工校阅。因为统计是建立在机率与“差不多”的近似值概念上,并不需要一个绝对精确,绝对高水平的语料库,只需要一个“差不多精确”,“差不多完美”,“差不多高水平”的语料库即可。而建立一个差不多高水平的语料库并不需要对收录的每笔语料做精确仔细的校阅,只需要设定搜索领域,挑选高水平的文章,仅收录这些高水平文章到语料库,然后再进行语法和上下文分析即可。因为我们可以假设质量高的文章,如知名作家,学术性文章,政府官方文件等的语言结构和语义表达是“差不多臻至完美”,“差不多精确的”。
我在学校修过认知科学和认知语言学的课程,对这个领域也相当感兴趣。

[Edited at 2012-12-22 07:26 GMT]


我觉得语料是统计翻译的基础,语料的质量肯定对翻译效果有重大影响。统计翻译的质量不会超出语料的质量。


 
Jinhang Wang
Jinhang Wang  Identity Verified
الصين
Local time: 09:52
أنجليزي إلى صيني
+ ...
可乐 Dec 22, 2012

Marvin Sun wrote:

wherestip wrote:

Loise Hsu wrote:

不需要人工校阅



随便挑两句试试 Google 的能力 ...

He failed to yield at the intersection
他没有屈服的交叉点

The theory is all fine and dandy, but the actual results are piss poor
理论是罚款和花花公子,但实际结果是小便不畅


哈哈,这两个例句选得好啊,既风趣幽默又体现了机器翻译的不足之处。

个人感觉,除非有一天机器真具有创作的能力了,自动翻译才有可能从真正意义上实现。

机器翻译无非就是词语意思的组合,只要存在多义词的和多种语言环境,机器就无法做到完美。人类翻译的时候,会斟酌上下文,是用讽刺、是说反话、是比喻、是直白还是另有深意?机器是无法体会到的,即使机器能根据上下文其他词语出现的频率来进行排列组合,进而选择比较接近人工翻译的表达方法。古人“吟安一个字,拈断数茎须”这种痛苦的思维过程,计算机是无法模仿的。

翻译也是一个再创造的过程。必须承认,机器翻译在协助人工翻译方面成效卓著,但是要完全取代, 还为时尚早。要想根除翻译这个行业, 除非地球人都说同一门语言。

当然,机器翻译对翻译行业的确是有威胁的,这主要体现在一些较低的翻译层次上。由于机器翻译的作用,很多不懂英文的中国人可以借助机器翻译大体了解国外邮件的信息,甚至有客户表示,他曾借助机器翻译成功向外商报价并做成一单生意,期间连邮件沟通、发货、确认、收款都通过机器翻译实现。听到这件奇事后,我一边怀疑此君是否在实话实说,一边感叹此君的运气实在太好了。



Google 算是机器翻译做得最好的了,不过,就中英翻译而言,翻译质量离理想的译文差距还很远。不只是上面的两句,如果你用它翻译一些其他句子,经常会碰到可笑可乐的译法。


 
wherestip
wherestip  Identity Verified
الولايات المتحدة
Local time: 20:52
صيني إلى أنجليزي
+ ...
无法取代 Dec 22, 2012

Marvin Sun wrote:

个人感觉,除非有一天机器真具有创作的能力了,自动翻译才有可能从真正意义上实现。

机器翻译无非就是词语意思的组合,只要存在多义词的和多种语言环境,机器就无法做到完美。人类翻译的时候,会斟酌上下文,是用讽刺、是说反话、是比喻、是直白还是另有深意?机器是无法体会到的,即使机器能根据上下文其他词语出现的频率来进行排列组合,进而选择比较接近人工翻译的表达方法。古人“吟安一个字,拈断数茎须”这种痛苦的思维过程,计算机是无法模仿的。

翻译也是一个再创造的过程。必须承认,机器翻译在协助人工翻译方面成效卓著,但是要完全取代, 还为时尚早。要想根除翻译这个行业, 除非地球人都说同一门语言。



是这样,达到机器翻译与人工翻译可以等同的境界是差得很远的。 特别是中英、英中一对语言来说,依我看比较像样的突破更是遥遥无期。

借助软件、词库提示当然是可取的,尤其是涉及到各个领域中的专用术语的时候。 但那完全不是说可以一对一 生搬硬套地作机械的代换的。


[Edited at 2012-12-22 17:20 GMT]


 
Loise
Loise
فرنسا
Local time: 03:52
فرنسي إلى صيني
+ ...
语料:用来建立语法规则的材料不等于翻译结果 Dec 23, 2012

wherestip wrote:

Loise Hsu wrote:

不需要人工校阅



随便拣两句简单的英文句子试试 Google Translate 转换为中文的能力 ...

He failed to yield at the intersection
他没有屈服的交叉点

In theory, it's all fine and dandy; but the actual results are piss-poor
从理论上讲,这是所有罚款和花花公子,但实际结果是小便差


[Edited at 2012-12-22 14:21 GMT]

你误会了。我的意思是说,以统计方法为基础的翻译软件在能够进行翻译之前,需要收集一套允许建立翻译规则的材料(XML形式的语料和文本),对之进行比对和统计分析,然后依据统计结果建立一套语言规则,再根据这个规则进行后续的翻译。
以统计方法建立语言规则的做法最重视的是XML语法的正确性和精确性,并不需要对XML文本内含的语料内容进行人工校阅,因为它的语法规则跟选词是基于对XML语法的分析,并对语料内容进行统计计算,对之进行ranking取得的。所以软件的数据库里分析过的XML形式的语料和文本的数量越多,质量越高,同质性越高,文本分类越精确,机器本身的计算的精确度就越高,翻译的结果也就越理想。由于软件所分析的文本数量实在太庞大,想要对数据库里的语料进行人工校阅是非常不切实际的做法。
但这并不表示机器翻译的结果不需要做人工校对。





[Edited at 2012-12-23 06:35 GMT]

[Edited at 2012-12-23 06:36 GMT]


 
wherestip
wherestip  Identity Verified
الولايات المتحدة
Local time: 20:52
صيني إلى أنجليزي
+ ...
抱歉 Dec 23, 2012

Loise Hsu wrote:


你误会了。我的意思是说,以统计方法为基础的翻译软件在能够进行翻译之前,需要收集一套允许建立翻译规则的材料(XML形式的语料和文本),对之进行比对和统计分析,然后依据统计结果建立一套语言规则,再根据这个规则进行后续的翻译。
以统计方法建立语言规则的做法最重视的是XML语法的正确性和精确性,并不需要对XML文本内含的语料内容进行人工校阅,因为它的语法规则跟选词是基于对XML语法的分析,并对语料内容进行统计计算,对之进行ranking取得的。所以软件的数据库里分析过的XML形式的语料和文本的数量越多,质量越高,同质性越高,文本分类越精确,机器本身的计算的精确度就越高,翻译的结果也就越理想。由于软件所分析的文本数量实在太庞大,想要对数据库里的语料进行人工校阅是非常不切实际的做法。
但这并不表示机器翻译的结果不需要做人工校对。



Oh, I see. My apologies. I didn't really read the previous exchanges very carefully.

You were talking about selection of the raw material in the process of training artificial neural networks, establishing grammar rules, etc.. Yes, I agree that you have to base it on a wide range of vocabulary and speech patterns of humans, highly educated or not, without significant discrimination. Indeed, the bigger the data base, the better.


[Edited at 2012-12-23 17:26 GMT]


 
صفحات الموضوع:   < [1 2]


To report site rules violations or get help, contact a site moderator:

مشرفو هذا المنتدى
Rita Pang[Call to this topic]
David Lin[Call to this topic]

You can also contact site staff by submitting a support request »

有没有想一起做翻译服务和翻译软件公司的啊?






Trados Business Manager Lite
Create customer quotes and invoices from within Trados Studio

Trados Business Manager Lite helps to simplify and speed up some of the daily tasks, such as invoicing and reporting, associated with running your freelance translation business.

More info »
Anycount & Translation Office 3000
Translation Office 3000

Translation Office 3000 is an advanced accounting tool for freelance translators and small agencies. TO3000 easily and seamlessly integrates with the business life of professional freelance translators.

More info »