close

八.文字的法則

 

文字有其法則,簡稱「文法」,這個規則,適用於任何文字,語言亦相同。由於個人使用的是中文,所以研究的文字,也是中文。文字與化學元素有點像,有其本質,但為多面向的,會因為選擇不同文字,決定它要展示的特質,有時會隱藏,有時會強化,不能結合在一起的文字,便各自生存。文字在結合之後,便成了句子。這樣的說法,看似簡單,但是,若要教導電腦瞭解其原理,卻難如登天。

 

為何個人會這麼說呢?其原理來自於人們,對於自己的錯誤認知:「人類瞭解語言及文字。」其實,人類並不瞭解語言及文字,因為這是假像,我們可以從以下的例子,說明:

 

.小明和小華都是十九歲,小明重 五十五公斤 ,小華重 五十公斤 ,請問誰較為重?又誰比較輕?

 

二.小毛是小明的妹妹,她十八歲,重 四十五公斤 ,請問,小華與小毛,誰比較重?

 

關於第一題,大家應該都會很快地回答:「小明比較重,小華比較輕!」

 

至於第二題,大家應該都會說:「小華比較重!」

 

其實,個人會引這兩個問題,並不是在討論誰比較重,而是把兩個問題,引出一個重點來:「為什麼,小華對照到小明就是輕,對照到小毛就是重?為什麼他可以同時被說成「輕與重」?」

 

我想很多人都會暗自嘲笑:「這個人真笨,因為他比小明輕啊,本來就是輕,比小毛重,當然就是重,這樣還要問,這是多麼白痴的問題啊?」是的!若照常識來看,這確實是很白痴的問題,但是,要研究「人工智慧」,那就非得先研究這麼簡單的問題不可。

 

「小華對照到小明就是輕,對照到小毛就是重。」這樣的說法,只能算是結果論,而非整個事件的答案,如果你還是以為你真的瞭解,你可以試著去寫電腦程式看看,你會發現,這個問題,其實是非常難的,你要花上不少時間,纔能想出答案。當然,會有人問我知不知道「輕與重」這類問題的答案?我會說:「我知道答案,然而,這時候所謂的「知道」,只是一種比較科學、電腦化、有系統地解釋。事實上我的腦子,是錯覺上的認知:「腦中所有相關資料,算出來的結果,也就是知道」。」不過,因為這是屬於個人的研究心得(祕訣),所以暫時不說出來。

 

文字的特質為何?很難解釋!若是我們先從中文的用法來檢視,可能會比較快一點理解:

 

分離、分散、分別、分開、奔跑、飽滿、痴呆、愚笨...

 

這樣的用語,我們每天都在用,可是很少人會問,為什麼它們會一起使用?若是真有人這樣子問別人,可能又會被罵:「白痴!」了。不過,我卻真的很認真地在想這類用語,為什麼會這樣使用?那照這樣來說,那我也真的算是個頂級的「白痴」了。

 

其實仔細去看「分離、分散、分別、分開」,這些用詞,你會發現,每個「分」字之後的字,它的特質都和「分」字的特質很像。「說文解字」對「分」字的解釋為:「別也。从八刀,刀以分別物也。」換言之,「分」的意思為:「原為一個物體,被刀切開為二。」再來看:「離、散、別、開」,也是類似之意。那為甚麼中國人要把二個意思相近的字放在一起用?為什麼不任意選一個?比如說,只用「分」或是「離」,「散」也行啊!為什麼?為了讓句子優美?呵,我敢肯定,並不只是這樣子,這樣子的用法,個人認為,主要是為了讓字義穩定下來,而不讓別的字義影響他們,縱使是單獨使用他們時,也是為了,直接顯示他們字義的特質,用化學的方式來解釋:

 

2HCl+2Na->2NaCl+H2

 

當鈉遇到鹽酸時,鈉的活性大於氫,所以把氫趕跑了,變成了鹽,就是穩定的物質。惟一不同的是,化學物是正負電子相吸引,而穩定結合的物質,文字有時則是選擇特質相同的單字結合在一起。

 

我們之所以會說「分離、分散、分別、分開」這些字眼。這是為了強調某個事件「不在一起」,所以纔這樣子用的,這個時候,他們的穩定度極高,可以修飾別的字,比如:

 

「分散」步兵的人數。

 

如果「分散」二字沒有綁在一起,那麼在一開始說話時,就會變成「散步兵..」或是「分步兵..」聽起來,就很詭異。所以現在再回頭看「奔跑、飽滿、痴呆、愚笨」的用法,大家就會發現,其實它們的都是特質相同的單字,綁在一起使用的。

 

然而,奇怪的是,當單字和自己綁在一起時,卻又弱化了自己的特質:

 

對照一

 


用詞


解釋


白白的


有點白


黑黑的


有點黑


熱熱的


有點熱


呆呆的


有點呆


好好的


正常的情形下


狠狠的


兇猛地(好像只有這個不一樣)


車車


車子(可愛化)


狗狗


狗(可愛化)


壞壞


不乖(小孩用語)


肉肉的


有點胖


矮矮的


不會很矮


油油的


有點油在上面。


媽媽


母親(無從解釋,應該說是小孩改不掉的習慣語)


爸爸


父親(無從解釋,應該說是小孩改不掉的習慣語)

 

 

 

若從對照一來看,確實是很有趣、值得注意的現象。

 

除此之外,我們再來看看「上」這個字,這個字的用法,也挺值得參考的:

 

對照二

 


.第一個字為「上」時


.第二個字為「上」時


上車、上臺、上去、上市、上手、上午、上升、上好


車上、臺上、北上、班上、皇上、關上、帶上

 

「上」這個字,通常是指的是位置,比如說「上面」,它的對照就是「下面」。而人們卻把它延伸成為「動詞」,從對照二的第一項,就可以很明顯地看出來。本來要到「車子內部」,就把「移動到車子中」說成「上車」,「上」字,就變成了「動詞」,完成之後,就變成了「在車上」,「在」字指的是「物體所在處」,而這時的「上」卻又變成了「位置」。其他的「上臺、上去、上升」,用法均類似,當然,如果你再注意看,其實這是有一定的法則在裡面,大部份的時侯:

 

當「上」字在前,第二個字為「物體」或是「動詞」時,「上」字的特質即為「動詞」。

 

我們再看「上午」這個詞。這個詞,要拿來和英文比較,因為很重要。

 

對照三

 


英文


中文


Morning


上午


Noon


中午


Afternoon


下午

 

我以前沒注意到,英文的「早上」竟然是個進行式。

 

這個對照為了說明東西文化的不同,英文的「下午」為「Afternoon」,指的是「在中午的後面」。中文指的卻是「在中午的下面」。這樣的字眼,是特意的,因為中文講的是「直書」,英文卻是「橫書」,所以中文會說「上下」,英文說「前後」。

 

而以前的人把物品的等級,或是人纔的優劣分為九等,即「上中下」,又在其中再分「上中下」,也就是一個三乘三的二維陣列。這樣的作法,純粹是文字的背景因素所致。

 

再回來看「上午」這個詞,因為第二個字「午」指的是「時段」,並非有形物體,所以「上」字雖然在前,卻被後面的字同化了,轉化成了「部份的時段」也就是「時間」,而它的名字稱為「上午」。

 

        若就對照二的第二項來看,它的法則,應該是這樣子:

 

當「上」字在後,而前面的為「有形物體」時,「上」字的特質即為「位置」,像是「車上、臺上」。

 

當「上」字在後,而前面的為「動詞」時,「上」字的特質即為「輔助動詞」(確實很難解釋)。

 

 

 

可是當我們來看「班上」這個詞時,又發現,它是屬於另一種規則,這個名詞,通常是用於學生,比如說:「我們班上...」而這時的「上」字,指的卻又是「群體之中」。因此它的特質又再轉變了。

 

那我們再把兩個字調換位置,變成「上班」,它的意義變成又不同了,比如:

 

甲:「我明天要去上班了。」

 

乙:「你要開始工作了?」

 

 

 

這兩句話,看似很平凡,卻是有很多地方,是我們要研究很久纔能理解的,為了避免文章過於冗長,我們就只挑兩個部份來討論。

 

第一個是「上班」,由於「上」字,是在「班」字之前,而「班」字,這時講的是「責任」,是一個狀態詞,可以關閉(下班)或是開啟,所以「上」字,在這邊又成了動詞。

 

第二個是「上班」與「工作」的對照,對於電腦而言,是兩個不同的字眼,但是,若以人的標準來看,立即就知道這是相同的意思。很奇怪?那人腦是如何辦到的?很簡單,因為這些單字中,都有一些隱藏的特質,當它們遇到了對應的字之後,特質就會被強化,我們大腦會立即判斷出,它們是相等的,所以,當我們聽到、看到「上班」這個詞時,就知道它的意思等於「工作」,而這樣的資料是藏在我們大腦的資料庫中的,在日常的生活中,我們就是依據這樣的條件去與他人溝通,並不是因為我們真的瞭解語言、文字。換言之,所謂的「瞭解」,是架構在語言、文字的特質比對,最終產生的結果。

 

所以我們若要研究「人工智慧」,就不能以單純的字串比對方式來進行,如果真是這樣做,那就會永遠在迷霧中打轉了。

 

若從前面的說明來看,其實每一個中文字,都有一個標準的特質存在,可以被延伸引用,或是被其他的字轉化,因此說起來,文字的運作有點類似於化學元素。個人認為,這類的特質如果掌控得宜,那麼,要讓電腦與人直接以文字或語言溝通就變得容易多了。

 

當然,人們在溝通之時,不可能只靠簡單的文字在對話,而是一聯串相關的單字,構成了一個句子,而句子的判讀,它的方式也很重要。一個句子的形成,仰賴的就是「人、時、地、事、物」這五個字,比如:

 

.小明早上去公司上班了。

 

人:小明,時:早上,事:上班,地:公司。

 

.前天,我們幫小華過生日,買了個大蛋糕。

 

人:我們,時:前天,事:幫小華過生日,物:蛋糕。

 

 

 

也許有人會嗤之以鼻:「這麼簡單的五個字,也敢拿出來講!」然而,要對這五個字有所領悟,並不是簡單的事情,人們之所以能夠把一長串的文章,分成句子判讀,主要是參考這五個要素的運作,而運作的方式,是考量它們在句子中優先前後,主導了一個句子的長短,換言之,誰的優先度較大,誰就能取得句子的「主控權」及長度。

 

優先度:

 

.人,二.時,三.事,四.地,五.物。

 

我想一定有很多人覺得很奇怪?何謂句子的主控權?它指的是:「從某個字開始到後面的某個字為止,所形成的句子,而這個句子,以它為中心或關鍵。」

 

舉例說明:

 

早上小明去上學,遇到小華後,一起去買早餐,小華忘記帶錢,小明借他五十元,兩個人買完之後纔去學校。

 

 

 

這個例子,是以逗號做區隔,就句子看起來,已經分好了,可是別忘了,人們在交談時,並沒有在用標點符號,而且中國人以前也是不用的,再照常理推斷,電腦也是不需要用,因為很多人的標點,落得不好,若把標點符號算進去,某些時候,很容易誤導他人跟電腦。

 

現在來討論主控權

 

對照四

 


次序


句子


對象


主控權



早上小明去上學


小明


小明



遇到了小華


小明


小明



一起去買早餐


小明、小華




小華忘記帶錢


小華


小華



小明借他五十元


小明或小華


小明或小華



兩個人買完之後纔去學校


小明、小華


小明、小華

 

看起來是稀鬆平常的句子,其實內藏玄機。乍看之下,整件事情是以小明為主角。但是換個方式來問:「請問句子中,有誰去買早餐?」

 

一般人都會回答:「小明、小華。」看起來很簡單,因為人們一看就知道,然而,實際上,我們卻是從第一個字讀到最後一個字。再把文章重新判讀,讀到第三句時,纔會確定答案。在此之前,每一句話都有它的主角在,主角才能確立每句話到那邊結束?下一句何時開始?

 

把這些話用電腦跑也是一樣,一字一句來讀,不會有差別。就算是機器人處理語言的部份,也跟人一樣,不會比較快。

 

當然,如果主角不在時,順位就會遞補,第二句話的部份,若以小明為主角時,主控權就是小明,但是,換個方式問:「誰遇到了小華?」那麼,該句話,就是小華為主控者。

 

我知道,很多人會好奇?為何有「主控者」(主控權)這個詞?這個問題,仍在於一個關鍵:「因為要確立一個句子長度,纔能解讀訊息。」所以「主控權」不確定時,句子就會混淆。

 

後面的句子,也可以證明。而各位也可以自己推測,為什麼你可以把句子改正?

 

需改正之舉例:

 

早上小華要,去約會遇到,小花後嚇一跳,因為她是他的,房東小華很久沒給,房租錢,了只好去,躲起來。

 

 

 

我故意把句子改壞了,我相信各位一定可以改正句子,然而有能力改正句子,不代表你真的知道為甚麼?我相信很多人仍是那句話:「反正就是不合語法,這樣改就對了。」正因為有這樣的回答,就更加說明了,人們對於語言的構成方式,不是真的瞭解,換言之,也就是對一個句子中「主控權」的意義不明瞭。

 

再來就是,同等順位的「主控者」,很多時候是不能並存的,除非他們是群組關係,或者另一個對象為受詞,比如:

 

群組關係:小明、小華、小毛一齊來到我家(主控權為遇到的第一者,句子可拆可不拆)。

 

受詞:小華很愛小毛,沒有她,小華活不下去(小毛為受詞)。

 

不能共存的情形:小明買了十個包子,小華買了一個饅頭。(主控者為小明、小華,兩者都是主詞,主控順位相同,各立山頭,不能相容)。

 

 

 

        就前述例子來說,相信各位已經稍微解理解「主控權」,對於一個句子的影響,正因為句子的構成有很多種,而前述的說明,只佔了其中的一部份,若要再深入到所有的句型中,就得加入其他的參考條件,而這些條件,是需要另行花費時間研究的。

 

除了「主控權」之外,個人想談一下關於「疑問句」的用法。在此類的語法中,中文與英文有很大的不同,英文的疑問句,大部份的時候是由起頭的部份來判定,中文則不一定,比如:

 

對照五

 


 


英文


中文



How are you doing


你好嗎(你們好嗎)?



Do you understand


你瞭解嗎?



How did I know


我怎麼會知道?



Are you there


你在哪邊嗎?(你是不是在那邊?)

 

 

 

當初個人在研究這問句這部份時,曾有一個迷思:「英文的問句,好像比中文來得好。」這個理由是因為英文的疑問句,都是從起頭就可以判定,判定的條件:

 

How、Where、When、Are、Am、Do、Did、Does、Had、Have…。

 

只要看到前述單字開頭的句子,就差不多是問句了。這樣子看起來,英文好像真的比較簡單的樣子。可是再仔細研究的結果,纔發現,問句不會因為「英文的方式」就比較簡單,舉例如後:

 

英文

 

Where Are You

 

中文

 

你在哪裡?

 

這樣的對照,看起來,好簡單,英文好像真的是比較優秀,然而事實上,我們日常在對話時,是不用標點符號的,因此這樣的對話,某種程度上就有漏洞,比如:

 

英文

 

Where Are You..(Going ?)

 

中文

 

你在哪裡?(你要去哪裡?)

 

如果是跟你對話的人,在講:「Where Are You」,又吞了一下口水,纔講:「Going」,整句話的意思,就不一樣了。當然一般人不會這麼說,但是,我們不能排除,使用在與電腦對話時,可能遇到這種情形。隨後個人纔想到,為什麼中文會把問句的提示語放在句中,或是句末。原因很簡單:「說話的人要把話說完,聽話的人要把別人的話聽完。」這個原因,不論中外皆然,所以,縱使是英文,你也得把話講完,別人纔可以回應,而不是別人講話到一半就打斷,這樣子當然有可能會錯意。因此,再來看中文的常用語與問句:

 

一.  這個是你的(分發物品)。

 

二.  這個是你的嗎?

 

三.  不要玩了。

 

四.  不要玩了嗎?

 

若照前面來看,中文也是一樣,差了一個字,差很多。所以就兩者來說,英文的疑問句,比起中文,不會比較好,也不會比較差,只能說各有所長。就這樣,個人歸納了一下常見的中文「疑問詞」,如後:

 

對照六

 


項次


用法


用語



句子當中


是不是、是否、要不要、能不能、怎麼、多少



句子最後


嗎、呢



句子起頭


為甚麼、甚麼



句子任一處


誰、何者、哪

 

看起來,只要瞭解了「疑問詞」,我們好像就可以利用它,來進行語句的判定:

 

這個「多少」錢?

 

「誰」來過這裡?

 

你還要再吃「嗎」?

 

你身上「有沒有」錢?

 

一開始個人也是這麼樂觀地認為,只要抓對了「疑問詞」,就可以針對句子來進行回答。然而在經過多次的試驗之後,個人發現這樣子會發生一些問題,因為這種做法,只能回答小部份的問句。若是對於複雜或是情境似的問題,還是不能完全處理,例如以下的對話:

 

甲:「明天這裡換人打掃。」

 

乙:「哦!換別人了嗎?」

 

 

 

如果只是使用「疑問詞」,看似很容易,一看就知道是在問事情,因為有「關鍵字」,然而,若是要電腦判斷呢?這樣的問題,難度就變得很高了,因為電腦根本就無法瞭解乙的問題,不只是因為答案很多種(本來就沒有標準的答案),而是在於乙的發問:「指的是常見的某個人,將被更替。」若是要電腦回答乙的問題呢?電腦要怎麼知道,除了那個「嗎」字以外,其他的單字,也是必須被納入「思考」的對像?我們要如何賦與電腦這樣的能力?所以,這種問題,就又回到了本文開頭的地方,亦即「文字的特質」,我們仍舊必須先瞭解它們的特質,纔有辦法教導電腦與人們溝通,這纔是解決之道。

 

在研究「文字的特質」這些時間,個人也曾琢磨了一下「正體中文」與「簡體中文」的運用,若是以人的角度來看,兩者在使用上,熟悉上手即可,難度差異可能不大。然而,若從「文字的特質」去考量,那麼,初期在研究「人工智慧」的部份,「正體中文」可能會比「簡體中文」來得容易些,這並不是從「我是使用正體字」的方向去思考,而是從「文字的特質」去比較。因為「簡體中文」是從簡化中文的方向去運用漢字,因此,有些字,本來意義完全是不一樣的,卻因為簡化之故,被統一在某個字義上,變成了該單字,擁有了別的字義的特質。

 

既然這樣,我們在分析字義時,勢必要把不相干的「特質」加到它的身上,造成了電腦判讀的難度提升,比如:

 

對照六

 


項次


正體


簡體



乾淨


干淨



幹得好


干得好



拉麵


拉面



面子


面子



並且


并且



合併


合并



發財


发财



頭髮


头发

 

對照六的部份是個人在網路上找到的資料,這方面共用的字有多少?我並不清楚,就拿「干」字來說好了,「正體中文」只需要分析它自己的發音及字義即可,然而,在「簡體中文」之中,它卻必須背著「乾」、「幹」二字的發音及字義來運作,就資料庫的儲存部份來說,它們和「正體中文」的數量是相同的,但是電腦判讀「文字的特質」之難度卻提高了,而且還沒加上整體「句子」的對照判讀部份,所以,個人纔會說,在初期的研究,「正體中文」可能會比較容易些,因為電腦只需處理各個字義自己的特質即可。

 

「文字的法則」是一個很龐大的知識庫,要花很多時間去研究的,而個人也只瞭解萬中之一而已,現在拿出來談,有點像是在賣弄學問,然而縱使個人不說,將來也必定有別人會提出來,因此個人就先在此時發表這些論點了。若再綜觀前述個人觀,個人的看法是:「人類並不瞭解文字及語言。」個人相信這樣的論點,將來的人們也可以驗證,至於時間,只是早晚的問題了。

 

 

arrow
arrow
    全站熱搜

    Mis人員的研究 發表在 痞客邦 留言(0) 人氣()