八.文字的法則
文字有其法則,簡稱「文法」,這個規則,適用於任何文字,語言亦相同。由於個人使用的是中文,所以研究的文字,也是中文。文字與化學元素有點像,有其本質,但為多面向的,會因為選擇不同文字,決定它要展示的特質,有時會隱藏,有時會強化,不能結合在一起的文字,便各自生存。文字在結合之後,便成了句子。這樣的說法,看似簡單,但是,若要教導電腦瞭解其原理,卻難如登天。
為何個人會這麼說呢?其原理來自於人們,對於自己的錯誤認知:「人類瞭解語言及文字。」其實,人類並不瞭解語言及文字,因為這是假像,我們可以從以下的例子,說明:
一.小明和小華都是十九歲,小明重 五十五公斤 ,小華重 五十公斤 ,請問誰較為重?又誰比較輕?
二.小毛是小明的妹妹,她十八歲,重 四十五公斤 ,請問,小華與小毛,誰比較重?
關於第一題,大家應該都會很快地回答:「小明比較重,小華比較輕!」
至於第二題,大家應該都會說:「小華比較重!」
其實,個人會引這兩個問題,並不是在討論誰比較重,而是把兩個問題,引出一個重點來:「為什麼,小華對照到小明就是輕,對照到小毛就是重?為什麼他可以同時被說成「輕與重」?」
我想很多人都會暗自嘲笑:「這個人真笨,因為他比小明輕啊,本來就是輕,比小毛重,當然就是重,這樣還要問,這是多麼白痴的問題啊?」是的!若照常識來看,這確實是很白痴的問題,但是,要研究「人工智慧」,那就非得先研究這麼簡單的問題不可。
「小華對照到小明就是輕,對照到小毛就是重。」這樣的說法,只能算是結果論,而非整個事件的答案,如果你還是以為你真的瞭解,你可以試著去寫電腦程式看看,你會發現,這個問題,其實是非常難的,你要花上不少時間,纔能想出答案。當然,會有人問我知不知道「輕與重」這類問題的答案?我會說:「我知道答案,然而,這時候所謂的「知道」,只是一種比較科學、電腦化、有系統地解釋。事實上我的腦子,是錯覺上的認知:「腦中所有相關資料,算出來的結果,也就是知道」。」不過,因為這是屬於個人的研究心得(祕訣),所以暫時不說出來。
文字的特質為何?很難解釋!若是我們先從中文的用法來檢視,可能會比較快一點理解:
分離、分散、分別、分開、奔跑、飽滿、痴呆、愚笨...
這樣的用語,我們每天都在用,可是很少人會問,為什麼它們會一起使用?若是真有人這樣子問別人,可能又會被罵:「白痴!」了。不過,我卻真的很認真地在想這類用語,為什麼會這樣使用?那照這樣來說,那我也真的算是個頂級的「白痴」了。
其實仔細去看「分離、分散、分別、分開」,這些用詞,你會發現,每個「分」字之後的字,它的特質都和「分」字的特質很像。「說文解字」對「分」字的解釋為:「別也。从八刀,刀以分別物也。」換言之,「分」的意思為:「原為一個物體,被刀切開為二。」再來看:「離、散、別、開」,也是類似之意。那為甚麼中國人要把二個意思相近的字放在一起用?為什麼不任意選一個?比如說,只用「分」或是「離」,「散」也行啊!為什麼?為了讓句子優美?呵,我敢肯定,並不只是這樣子,這樣子的用法,個人認為,主要是為了讓字義穩定下來,而不讓別的字義影響他們,縱使是單獨使用他們時,也是為了,直接顯示他們字義的特質,用化學的方式來解釋:
2HCl+2Na->2NaCl+H2
當鈉遇到鹽酸時,鈉的活性大於氫,所以把氫趕跑了,變成了鹽,就是穩定的物質。惟一不同的是,化學物是正負電子相吸引,而穩定結合的物質,文字有時則是選擇特質相同的單字結合在一起。
我們之所以會說「分離、分散、分別、分開」這些字眼。這是為了強調某個事件「不在一起」,所以纔這樣子用的,這個時候,他們的穩定度極高,可以修飾別的字,比如:
「分散」步兵的人數。
如果「分散」二字沒有綁在一起,那麼在一開始說話時,就會變成「散步兵..」或是「分步兵..」聽起來,就很詭異。所以現在再回頭看「奔跑、飽滿、痴呆、愚笨」的用法,大家就會發現,其實它們的都是特質相同的單字,綁在一起使用的。
然而,奇怪的是,當單字和自己綁在一起時,卻又弱化了自己的特質:
對照一
用詞 |
解釋 |
白白的 |
有點白 |
黑黑的 |
有點黑 |
熱熱的 |
有點熱 |
呆呆的 |
有點呆 |
好好的 |
正常的情形下 |
狠狠的 |
兇猛地(好像只有這個不一樣) |
車車 |
車子(可愛化) |
狗狗 |
狗(可愛化) |
壞壞 |
不乖(小孩用語) |
肉肉的 |
有點胖 |
矮矮的 |
不會很矮 |
油油的 |
有點油在上面。 |
媽媽 |
母親(無從解釋,應該說是小孩改不掉的習慣語) |
爸爸 |
父親(無從解釋,應該說是小孩改不掉的習慣語) |
若從對照一來看,確實是很有趣、值得注意的現象。
除此之外,我們再來看看「上」這個字,這個字的用法,也挺值得參考的:
對照二
一.第一個字為「上」時 |
二.第二個字為「上」時 |
上車、上臺、上去、上市、上手、上午、上升、上好 |
車上、臺上、北上、班上、皇上、關上、帶上 |
「上」這個字,通常是指的是位置,比如說「上面」,它的對照就是「下面」。而人們卻把它延伸成為「動詞」,從對照二的第一項,就可以很明顯地看出來。本來要到「車子內部」,就把「移動到車子中」說成「上車」,「上」字,就變成了「動詞」,完成之後,就變成了「在車上」,「在」字指的是「物體所在處」,而這時的「上」卻又變成了「位置」。其他的「上臺、上去、上升」,用法均類似,當然,如果你再注意看,其實這是有一定的法則在裡面,大部份的時侯:
當「上」字在前,第二個字為「物體」或是「動詞」時,「上」字的特質即為「動詞」。
我們再看「上午」這個詞。這個詞,要拿來和英文比較,因為很重要。
對照三
英文 |
中文 |
Morning |
上午 |
Noon |
中午 |
Afternoon |
下午 |
我以前沒注意到,英文的「早上」竟然是個進行式。
這個對照為了說明東西文化的不同,英文的「下午」為「Afternoon」,指的是「在中午的後面」。中文指的卻是「在中午的下面」。這樣的字眼,是特意的,因為中文講的是「直書」,英文卻是「橫書」,所以中文會說「上下」,英文說「前後」。
而以前的人把物品的等級,或是人纔的優劣分為九等,即「上中下」,又在其中再分「上中下」,也就是一個三乘三的二維陣列。這樣的作法,純粹是文字的背景因素所致。
再回來看「上午」這個詞,因為第二個字「午」指的是「時段」,並非有形物體,所以「上」字雖然在前,卻被後面的字同化了,轉化成了「部份的時段」也就是「時間」,而它的名字稱為「上午」。
若就對照二的第二項來看,它的法則,應該是這樣子:
當「上」字在後,而前面的為「有形物體」時,「上」字的特質即為「位置」,像是「車上、臺上」。
當「上」字在後,而前面的為「動詞」時,「上」字的特質即為「輔助動詞」(確實很難解釋)。
可是當我們來看「班上」這個詞時,又發現,它是屬於另一種規則,這個名詞,通常是用於學生,比如說:「我們班上...」而這時的「上」字,指的卻又是「群體之中」。因此它的特質又再轉變了。
那我們再把兩個字調換位置,變成「上班」,它的意義變成又不同了,比如:
甲:「我明天要去上班了。」
乙:「你要開始工作了?」
這兩句話,看似很平凡,卻是有很多地方,是我們要研究很久纔能理解的,為了避免文章過於冗長,我們就只挑兩個部份來討論。
第一個是「上班」,由於「上」字,是在「班」字之前,而「班」字,這時講的是「責任」,是一個狀態詞,可以關閉(下班)或是開啟,所以「上」字,在這邊又成了動詞。
第二個是「上班」與「工作」的對照,對於電腦而言,是兩個不同的字眼,但是,若以人的標準來看,立即就知道這是相同的意思。很奇怪?那人腦是如何辦到的?很簡單,因為這些單字中,都有一些隱藏的特質,當它們遇到了對應的字之後,特質就會被強化,我們大腦會立即判斷出,它們是相等的,所以,當我們聽到、看到「上班」這個詞時,就知道它的意思等於「工作」,而這樣的資料是藏在我們大腦的資料庫中的,在日常的生活中,我們就是依據這樣的條件去與他人溝通,並不是因為我們真的瞭解語言、文字。換言之,所謂的「瞭解」,是架構在語言、文字的特質比對,最終產生的結果。
所以我們若要研究「人工智慧」,就不能以單純的字串比對方式來進行,如果真是這樣做,那就會永遠在迷霧中打轉了。
若從前面的說明來看,其實每一個中文字,都有一個標準的特質存在,可以被延伸引用,或是被其他的字轉化,因此說起來,文字的運作有點類似於化學元素。個人認為,這類的特質如果掌控得宜,那麼,要讓電腦與人直接以文字或語言溝通就變得容易多了。
當然,人們在溝通之時,不可能只靠簡單的文字在對話,而是一聯串相關的單字,構成了一個句子,而句子的判讀,它的方式也很重要。一個句子的形成,仰賴的就是「人、時、地、事、物」這五個字,比如:
一.小明早上去公司上班了。
人:小明,時:早上,事:上班,地:公司。
二.前天,我們幫小華過生日,買了個大蛋糕。
人:我們,時:前天,事:幫小華過生日,物:蛋糕。
也許有人會嗤之以鼻:「這麼簡單的五個字,也敢拿出來講!」然而,要對這五個字有所領悟,並不是簡單的事情,人們之所以能夠把一長串的文章,分成句子判讀,主要是參考這五個要素的運作,而運作的方式,是考量它們在句子中優先前後,主導了一個句子的長短,換言之,誰的優先度較大,誰就能取得句子的「主控權」及長度。
優先度:
一.人,二.時,三.事,四.地,五.物。
我想一定有很多人覺得很奇怪?何謂句子的主控權?它指的是:「從某個字開始到後面的某個字為止,所形成的句子,而這個句子,以它為中心或關鍵。」
舉例說明:
早上小明去上學,遇到小華後,一起去買早餐,小華忘記帶錢,小明借他五十元,兩個人買完之後纔去學校。
這個例子,是以逗號做區隔,就句子看起來,已經分好了,可是別忘了,人們在交談時,並沒有在用標點符號,而且中國人以前也是不用的,再照常理推斷,電腦也是不需要用,因為很多人的標點,落得不好,若把標點符號算進去,某些時候,很容易誤導他人跟電腦。
現在來討論主控權
對照四
次序 |
句子 |
對象 |
主控權 |
一 |
早上小明去上學 |
小明 |
小明 |
二 |
遇到了小華 |
小明 |
小明 |
三 |
一起去買早餐 |
小明、小華 |
買 |
四 |
小華忘記帶錢 |
小華 |
小華 |
五 |
小明借他五十元 |
小明或小華 |
小明或小華 |
六 |
兩個人買完之後纔去學校 |
小明、小華 |
小明、小華 |
看起來是稀鬆平常的句子,其實內藏玄機。乍看之下,整件事情是以小明為主角。但是換個方式來問:「請問句子中,有誰去買早餐?」
一般人都會回答:「小明、小華。」看起來很簡單,因為人們一看就知道,然而,實際上,我們卻是從第一個字讀到最後一個字。再把文章重新判讀,讀到第三句時,纔會確定答案。在此之前,每一句話都有它的主角在,主角才能確立每句話到那邊結束?下一句何時開始?
把這些話用電腦跑也是一樣,一字一句來讀,不會有差別。就算是機器人處理語言的部份,也跟人一樣,不會比較快。
當然,如果主角不在時,順位就會遞補,第二句話的部份,若以小明為主角時,主控權就是小明,但是,換個方式問:「誰遇到了小華?」那麼,該句話,就是小華為主控者。
我知道,很多人會好奇?為何有「主控者」(主控權)這個詞?這個問題,仍在於一個關鍵:「因為要確立一個句子長度,纔能解讀訊息。」所以「主控權」不確定時,句子就會混淆。
後面的句子,也可以證明。而各位也可以自己推測,為什麼你可以把句子改正?
需改正之舉例:
早上小華要,去約會遇到,小花後嚇一跳,因為她是他的,房東小華很久沒給,房租錢,了只好去,躲起來。
我故意把句子改壞了,我相信各位一定可以改正句子,然而有能力改正句子,不代表你真的知道為甚麼?我相信很多人仍是那句話:「反正就是不合語法,這樣改就對了。」正因為有這樣的回答,就更加說明了,人們對於語言的構成方式,不是真的瞭解,換言之,也就是對一個句子中「主控權」的意義不明瞭。
再來就是,同等順位的「主控者」,很多時候是不能並存的,除非他們是群組關係,或者另一個對象為受詞,比如:
群組關係:小明、小華、小毛一齊來到我家(主控權為遇到的第一者,句子可拆可不拆)。
受詞:小華很愛小毛,沒有她,小華活不下去(小毛為受詞)。
不能共存的情形:小明買了十個包子,小華買了一個饅頭。(主控者為小明、小華,兩者都是主詞,主控順位相同,各立山頭,不能相容)。
就前述例子來說,相信各位已經稍微解理解「主控權」,對於一個句子的影響,正因為句子的構成有很多種,而前述的說明,只佔了其中的一部份,若要再深入到所有的句型中,就得加入其他的參考條件,而這些條件,是需要另行花費時間研究的。
除了「主控權」之外,個人想談一下關於「疑問句」的用法。在此類的語法中,中文與英文有很大的不同,英文的疑問句,大部份的時候是由起頭的部份來判定,中文則不一定,比如:
對照五
|
英文 |
中文 |
一 |
How are you doing? |
你好嗎(你們好嗎)? |
二 |
Do you understand? |
你瞭解嗎? |
三 |
How did I know? |
我怎麼會知道? |
四 |
Are you there? |
你在哪邊嗎?(你是不是在那邊?) |
當初個人在研究這問句這部份時,曾有一個迷思:「英文的問句,好像比中文來得好。」這個理由是因為英文的疑問句,都是從起頭就可以判定,判定的條件:
How、Where、When、Are、Am、Do、Did、Does、Had、Have…。
只要看到前述單字開頭的句子,就差不多是問句了。這樣子看起來,英文好像真的比較簡單的樣子。可是再仔細研究的結果,纔發現,問句不會因為「英文的方式」就比較簡單,舉例如後:
英文
Where Are You?
中文
你在哪裡?
這樣的對照,看起來,好簡單,英文好像真的是比較優秀,然而事實上,我們日常在對話時,是不用標點符號的,因此這樣的對話,某種程度上就有漏洞,比如:
英文
Where Are You..(Going ?)
中文
你在哪裡?(你要去哪裡?)
如果是跟你對話的人,在講:「Where Are You」,又吞了一下口水,纔講:「Going」,整句話的意思,就不一樣了。當然一般人不會這麼說,但是,我們不能排除,使用在與電腦對話時,可能遇到這種情形。隨後個人纔想到,為什麼中文會把問句的提示語放在句中,或是句末。原因很簡單:「說話的人要把話說完,聽話的人要把別人的話聽完。」這個原因,不論中外皆然,所以,縱使是英文,你也得把話講完,別人纔可以回應,而不是別人講話到一半就打斷,這樣子當然有可能會錯意。因此,再來看中文的常用語與問句:
一. 這個是你的(分發物品)。
二. 這個是你的嗎?
三. 不要玩了。
四. 不要玩了嗎?
若照前面來看,中文也是一樣,差了一個字,差很多。所以就兩者來說,英文的疑問句,比起中文,不會比較好,也不會比較差,只能說各有所長。就這樣,個人歸納了一下常見的中文「疑問詞」,如後:
對照六
項次 |
用法 |
用語 |
一 |
句子當中 |
是不是、是否、要不要、能不能、怎麼、多少 |
二 |
句子最後 |
嗎、呢 |
三 |
句子起頭 |
為甚麼、甚麼 |
四 |
句子任一處 |
誰、何者、哪 |
看起來,只要瞭解了「疑問詞」,我們好像就可以利用它,來進行語句的判定:
這個「多少」錢?
「誰」來過這裡?
你還要再吃「嗎」?
你身上「有沒有」錢?
一開始個人也是這麼樂觀地認為,只要抓對了「疑問詞」,就可以針對句子來進行回答。然而在經過多次的試驗之後,個人發現這樣子會發生一些問題,因為這種做法,只能回答小部份的問句。若是對於複雜或是情境似的問題,還是不能完全處理,例如以下的對話:
甲:「明天這裡換人打掃。」
乙:「哦!換別人了嗎?」
如果只是使用「疑問詞」,看似很容易,一看就知道是在問事情,因為有「關鍵字」,然而,若是要電腦判斷呢?這樣的問題,難度就變得很高了,因為電腦根本就無法瞭解乙的問題,不只是因為答案很多種(本來就沒有標準的答案),而是在於乙的發問:「指的是常見的某個人,將被更替。」若是要電腦回答乙的問題呢?電腦要怎麼知道,除了那個「嗎」字以外,其他的單字,也是必須被納入「思考」的對像?我們要如何賦與電腦這樣的能力?所以,這種問題,就又回到了本文開頭的地方,亦即「文字的特質」,我們仍舊必須先瞭解它們的特質,纔有辦法教導電腦與人們溝通,這纔是解決之道。
在研究「文字的特質」這些時間,個人也曾琢磨了一下「正體中文」與「簡體中文」的運用,若是以人的角度來看,兩者在使用上,熟悉上手即可,難度差異可能不大。然而,若從「文字的特質」去考量,那麼,初期在研究「人工智慧」的部份,「正體中文」可能會比「簡體中文」來得容易些,這並不是從「我是使用正體字」的方向去思考,而是從「文字的特質」去比較。因為「簡體中文」是從簡化中文的方向去運用漢字,因此,有些字,本來意義完全是不一樣的,卻因為簡化之故,被統一在某個字義上,變成了該單字,擁有了別的字義的特質。
既然這樣,我們在分析字義時,勢必要把不相干的「特質」加到它的身上,造成了電腦判讀的難度提升,比如:
對照六
項次 |
正體 |
簡體 |
一 |
乾淨 |
干淨 |
二 |
幹得好 |
干得好 |
三 |
拉麵 |
拉面 |
四 |
面子 |
面子 |
五 |
並且 |
并且 |
六 |
合併 |
合并 |
七 |
發財 |
发财 |
八 |
頭髮 |
头发 |
對照六的部份是個人在網路上找到的資料,這方面共用的字有多少?我並不清楚,就拿「干」字來說好了,「正體中文」只需要分析它自己的發音及字義即可,然而,在「簡體中文」之中,它卻必須背著「乾」、「幹」二字的發音及字義來運作,就資料庫的儲存部份來說,它們和「正體中文」的數量是相同的,但是電腦判讀「文字的特質」之難度卻提高了,而且還沒加上整體「句子」的對照判讀部份,所以,個人纔會說,在初期的研究,「正體中文」可能會比較容易些,因為電腦只需處理各個字義自己的特質即可。
「文字的法則」是一個很龐大的知識庫,要花很多時間去研究的,而個人也只瞭解萬中之一而已,現在拿出來談,有點像是在賣弄學問,然而縱使個人不說,將來也必定有別人會提出來,因此個人就先在此時發表這些論點了。若再綜觀前述個人觀,個人的看法是:「人類並不瞭解文字及語言。」個人相信這樣的論點,將來的人們也可以驗證,至於時間,只是早晚的問題了。
留言列表