OpenParty "熙春暖意"

| No Comments
"熙春暖意"是农历新年后的第一期OpenParty活动。当天北京的天气虽不像活动的标题一样美丽----迎接我们的是一个寒意依旧,沙尘满天的日子,不过这不能阻挡众多热爱分享和交流的朋友的脚步。此次活动话题众多,还有一位前辈史无前例地贡献了一连三场话题,实在佩服。参与人数再度达到百人,现场到处都可以看到三两一组对技术/文化/其它各种各样话题进行交流的人,气场还是那么足。

还是简要叙述下自己参与的三个话题:

UI/UE设计讨论

这个是个现场讨论的话题,在话题组织者的带领下,大家针对UI/UE设计领域的问题各抒己见,自己在不少方面也有了更新的了解。限于讨论性话题的分散性,在这里仅简单记录下印象比较深刻的观点。

话题组织者引导大家做了这样一个用户体验试验:请一位用户扮作盲人,另一位用户帮助他读出鼠标所指处的文字来引导'盲人'用户完成某一个特定的任务。在这个看似简单的实验里,却能发现很多平常难以窥见的细节,如屏幕阅读会读出很多不需要的东西,从而给用户造成困惑等。事实上这个实验也是行业中的实际案例,在国外的某个网站项目中,有盲人用户致电客服,提出了很多实用性上的问题。其实不只是针对盲人,一个文字冗余、不直观、不对用户友好的界面设计,也是用户体验产品的直接障碍。
抓住用户目标性和随意性浏览的特点,达到用户和网站需求的平衡
通过调查、用户测试、观察、客观反馈、访问数据等方式进行用户的研究,"提升正面反馈,消除负面反馈"。
用户体验的度量。

现场参与的朋友也谈到了很多:

新版本上线前实施AB测试,引导 10%的用户到新版本设计。查看用户是否"尖叫"(即对新设计有尖锐的抵触),如果存在尖叫状况,新设计下线->进入Rollback设计流程。
谈到现今互联网领域的UI/UE问题,除了一些设计以及体验上的问题以外,还有一位朋友提出了"网站的服务意识差,用户的被服务意识也很差,如果更好地沟通以及交流反馈,在有些时候也是问题。用户积极参与的意识很重要。"

--------

把街机搬回家

@gokeeper 带来的,当天让无数技术男燃起的话题。讲述了如何把原汁原味的街机搬回家,要注意:使用的不是寻常的模拟器、PC摇杆,而是真正的街机硬件、街机框体和摇杆,当然还包括投入代币这种可勾起无数人美好回忆的体验。

其实如果想照葫芦画瓢实现一个也不是什么大问题,gokeeper的解决方案也说明了,山寨产品+淘宝+用心实现的激情基本上可以解决全部的问题。

自己简单记录下来的几个要点,供大家参阅:

  • 街机主板的游戏卡槽上,连接一款通过电脑来提供游戏的转接卡,价格不贵。
  • 山寨厂街机框体可定制,价格 1200 元左右,包括框体、29寸CRT、定制的摇杆和按钮。注意相较之下日本原厂的使用近十年的框体还要万余元,山寨厂的街机框体,价格便宜量又足。
  • 电视的扫描频率问题。显卡默认输出的刷新率过高,需通过更换驱动等特殊方式,降到15KHz左右
  • 淘宝上订购的精巧的投币装置 40元
  • 整套设备还具备传统街机难以想象的扩展能力,可以通过KAI与网上的玩家进行对战,还可以与Xbox 360进行连接,在庞大的街机框体上执行家用机游戏。

--------

网页正文提取初步

宋进亮博士带来的话题,整个话题其实也是自然语言识别领域的一小部分内容,不过宋博士的开场就先声明:"整个应用不限定特定行业,演讲中不用忽悠人的词",于是整个话题也就在轻松的环境下讲述了众多非常有料的内容。

现场演示的实例: 从Blog以及网站页面里面抓取正文

大体上看,目前的文字抓取方式,无外乎以下三种方法:
  • 通过正则表达式抓取:通过诸如 BeautifulSoup 这样的工具进行。
    • 方法简单,但是性能可能会有问题。与所抓取的目标网页依赖过大,一旦网页格式发生变动,就需要对抓取的方式进行一些更新。出于偷懒的原则,如果程序能够自动识别变化,那样才比较完美。
  • 标签特征,本话题所述方法即属于此类别
  • 基于视觉的处理,跨越标签领域,有一些的技术门槛,此话题暂不涉及。
    • (在2009年2月的OpenParty"有狐"活动中,有位来自雅虎中国的朋友分享了一篇在服务器端使用Firefox进行网页抓取和内容识别工作的话题,实际上就是基于视觉的处理实现)

基于文本密度算法的实现,是上述的标签特征类别的方法。
基本公式:纯文本字符数/HTML源码字符数

原始方法
  1. 记录HTML标签起始位置
  2. 统计HTML源码首尾包括的字符数和其中的文本字符数

使用Python的matplotlib对统计的结果进行图示查看,从直方图中直观地可以发现,网页中有一部分的文本密度明显高于其它部分。在整个过程中还可以使用Tidy软件包来清理HTML代码,实例中演示的Sina页面,使用Tidy进行清理后进行识别的效果要好很多。

从实际状况出发,对算法进行小调整:从以前的文本前后判断,变成标签前后判断

优点:数据的整体性更好。
缺点:数据的分布情况不够直观,有干扰。可以适当地加入一些值的过滤方式来实现

整个实现方法所使用的代码量:加入注释以及模式过滤的原脚本大约有200多行Python代码,如果是根据网上论文的原始实现,大约100多行Python代码

所参考的论文中描述的人工智能文本识别方法:
  • 使用神经网络模型
    • 可使用FANN库,有相应的Python封装
  • 采用原始的一刀切方式,会有丢行的现象产生。    
  • 个别行的密度会比较小。

神经网络模型的算法,可以采用机器进行学习的方式进行。不过要注意,学习所采用的原料和实际使用中所针对的目标相似度的关系也很重要。学习的量较少,可能会达不到完成任务所需的精度;而学习量过大,出现"过学习"的状况,也可能会出现过度吻合,从而导致对目标数据的变化非常敏感。

其它智能方法

针对HTML标签序列
  • 统计方法
  • 贝叶斯
  • 马尔可夫
  • CRF

不过为了达成我们的目标,找到最窍门的地方,才是最关键的。比如在很多应用场合下,看似粗旷的'一刀切'方法可能效果也非常不错。

这里介绍的自然语言识别只是一个具体的分支应用,而这个大领域还包括很多其他的内容,如逐渐变热的分词技术,也是值得关注的。

总的来说,自然语言识别技术需要根据应用领域、应用环境来提供相应的解决方案。没有银弹!

我一知半解的记录肯定略有偏差,想要详细了解此内容的朋友(如查阅上文提到的论文等内容),欢迎访问宋博士"提取HTML文档正文"的页面以及他的Blog访问详情。 

------

依旧分身乏术,本期活动还有很多其它大牛带来的精彩话题,只好期待其它参与朋友的记录了。现在每次在活动现场的事情越来越丰富:与各方朋友交流信息、控制话题时间安排、拍照、结识新朋友...... 诸多事情精力有限,再加上 OpenParty 的话题越来越多元化,自己对各个话题基于简单了解的记录,难免粗浅以至问题多多,还望大家多多包涵(了解细节请多参考来自演讲者的第一手资料)。我只希望自己这些简单的记录是引导大家进入某个话题或领域的一小步,就好像 OpenParty 帮助大家结识、了解和交流一样,我们没有奢望这种简单的事情能够立即带来什么翻天覆地的变化,但是这些却打开了无数的门,孕育了无数种可能。这就是最让我们兴奋的事情。


柬埔寨背包记六:奔密列及大水中的暹粒

| No Comments
我于2009年9月27日-10月8日在柬埔寨独自背包旅行,其间的经历和收获数不胜数。相关的经历我曾在 Beijing Open Party上有过一次交流分享,现在把旅行途中以及后来的一些记录陆续发布到这里,请感兴趣的朋友关注这里的更新。要查看本系列更多文章,欢迎点击页面右侧的Cambodia标签。除正文中的照片以外,还可以在我的豆瓣相册中欣赏因篇幅原因未能在文章中出现的照片上一次交流分享的slide可以在我的slideshare页面看到。

早起,驱车前往暹粒东北四十公里的古迹--奔密列。前往奔密列的路程,比昨天前往高布思滨还要遥远。一路上自然景色绚丽,不过最好用在柬埔寨买到的头巾裹住脸,因为TukTuk开出几十公里的路程,还是比较辛苦的体验 。近两个小时后到达收费站,奔密列不属于吴哥景区,所有需要单独买票,5美元。

跟随人群进入奔密列(景区人流不少),首先见到的就是崩塌的大门。从右侧坍塌的石墙进入这座被丛里掩盖近千年的古老城池。虽然整个坍塌的结构让游览的道路十分曲折,但由于电影《虎兄虎弟》的拍摄而建起的,中心的木栏通道还是给游客增添了非常多的方便。从中心穿过黑暗的长廊,参观了一座完整的藏书阁后,沿外围慢慢走出。其间看到很多景象:旅游警察赶跑了一众在景区乞讨的小孩子、火红色的小蜻蜓、硕大的蜗牛。奔密列的地雷问题在06年被德国的团队解决,门口的两块牌子清楚地写出了当时的扫雷情况。

bengmealea.jpg
接着上车返回。路上经过一小镇,路边一堆堆的摊位出售的大、小竹筒引起了我的兴趣。小司机问我要不要尝尝?原来是吃的(掏钱买下几个,很便宜)可是要怎么吃呢?卖东西的小孩好心帮我把它剥开,原来是粽子。只不过我们的版本是包竹叶,而这里是包竹筒的。不过这竹筒版本的是在是太不方便了,不方便携带而且也太难剥了,后来有一个大竹筒自己怎么也没法剥开,只好扔掉......

路上的景色是一大亮点,继续着昨天的美。天然的热带美景,各种样子的民居。天气也会忽变,回来就遇到了两次大暴雨。躲雨时还拍到了一堆小孩子(不知是不是一家人)。后来还出现以道路分割开,北方一片乌云,南方一片晴朗的天气。

waytobengmealea.jpg
后到达罗洛寺景区,开始参观。不过问题来了,我原先以为罗洛寺也像奔密列一样单独收费。但不想这里是属于吴哥景区的。但我的门票已经过期,附近也没有售票处,补票都不可能。只在外围拍了两张照就被管理员轰走了(没有门票闯入吴哥景区会被重罚),只好遗憾地走了。

回到旅店,稍加休息,开始步行暹粒。

我住的河东岸附近的大水已经没有前两天那么厉害。街上的小摊十分有趣,除了传统的炸蜘蛛摊位以外,我还发现了包书皮的小摊。继续向南走,慢慢地就进入了洪水区。大街上都是一片汪洋。由于自己的脚已经擦好了药,而且也穿了旅游鞋,随意就绕道前往酒吧街方向。结果还是没有走到酒吧街,因为向南完全就是水路了,干脆就在夜市(后来才见到这名字)逛,发现东西不错,环境也不错,一点儿都不亚于酒吧街边上的老市场,还更有本地的风情,就在这里买了Tee和一些小礼品。晚饭在街边的小摊吃了高棉炒面,木鱼似的面加上完全不辣的番茄辣酱,非常好吃。饮料也十分便宜。坐在街边享受着这一切,看着异国人的生活,回想这三天来的壮丽体验,心中无比满足。

突然停电了,这倒没影响什么,不过出了个小问题就是小司机没接到 我更改集合地点(原定酒吧街)的电话,只好去酒吧街。不巧还坐了个黑车。又在已经非常像威尼斯的酒吧街等了半天小司机,随后返回旅店。

siemreap.jpg
回来紧张地收拾东西,结账(老板打了很好的折扣,我很感谢)和小司机告别,去超市买了本切格瓦拉的摩托车日记(复印版本),和友善的超市售货员告别。昨天得知洞里萨湖的风暴随着大雨过去时就订了$20去马德望的船票。LP上说这段水路是整个国家最美的景色。准备早上出发去乘船。

整理好后睡下,早上五点起床,走到楼下只有店主一人。他热情地给我准备了早餐,然后我们攀谈起来,原来旅店的生意只是他生活的一部分,他另外还管理着一个学校(政府没钱,他为学校提供一部分的资金,为学生提供衣服、用品、接送他们)旅店(Bun Kao Guest House)则是非常重要的收入来源。联想到他这几天对我以及其它客人服务之真诚,我既感动又起敬。

出发的皮卡车来了,我上了车,老板送我出来,我们在长长的路上挥手道别。

就这样,坐在一辆皮卡上,穿过已被大水淹没近半数街道的暹粒城市,我踏上了前往柬埔寨第三大城市----马德望的旅程。

未完待续

要查看本系列更多文章,欢迎点击页面右侧的Cambodia标签。本系列文章可能会省略一些旅行中的细节内容,如果您也打算出游,并还想了解更多详细信息的话,欢迎在网站页面留言,我会很高兴帮助您。

柬埔寨背包记五:用石筑成的众神之家

| 1 Comment
我于2009年9月27日-10月8日在柬埔寨独自背包旅行,其间的经历和收获数不胜数。相关的经历我曾在 Beijing Open Party上有过一次交流分享,现在把旅行途中以及后来的一些记录陆续发布到这里,请感兴趣的朋友关注这里的更新。要查看本系列更多文章,欢迎点击页面右侧的Cambodia标签。除正文中的照片以外,还可以在我的豆瓣相册中欣赏因篇幅原因未能在文章中出现的照片上一次交流分享的slide可以在我的slideshare页面看到。

五点半早早起床,天空一片淡蓝。出发,第一站是距离暹粒50公里的高布斯滨。早晨的空气无比清新,没有杂质的空气让人感觉视野都无比纯净。路上几乎没人,一辆TukTuk在路上疾驶,伴随着徐徐上升的太阳。看着太阳从东方越过云层,照得田野上一片金光,异常美丽迷人。TukTuk路过比粒寺时急驶而过,现在有点儿后悔没能停下拍几张清晨金色的比粒寺,旅行时间安排得比较紧张。

p1040454.jpg半路上摩托抛锚了,所幸离路上村子的修车点不远,没用多久就修好了。用修车的时间拍了拍周边,蓝天配绿树的画面总是那么动人,怎么也看不烦。不过要说明的是,清晨舒服的气温不会持续太久,七点多升起的太阳光照在裸露的脚趾上,都有强烈的灼热感。9点以后就回到柬埔寨的气温(也就是一如既往的高温)了。

p1040465.jpg修好车前进,中途路过荔枝山脚下,这是吴哥区域唯一的一座大山,也是柬埔寨的圣山。

DSC_0442.JPG终于到达高布斯滨,这里的景色主要特色是山上的瀑布、河边的雕塑以及美丽的丛林。爬山从山脚走起,每100米有一个指示牌,山里面的瀑布就是尽头。真正走起来才发现,对于习惯都市生活的我们来说,这里几乎就像一座野山,并且我还是此时这里唯一的游客。整个路程共约1400米,从山脚下爬到山上。起先的几百米很是轻松,几近平坦的道路向前走而已,但到了800-600米倒数的时候,硕大的巨石等障碍就开始出现在你的面前。和着满是泥和水、以及错总盘绕的热带树枝,倘若你有双不是比较结实的旅行鞋,这地区的雨量也没有前两天那么可怕的话,应该就要好不少,可我偏偏又是穿了个最普通的人字拖来爬,带来的登山杖还忘在了TukTuk上。可以想象这一路是怎么样的有趣旅程。

作为现代城市人的悲哀,就是我们已经很久都没有体会到真正的自然环境是什么样子。来到高布斯滨这种自然环境浓郁的地方,就会有一点点不适应。早上9点,一座伴随着无数昆虫和鸟类鸣叫的大山,是我能够接触自然最深刻的体验了。除了自己以外,整座山再无一人,自己的第一反应是一种恐惧感。这是才发现自己其实从来没有进行过真正的探险旅程。在加上Lonely Planet里面强调的"此地区附近有雷区"更是让人不太放心 。心里有些不确定,但心中去看那1400米后终点的念头更加强烈,于是就继续壮胆前进。经过了巨石,小溪,各种各样的台阶或非台阶,无数看起来像是是蛇的枝条后,渐渐觉得耳边激流的声音越来越大,一路上指示牌的数字也逐渐趋于0,这就意味着自己离瀑布越来越近了。最终走到了瀑布跟前,所见到的和听到的远超想象。站在大石下的山涧,瀑布在疯狂地咆哮,心中的感觉无比震撼,手上只觉得是一阵阵地颤抖。看着湍急的水流,手紧紧地抓住栏杆不放,水流声大到自己喊些什么已经听不到了。后来查资料,这瀑布在旱季水还不多,而有如此汹涌,要拜前两天难得一见的大雨所赐。

kbalspean.jpg原路返回,路依然不好走。可喜的是,终于看到有游客上山了,在半山腰见到了我的小司机,可算有个伴兼向导了。一路上和他聊了聊这地区的变化:我以为的野景,在他看来已经改变众多,10年前这里的环境才更像野生丛林,而在悬崖边上看到的,从山下直长而上几十米的巨大树木,已经不到以前的十分之一了。而游客担心的狮子和蛇,他说以前是有的,但早已经被人抓净了,即使现在有野生的狮子,也是决计不敢出来见人的。可见人还是最可怕的。地雷也已经排净。在他看来,这地方已经被人改造太多了。

下山时万般小心还是滑了一跤,还好只是手破了点儿皮,没有大碍。半边裤子和相机底部沾了不少泥土,带着这痕迹走了一天。不幸的是拖鞋里进了沙子,每走一步脚上都是一阵剧痛,昨天脚上磨出的创口已经不是最大的问题,而无数沙粒附在鞋底才是痛苦。解决的办法很简单:脱鞋,赤足。于是下山的大多数旅程,我完全是赤裸着双脚从大石块、小石块、泥土和树枝中走出来的,这也是目前为止我与大自然最亲密与最实在的接触了。

遗憾的是,高布斯滨的许多著名雕塑,我都没有看到。不知是没找到还是水流太大,不过这旅程对自己来说已经很满意了。出来时以$1一条的价格买了几条围巾,找了个好心的店家借水把我和小司机的拖鞋冲洗干净,随后出发前往女王宫。


女王宫相对来说是个面积不大的景点,但她的盛名来自其精致。女王宫拥有吴哥最精细的浮雕,精美到让人很难想象这些是从石头上刻出来的。游人比较多。出来的时候,遇到残疾人推向一本吴哥寺庙的盗版书(Ancient Angkor)。本来不太想买,但试探性地说了个价格后居然可卖,最后就以低于人民币40的价格成交(全彩铜版纸,印刷还是不错的)。回来才发现,这书作为我写游记及平时查阅时的资料非常有用。

banteaysrei.jpg在景区吃饭。其间有个不知是不是TukTuk司机的柬埔寨青年凑过来和我聊天,他谈到很羡慕我们这种游客,可以到各个地方玩玩看看。他如果挣了足够多的的钱,也要到处去游览、坐飞机、去看看外面的世界,给我触动很大。提到前往马德望的计划,他还提醒我说卖给游客的票都很贵,而对当地人就非常便宜。十分感谢他的真诚建议,不过是那个船票对于游客来讲,只有一种选择($20)。还看到不少武装巡逻的士兵,因为近几年柬埔寨和泰国两国在吴哥附近又有交火(历史上两国对吴哥窟主权的争议已久。2010年1月底又发生了交火,不过是在离暹粒的吴哥景区很远的地方)。

看着外面完美的天气实在是一种享受,只是气温会让你觉得,熊掌与鱼不可兼得。吃完饭启程前往吴哥中心区域,向着昨天大圈尚未仔细看过的圣剑寺进发。途中又路过了比粒寺,决心再上去一遍。在这美好的天气下,再次感受这个吴哥我最喜欢的地方。拍了一堆照片,放松心情感受上面的美景,还请一对夫妇帮我拍了照。下来拍比粒寺全景,可这时发生了悲剧性的事件:今天早晨逐渐恢复的单反相机没电了,没有带充好电的电池。于是后面的照片就靠小卡片机支撑,遗憾的是这是在吴哥核心景区的最后一天,很多地方就没有由单反拍摄的完美照片了。

p1040797.jpg继续赶往圣剑寺,还记得暴雨肆虐那天我提到的台阶陡峭的茶胶寺吧?回来的路上我又拍了两张完美天气下的茶胶寺,美极了。

p1040822.jpgTukTuk路过吴哥中心地区时,抓拍了一张南仓库塔群的照片。

p1040835.jpg到达圣剑寺,开始探索这座巨大的寺庙。时间下午4点左右,日照高度依然非常之高,把单反上的CPL拿下来放在手里,放在卡片机镜头前面用,效果不错。这座庞大的寺庙,拥有宏伟的建筑结构,两棵纠缠在一起的巨树以及一座类似希腊风格的双层大厅式建筑。

preahkhan.jpg然后驱车又到吴哥王城中心地带,看了昨天没看的Preah Palilay,这里既幽静又漂亮,遗憾的是相机电池所剩无几,只拍了两张。然后又到巴芳寺和巴戎寺补了几张照片。

P1050017-3.JPG利用当天最后一点儿时间赶往吴哥窟,拍摄夕阳下的吴哥。这美丽天气下的吴哥真是太美了,可惜这是在景区的最后一天了,和相机电池做最后的搏斗,拍下了夕阳下的吴哥,为吴哥核心景区划上了虽然不算完美,但也非常圆满的句号。想起Lonely Planet里面的一句话:"吴哥窟----用石头筑成的众神之家,寺庙里的人间天堂"。今天一天的紧密行程带来了无数惊奇和挑战。想想两天前暴雨中令人畏惧的吴哥众神庙,和现在披着金色外衣、屹立近千年的世界奇观,吴哥所能带给你的,绝对超乎你的想象。

P1050041.JPG晚饭在一家GH的餐厅吃了个意面+三明治套餐,一顿超饱的晚餐。晚上想把脚上因为穿鞋不适导致的伤口消下毒,到街边的一个小药店,买了红药水、创可贴和棉签(Q-tips,最后店家送了我一大包),红药水约合人民币一块五。

回去休息睡觉,结束了吴哥核心之旅,明天将是吴哥部分的最后一天,奔密列和暹例城区之旅。

未完待续

要查看本系列更多文章,欢迎点击页面右侧的Cambodia标签。本系列文章可能会省略一些旅行中的细节内容,如果您也打算出游,并还想了解更多详细信息的话,欢迎在网站页面留言,我会很高兴帮助您。

Find recent content on the main index or look in the archives to find all content.

Recent Comments

  • lianghai: 真好,认真写游记的人。 似乎有几个小笔误: “倘若你有双不是比较结实的旅行鞋”、“遇到残疾人推向一本吴哥寺庙的盗版书”、“奔密列和暹例城区之旅”。 read more
OpenID accepted here Learn more about OpenID